JP6615392B1 - Information processing apparatus, information processing method, and program - Google Patents

Information processing apparatus, information processing method, and program Download PDF

Info

Publication number
JP6615392B1
JP6615392B1 JP2019001952A JP2019001952A JP6615392B1 JP 6615392 B1 JP6615392 B1 JP 6615392B1 JP 2019001952 A JP2019001952 A JP 2019001952A JP 2019001952 A JP2019001952 A JP 2019001952A JP 6615392 B1 JP6615392 B1 JP 6615392B1
Authority
JP
Japan
Prior art keywords
sentence
information
future
expression
oriented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019001952A
Other languages
Japanese (ja)
Other versions
JP2020112931A (en
Inventor
田中 良典
良典 田中
洋明 佐久間
洋明 佐久間
史仁 佐藤
史仁 佐藤
俊哉 小寺
俊哉 小寺
潔 和泉
潔 和泉
泰紀 坂地
泰紀 坂地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2019001952A priority Critical patent/JP6615392B1/en
Application granted granted Critical
Publication of JP6615392B1 publication Critical patent/JP6615392B1/en
Publication of JP2020112931A publication Critical patent/JP2020112931A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】1以上の各文が、未来に関することを含む未来表現文であり、かつ、目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文であるか否かを判断する未来志向文判断処理ができる情報処理装置、情報処理方法、およびプログラムを提供する。【解決手段】情報処理装置は、文が未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文であるか否かを判断する検知部と、検知部における判断結果に関する情報である未来志向文情報を取得する取得部と、取得部が取得した未来志向文情報を出力する出力部とを具備する。【選択図】図1Whether or not each of one or more sentences is a future expression sentence including a thing related to the future, and is a future-oriented sentence that is a target means sentence that is a sentence having at least one of a purpose expression and a means expression. Provided are an information processing apparatus, an information processing method, and a program capable of performing future-oriented sentence determination processing for determining whether or not. Whether an information processing apparatus is a future-oriented sentence that is a future expression sentence including a thing related to the future and is a target means sentence that is a sentence having one or more of a purpose expression and a means expression. A detection unit that determines whether or not, an acquisition unit that acquires future-oriented sentence information that is information related to a determination result in the detection unit, and an output unit that outputs the future-oriented sentence information acquired by the acquisition unit. [Selection] Figure 1

Description

本発明は、未来を表現している文であり、目的表現または手段表現のいずれか1以上を有する未来志向文を検出する情報処理装置等に関するものである。   The present invention relates to an information processing apparatus or the like that detects a future-oriented sentence that is a sentence expressing the future and has at least one of a purpose expression and a means expression.

従来、機械学習を用いて文書を分類する際に、高い精度を得ることができる、対象となる文書の素性を抽出する文書素性抽出装置があった(特許文献1参照)。
かかる装置は、文書を入力する入力手段と、文書を解析し第一の単位ごとに分割する第一境界分割手段と、前記第一境界分割手段によって第一の単位ごとに分割された文書を、第一の単位より長い第二の単位ごとに分割する第二境界分割手段と、前記第二境界分割手段が分割した第二の単位ごとそれぞれの範囲内で、隣接する第一の単位を連結し列とし、連結前の第一の単位とともに第一の素性として抽出する列抽出手段と、前記第一の素性を文書の素性として出力する素性出力手段と、を有することを特徴とする、文書素性抽出装置である。
Conventionally, there has been a document feature extraction apparatus that extracts a feature of a target document that can obtain high accuracy when classifying documents using machine learning (see Patent Document 1).
Such an apparatus includes an input unit that inputs a document, a first boundary dividing unit that analyzes the document and divides it into first units, and a document that is divided into first units by the first boundary dividing unit, A second boundary dividing unit that divides each second unit longer than the first unit, and a first unit adjacent to each other within a range of each second unit divided by the second boundary dividing unit. A document feature comprising: a column extracting unit that extracts a first feature together with a first unit before connection as a column; and a feature output unit that outputs the first feature as a document feature It is an extraction device.

特開2016−224847号公報Japanese Patent Laid-Open No. 2006-224847

しかしながら、従来技術においては、1以上の各文が、未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文であるか否かを判断する未来志向文判断処理が困難であった。   However, in the prior art, each of the one or more sentences is a future expression sentence including things related to the future, and is a future-oriented sentence that is a target means sentence that is a sentence having one or more of a purpose expression or a means expression. Future-oriented sentence determination processing to determine whether or not there is difficult.

例えば、有価証券報告書には、各企業が業績拡大やリスク管理を目的とした将来または現在進行中の施策が含まれている。なお、2017年3月31日以後に 終了する事業年度に係る有価証券報告書等から「対処すべき課題」を「経営方針、経営環境及び対処すべき課題等」に変更し、経営方針に ついても記述することとなっている。そのため、これらの文章は、当該企業の将来の業績や企業体質等を反映すると想定される。   For example, securities reports include future or current ongoing measures aimed at business performance expansion and risk management. Regarding the management policy, we changed the “issues to be addressed” from the securities report for the fiscal year ending on or after March 31, 2017 to “management policies, management environment and issues to be addressed”, etc. Is also to be described. Therefore, these sentences are expected to reflect the future performance and corporate structure of the company.

そして、目的表現や手段表現を含みかつ未来を表現している文である未来志向文は、その企業が未来において達成すべき目的に対し、具体的な手段を用いて取り組んで行くことを表していると想定される。このような文を抽出することで、その企業が認識している課題や、それらの課題に対する取り組 みとその進捗を効率的に把握することが出来る、と考えられる。さらに、例えば、複数の企業のこれらの情報を集約することで、財務指標の変化の予測や今後の業績の安定性、収益性高低、ガバナンスの良し悪しの判定等ができる可能性がある、と考えられる。   And the future-oriented sentence, which includes the purpose expression and means expression, and expresses the future, expresses that the company will work on the purpose to be achieved in the future using concrete means. It is assumed that By extracting such a sentence, it is thought that it is possible to efficiently grasp the issues recognized by the company, the efforts against those issues and their progress. Furthermore, for example, by gathering this information from multiple companies, it is possible to predict changes in financial indicators, determine the stability of future performance, profitability, and whether governance is good or bad. Conceivable.

上記の状況にも関わらず、上述した通り、従来技術においては、例えば、有価証券報告書等の文書から未来志向文を検出する技術が無かった。   In spite of the above situation, as described above, in the prior art, for example, there is no technology for detecting a future-oriented sentence from a document such as a securities report.

本第一の発明の情報処理装置は、文が未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文であるか否かを判断する検知部と、検知部における判断結果に関する情報である未来志向文情報を取得する取得部と、取得部が取得した未来志向文情報を出力する出力部とを具備する情報処理装置である。   The information processing apparatus according to the first aspect of the present invention is a future-oriented sentence that is a future expression sentence including a sentence related to the future, and is a target means sentence that is a sentence having at least one of a purpose expression and a means expression. An information processing unit comprising: a detection unit that determines whether or not, an acquisition unit that acquires future-oriented text information that is information related to a determination result in the detection unit, and an output unit that outputs the future-oriented text information acquired by the acquisition unit Device.

かかる構成により、文が未来志向文であるか否かを判断する未来志向文判断処理ができる。   With this configuration, it is possible to perform future-oriented sentence determination processing for determining whether a sentence is a future-oriented sentence.

また、本第二の発明の情報処理装置は、第一の発明に対して、2以上の文を含む1以上の文章情報が格納される文章情報格納部をさらに具備し、検知部は、文章情報格納部に格納されている1以上の各文章情報が有する1以上の文から、未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文を検知し、取得部は、検知部が検知した未来志向文に関する情報である未来志向文情報を取得する情報処理装置である。   Further, the information processing apparatus according to the second aspect of the present invention further includes a sentence information storage unit that stores one or more pieces of sentence information including two or more sentences, with respect to the first invention, A purpose that is a future expression sentence including things related to the future from one or more sentences included in one or more pieces of text information stored in the information storage unit, and a sentence having one or more of a purpose expression or means expression A future-oriented sentence that is a means sentence is detected, and the acquisition unit is an information processing apparatus that acquires future-oriented sentence information that is information related to the future-oriented sentence detected by the detection unit.

かかる構成により、1以上の文章情報に含まれる各文に対して未来志向文判断処理を行い、その結果を用いて、情報を出力できる。   With this configuration, it is possible to perform future-oriented sentence determination processing for each sentence included in one or more pieces of sentence information, and use the result to output information.

また、本第三の発明の情報処理装置は、第二の発明に対して、検知部は、検査対象の文が、未来表現文であるか否かを判断する未来表現文検知手段と、検査対象の文が、目的手段文であるか否かを判断する目的手段文検知手段と、未来表現文検知手段が未来表現文であると判断し、かつ目的手段文検知手段が目的手段文であると判断した文である未来志向文を選択する選択手段とを具備し、取得部は、選択手段が選択した未来志向文に関する情報である未来志向文情報を取得する情報処理装置である。   Further, in the information processing apparatus according to the third aspect of the invention, in contrast to the second aspect of the invention, the detection unit includes a future expression sentence detection unit that determines whether the sentence to be examined is a future expression sentence, The target means sentence detection means for determining whether or not the target sentence is a target means sentence, the future expression sentence detection means determines that it is a future expression sentence, and the purpose means sentence detection means is the target means sentence. The acquisition unit is an information processing apparatus that acquires future-oriented sentence information that is information related to the future-oriented sentence selected by the selection means.

かかる構成により、1以上の文章情報に含まれる各文に対して未来志向文判断処理を行い、その結果を用いて、情報を出力できる。   With this configuration, it is possible to perform future-oriented sentence determination processing for each sentence included in one or more pieces of sentence information, and use the result to output information.

また、本第四の発明の情報処理装置は、第二または第三の発明に対して、未来志向文に該当しない文を除くための条件である除外条件が格納される除外条件格納部と、1以上の各文章情報が有する1以上の各文が除外条件を満たすか否かを判断し、除外条件を満たす文を除外する除外部をさらに具備し、検知部は、1以上の各文章情報が有する1以上の文であり、除外部が除外した文を除く1以上の文にから、未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文を検知する情報処理装置である。   The information processing apparatus according to the fourth aspect of the invention includes an exclusion condition storage unit that stores, for the second or third invention, an exclusion condition that is a condition for removing a sentence not corresponding to a future-oriented sentence, It further judges whether one or more sentences which one or more each sentence information has satisfy | fills an exclusion condition, and further comprises the exclusion part which excludes the sentence which satisfy | fills an exclusion condition, and a detection part is 1 or more each sentence information Is a future expression sentence including matters related to the future from one or more sentences excluding the sentence excluded by the exclusion unit, and having any one or more of the purpose expression or the means expression. It is an information processing device that detects a future-oriented sentence that is a certain purpose means sentence.

かかる構成により、高速かつ精度高くに未来志向文判断処理ができる。   With this configuration, future-oriented sentence determination processing can be performed at high speed and with high accuracy.

また、本第五の発明の情報処理装置は、第四の発明に対して、除外条件は、文の文字数に関する文字数条件、文が出現する項目であり、文に対応する項目に関する項目条件、文の属性に関する属性条件、文に含まれる特定の文字に関する文字条件のうちの1以上の条件、または2以上の条件の組み合わせである情報処理装置である。   Further, in the information processing apparatus according to the fifth aspect of the invention, in contrast to the fourth aspect, the exclusion condition is a character number condition relating to the number of characters in the sentence, an item in which the sentence appears, an item condition relating to the item corresponding to the sentence, This is an information processing apparatus that is one or more of the attribute conditions related to the attribute of the character, the character conditions related to a specific character included in the sentence, or a combination of two or more conditions.

かかる構成により、高速かつ精度高くに未来志向文判断処理ができる。   With this configuration, future-oriented sentence determination processing can be performed at high speed and with high accuracy.

また、本第六の発明の情報処理装置は、第一から第五いずれか1つの発明に対して、文末表現に関する条件である文末条件が格納される文末条件格納部をさらに具備し、検知部は、文末条件に合致する文に対して、未来表現文であることを決定する、または未来表現文でないことを決定する情報処理装置である。   The information processing apparatus according to the sixth aspect of the present invention further comprises a sentence ending condition storage unit that stores a sentence ending condition that is a condition related to sentence ending expression, as compared with any one of the first to fifth inventions, and a detection unit Is an information processing apparatus that determines that a sentence that meets the sentence end condition is a future expression sentence or is not a future expression sentence.

かかる構成により、高速かつ精度高くに未来表現文の検知ができる。   With this configuration, it is possible to detect the future expression sentence at high speed and with high accuracy.

また、本第七の発明の情報処理装置は、第一から第六いずれか1つの発明に対して、未来表現文である2以上の未来表現正例文を用いて、未来表現文であるか否かを判断する際に使用される情報であり、機械学習のアルゴリズムにより作成された情報である第一学習器が格納される第一学習器格納部と、検知部は、第一学習器を用いて、機械学習のアルゴリズムにより、検査対象の文に対して、未来表現文であるか否かを決定する第一機械学習手段を具備する情報処理装置である。   In addition, the information processing apparatus according to the seventh aspect of the present invention is a future expression sentence with respect to any one of the first to sixth inventions by using two or more future expression sentences that are future expression sentences. The first learner storage unit that stores the first learner, which is information used when determining whether the information is created by a machine learning algorithm, and the detection unit uses the first learner Thus, the information processing apparatus includes first machine learning means for determining whether or not a sentence to be examined is a future expression sentence by a machine learning algorithm.

かかる構成により、精度高くに未来表現文の検知ができる。   With this configuration, it is possible to detect the future expression sentence with high accuracy.

また、本第八の発明の情報処理装置は、第六の発明に対して、第一学習器は、2以上の各未来表現正例文を用いて取得されたベクトルであり、予め決められた文末手がかり表現に関する文末手がかり表現情報、予め決められた頻出する用語である頻出用語に関する頻出用語情報、含まれる副詞の用語に関する副詞情報、文末の2文節のペアに関するペア情報、文末の形態素の品詞に関する品詞情報、文に含まれる句点に関する句点情報、文の属性に関する文属性情報のうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習し、取得された学習器であり、第一機械学習手段は、検査対象の文から、文末手がかり表現情報、頻出用語情報、副詞情報、ペア情報、品詞情報、句点情報、文属性情報のうちの1以上の情報を取得し、1以上の情報を要素とするベクトルを構成し、ベクトルを第一学習器に適用し、機械学習のアルゴリズムにより、未来表現文であるか否かを示す情報を取得する情報処理装置である。   Further, in the information processing apparatus according to the eighth aspect of the invention, in contrast to the sixth aspect, the first learning device is a vector obtained using two or more future representation correct example sentences, and has a predetermined sentence end. End-of-sentence clue expression information related to clue expression, frequent term information related to frequent terms that are predetermined frequent terms, adverb information about adverb terms included, pair information about pairs of two clauses at the end of sentences, part of speech about morphemes of morphemes at the end of sentences A learning device obtained by learning with an algorithm of machine learning using two or more vectors having one or more pieces of information, phrase information about the phrases included in the sentence, and sentence attribute information about sentence attributes as elements. The first machine learning means, from the sentence to be examined, includes sentence end clue expression information, frequent term information, adverb information, pair information, part of speech information, punctuation information, sentence attribute information Get one or more pieces of information, construct a vector with one or more pieces of information as elements, apply the vector to the first learner, and get information indicating whether it is a future expression sentence by machine learning algorithm Information processing apparatus.

かかる構成により、より精度高くに未来表現文の検知ができる。   With this configuration, it is possible to detect the future expression sentence with higher accuracy.

また、本第九の発明の情報処理装置は、第一から第七いずれか1つの発明に対して、目的手段文である2以上の目的手段正例文を用いて、目的手段文であるか否かを判断する際に使用される情報であり、機械学習のアルゴリズムにより作成された情報である第二学習器が格納される第二学習器格納部と、検知部は、第二学習器を用いて、機械学習のアルゴリズムにより、1以上の各文章情報が有する1以上の文に対して、目的手段文であるか否かを決定する第二機械学習手段を具備する情報処理装置である。   Further, the information processing apparatus according to the ninth aspect of the present invention is a target means sentence with respect to any one of the first to seventh inventions by using two or more target means correct example sentences that are target means sentences. The second learner storage unit for storing the second learner, which is information used when determining whether or not is the information created by the machine learning algorithm, and the detection unit uses the second learner An information processing apparatus comprising second machine learning means for determining whether or not one or more sentences included in one or more pieces of sentence information are target means sentences by a machine learning algorithm.

かかる構成により、精度高く目的手段文を検知できる。   With this configuration, the target means sentence can be detected with high accuracy.

また、本第十の発明の情報処理装置は、第九の発明に対して、第二学習器は、2以上の各目的手段正例文を用いて取得されたベクトルであり、読点の前の単語の品詞に関する読点前品詞情報、句点の前の単語の品詞に関する句点前品詞情報、文に含まれる句点に関する句点情報、文の属性に関する文属性情報、第一機械学習手段が取得した未来表現文であるか否かについての第一判断結果情報のうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習し、取得された学習器であり、第二機械学習手段は、1以上の各文章情報が有する1以上の各文から、読点前品詞情報、句点前品詞情報、句点情報、文属性情報、第一判断結果情報のうちの1以上の情報を取得し、1以上の情報を要素とするベクトルを構成し、ベクトルを第二学習器に適用し、機械学習のアルゴリズムにより、目的手段文であるか否かを示す情報を取得する情報処理装置である。   Further, in the information processing apparatus according to the tenth aspect of the invention, in contrast to the ninth aspect, the second learner is a vector acquired using two or more objective means positive example sentences, and the word before the reading Part-of-speech information before punctuation, part-of-speech part-of-speech information about part-of-speech of the word before the punctuation point, punctuation information about the punctuation included in the sentence, sentence attribute information about the sentence attribute, and future expression sentence acquired by the first machine learning means It is a learning device obtained by learning with an algorithm of machine learning using two or more vectors having one or more pieces of information of first determination result information as to whether or not there is, second machine learning The means acquires one or more pieces of information from one or more sentences included in one or more pieces of sentence information, including part-of-speech information before punctuation, part-of-speech information before punctuation, punctuation information, sentence attribute information, and first determination result information. A vector with one or more pieces of information as elements Configured to apply the vector to the second learning device, the algorithm of machine learning, an information processing apparatus that acquires information indicating whether an object means statement.

かかる構成により、より精度高く目的手段文を検知できる。   With this configuration, the target means sentence can be detected with higher accuracy.

また、本第十一の発明の情報処理装置は、第二から第十いずれか1つの発明に対して、取得部は、検知部が検知した1以上の未来志向文を用いて統計処理を行い、統計処理結果である未来志向文情報を取得する情報処理装置である。   In addition, in the information processing apparatus according to the eleventh aspect of the present invention, with respect to any one of the second to tenth aspects, the acquisition unit performs statistical processing using one or more future-oriented sentences detected by the detection unit. The information processing apparatus acquires future-oriented sentence information that is a statistical processing result.

かかる構成により、未来志向文判断処理の結果を使用し、統計処理ができる。   With this configuration, it is possible to perform statistical processing using the results of future-oriented sentence determination processing.

また、本第十二の発明の情報処理装置は、第十一の発明に対して、文章情報格納部の1以上の各文章情報は、文章属性値が対応付いており、取得部は、文章属性値を用いて、統計処理結果である未来志向文情報を取得する情報処理装置である。   Further, in the information processing apparatus of the twelfth aspect of the invention, in contrast to the eleventh aspect, one or more pieces of sentence information in the sentence information storage unit are associated with sentence attribute values, and the acquisition unit This is an information processing apparatus that acquires future-oriented sentence information that is a statistical processing result using an attribute value.

かかる構成により、未来志向文判断処理の結果を使用し、統計処理ができる。   With this configuration, it is possible to perform statistical processing using the results of future-oriented sentence determination processing.

また、本第十三の発明の情報処理装置は、第十二の発明に対して、文章属性値は、企業を識別する企業識別子または業種を識別する業種識別子であり、取得部は、企業識別子または業種識別子を用いて、統計処理結果である未来志向文情報を取得する情報処理装置である。   Further, in the information processing apparatus of the thirteenth invention, in contrast to the twelfth invention, the sentence attribute value is a company identifier for identifying a company or a business type identifier for identifying a business type. Alternatively, the information processing apparatus acquires future-oriented sentence information, which is a statistical processing result, using an industry type identifier.

かかる構成により、未来志向文判断処理の結果を使用し、適切な統計処理ができる。   With this configuration, it is possible to perform appropriate statistical processing using the results of the future-oriented sentence determination processing.

本発明による情報処理装置によれば、1以上の各文が、未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文であるか否かを判断する未来志向文判断処理ができる。   According to the information processing apparatus of the present invention, the one or more sentences are future expression sentences including things related to the future, and the future is an object means sentence that is a sentence having one or more of the object expression and the means expression. Future-oriented sentence determination processing can be performed to determine whether the sentence is intention-oriented.

実施の形態1における情報処理装置Aのブロック図Block diagram of information processing apparatus A in Embodiment 1 同文末の特定の手がかり表現の例を示す図Figure showing an example of specific clue expression at the end of the sentence 同第一機械学習手段3311が構成するベクトルの次元数等を示す図The figure which shows the dimensionality etc. of the vector which the 1st machine learning means 3311 comprises 同第二機械学習手段3321が構成するベクトルの次元数等を示す図The figure which shows the dimensionality etc. of the vector which the 2nd machine learning means 3321 comprises 同情報処理装置Aの動作例について説明するフローチャートFlow chart for explaining an operation example of the information processing apparatus A 同検知処理の例について説明するフローチャートFlow chart explaining an example of the detection process 同除外処理の例について説明するフローチャートFlow chart explaining an example of the exclusion process 同未来表現文検査の動作例について説明するフローチャートFlowchart explaining an operation example of the future expression sentence inspection 同目的手段検査の動作例について説明するフローチャートFlow chart for explaining an operation example of the same means inspection 同目的手段検査の動作例について説明するフローチャートFlow chart for explaining an operation example of the same means inspection 同取得処理の例について説明するフローチャートFlow chart explaining an example of the acquisition process 同第一学習処理の例について説明するフローチャートFlow chart explaining an example of the first learning process 同第二学習処理の例について説明するフローチャートFlow chart for explaining an example of the second learning process 同検知処理の例について説明するフローチャートFlow chart explaining an example of the detection process 同検知処理の例について説明するフローチャートFlow chart explaining an example of the detection process 同情報処理装置Aの動作例を説明する概念図Conceptual diagram explaining an operation example of the information processing apparatus A 同文章情報の例である有価証券報告書を示す図Figure showing a securities report as an example of the same text information 同第一のフィルタリング処理により除かれた文の例を示す図Figure showing examples of sentences removed by the first filtering process 同実験結果を示す図Figure showing the results of the experiment 同実験結果を示す図Figure showing the results of the experiment 同情報処理装置の評価を示す図The figure which shows evaluation of the same information processing equipment 同未来志向文情報の例を示す図Figure showing example of future-oriented sentence information 同コンピュータシステムの概観図Overview of the computer system 同コンピュータシステムのブロック図Block diagram of the computer system

以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。   Hereinafter, embodiments of an information processing apparatus and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.

(実施の形態1)
本実施の形態において、文が未来志向文であるか否かを判断し、判断に関する未来志向文情報を取得し、出力する情報処理装置について説明する。なお、未来志向文とは、未来表現文に該当し、かつ目的手段文に該当する文である。未来表現文とは、未来に関することを含む文である。未来表現文は、例えば、未来に関することを述べた文である。未来志向文は、例えば、一文の中で、未来を表現し、かつその企業に関する目的及び手段の少なくともどちらかの表現を含む文である。未来志向文は、例えば、「当社グループのポジションをさらに上位に引き上げ安定的に販売を伸ばすために、開発体制の強化を進めるとともにアライアンス の拡充を図ることで商品競争力の向上に取り組んでまいります。」である。ここで、「ために」が目的表現、「図ることで」が手段表現、「取り組んでまいります」が未来表現文であることを確定させる。
(Embodiment 1)
In the present embodiment, an information processing apparatus that determines whether a sentence is a future-oriented sentence, acquires future-oriented sentence information related to the determination, and outputs the information is described. Note that the future-oriented sentence is a sentence that corresponds to a future expression sentence and also corresponds to a purpose means sentence. The future expression sentence is a sentence including the future. The future expression sentence is, for example, a sentence that describes the future. The future-oriented sentence is, for example, a sentence that expresses the future in one sentence and includes at least one of the purpose and means related to the company. For example, “Future-oriented statements are as follows:“ In order to raise the position of the Group further to the top and to achieve stable sales, we will work to improve product competitiveness by strengthening our development system and expanding alliances. . " Here, it is determined that “for” is the purpose expression, “by planning” is the means expression, and “we will work” is the future expression sentence.

未来表現文は、通常、未来に行われることを述べた文、または現在進行中のことを述べた文である。未来表現文は、例えば、進行中を示す文である。進行中を示す文は、例えば、「田中さんは部屋で本を読んでいる。」「安全性と生産性の両立を目指した安全コンサルティングを展開しています。」である。また、未来表現文は、例えば、何らかのことの結果に関する結果残存を示す文である。結果残存を示す文は、例えば、「窓ガラスが割れている。」「災害や不測の事態にも対応できるよう生産体制を整備しています。」である。また、未来表現文は、例えば、繰り返しを示す文である。繰り返しを示す文は、例えば、「田中さんは毎朝ジョギングしている。」「経営の基本方針や重要事項を決定するとともにマネジメントサイクル全般に関わる課題を検討・策定する機関として経営会議を月1回開催しています。」である。また、未来表現文は、例えば、効果が持続しているに関する効力持続を示す文である。効力持続を示す文は、例えば、「この橋は5年前に壊れている。」「新たな事業ポートフォリオを念頭におきながら、基盤となる国内市場での営業力強化が引き続き重要と考えております。」である。また、未来表現文は、例えば、記録を示す文である。記録を示す文は、例えば、「著書によるとこんなことを述べている。」「環境変化に対応して時代のニーズを企業活動に取り入れることにより、企業価値ひいては株主共同の利益を確保し、向上させることを最優先の課題としております。」である。未来表現文は、例えば、完了相(未来)を示す文である。完了相(未来)は、未来に完了することを示す文である。完了相(未来)を示す文は、例えば、「米国に設立したコーポレートベンチャーファンドを通じて出資したAffectiva,Inc.の感情認識AIについて、自社サービスの開発及び事業化を目指します。」   A future expression sentence is usually a sentence that states what will be done in the future, or a sentence that states what is currently in progress. The future expression sentence is, for example, a sentence indicating the progress. Examples of sentences that indicate progress are: “Mr. Tanaka is reading a book in the room.” “Providing safety consulting aimed at achieving both safety and productivity.” The future expression sentence is, for example, a sentence indicating the remaining result relating to the result of something. Examples of statements that indicate the remaining results are, for example, “The window glass is broken.” “We have a production system in place to cope with disasters and unexpected situations.” The future expression sentence is, for example, a sentence indicating repetition. For example, “Mr. Tanaka is jogging every morning.” “A management meeting is held once a month as an organization that determines basic management policies and important matters and reviews and formulates issues related to the overall management cycle. It is held. " The future expression sentence is, for example, a sentence indicating that the effect is sustained with respect to the effect being maintained. For example, “This bridge was broken five years ago.” “We believe it is important to strengthen sales capabilities in the underlying domestic market, keeping in mind the new business portfolio. " The future expression sentence is, for example, a sentence indicating recording. For example, a sentence indicating the record states, “According to the book,“ I am saying this. ”“ Incorporating the needs of the times into corporate activities in response to changes in the environment, the corporate value and thus the common interests of shareholders are secured and improved. Is the top priority. ” The future expression sentence is, for example, a sentence indicating a completion phase (future). The completion phase (future) is a sentence indicating completion in the future. The statement indicating the completion phase (future) is, for example, “Aiming to develop and commercialize in-house services for Affectiva, Inc.'s emotion recognition AI invested through a corporate venture fund established in the United States.”

また、完了を示す文、反事実を示す文、単なる状態を示す文、現在において完了していることを示す完了相(現在)の文は、未来表現文ではない。完了を示す文は、例えば、「彼からの手紙を受け取ったとき、彼はすでに死んでいた。」「不採算であった新規事業については、経済情勢の悪化等の要因もあり、すでにその多くは前連結会計年度末までに撤退しております。」である。また、反事実を示す文は、例えば、「彼が助けてくれなかったら、私は死んでいた。」「顧みるに、お役所の机上で作成された当初の細分化再開発の計画案で押し切られていたら、賃貸収入の減少から新規投資への圧力により、当時から今日に至る間の経済状況に照らし、現在の立飛企業の存在はあり得なかったと確信しております。」である。さらに、単なる状態を示す文は、例えば、「学校の北側に高い山がそびえている。」「当社グループでは、営業部員をフィールドパーソンと呼んでいます。」である。さらに、完了相(現在)を示す文は、例えば、「HDCとは、ホスピタリティ、デリシャス、クレンリネスの略で、当社グループにおけるお客様へのサービス向上運動のことです。」である。   Also, a sentence indicating completion, a sentence indicating counter-fact, a sentence indicating a simple state, and a sentence in a completion phase (current) indicating completion at present are not future expression sentences. A sentence indicating completion is, for example, “When he received a letter from him, he was already dead.” “With regard to new businesses that were unprofitable, there were factors such as worsening economic conditions, and many of them Has been withdrawn by the end of the previous consolidated fiscal year. " In addition, the sentence showing the counter-fact is, for example, “I was dead if he didn't help.” “In retrospect, the original subdivision redevelopment plan created on the desk of the government office was cut off. If so, we are convinced that the current existence of the company was not possible in the light of the economic situation from that time to the present day due to the decline in rental income and new investment. " In addition, a simple statement that states the state is, for example, “There is a high mountain on the north side of the school.” “In our group, the sales staff is called a field person.” Furthermore, the sentence indicating the completion phase (current) is, for example, “HDC stands for Hospitality, Delicious, and Cleanliness, and is a service improvement campaign for customers in our group.”

目的手段文は、目的表現または手段表現のいずれか1以上を有する文である。目的表現は、目的を示す表現と言っても良いし、目的について述べた用語を含む文字列と言っても良い。手段表現は、手段を示す表現と言っても良いし、手段について述べた用語を含む文字列と言っても良い。表現とは、文字列であり、例えば、用語、単語、または句等である。   The objective means sentence is a sentence having at least one of the objective expression and the means expression. The purpose expression may be an expression indicating the purpose or a character string including a term describing the purpose. The means expression may be an expression indicating the means or a character string including a term describing the means. An expression is a character string, such as a term, a word, or a phrase.

目的手段文は、例えば、「総合的な競争力を持った事業グループの構築を目指し、再編・統合に取り組みます。」である。かかる文の「目指し、」は目的表現の手がかり表現となり、「取り組みます。」は手段表現の手がかり表現となる。また、目的手段文は、例えば、「顧客の取り込みを図ることで、ユーザー数の拡大を進めて参ります。」である。かかる文の「図ることで、」は手段表現の手がかり表現となり、「進めて参ります。」は目的表現の手がかり表現となる。また、目的手段文は、例えば、「顧客ニーズに応えるべく、積極的な研究開発活動を推進し、市場における優位性ある高付加価値製品の開発を目指します。」である。かかる文の「べく、」は目的表現の手がかり表現となり、「推進し、」「目指します。」では手段表現の手がかり表現となる。また、目的手段文は、例えば、「本社及び支店組織による現場支援体制を強化し、組織全体で原価低減に努め、人員の流動化による技術者の確保と適正配置の実行により現場力の向上を目指してまいります。」である。なお、手がかり表現は、手がかり句と言っても良い。   The purpose means statement is, for example, “Aiming to build a business group with comprehensive competitiveness and work on reorganization and integration.” In this sentence, “Aim,” is a clue expression for purpose expression, and “I work” is a clue expression for means expression. The purpose means sentence is, for example, “We will increase the number of users by attracting customers”. In such a sentence, “by drawing” becomes a clue expression of means expression, and “I will advance” becomes a clue expression of purpose expression. In addition, the purpose means sentence is, for example, “Aiming to develop high-value-added products with superiority in the market by promoting aggressive research and development activities to meet customer needs”. In such a sentence, “To” is a clue expression of purpose expression, and “Promote” and “Aim” are clue expressions of means expression. In addition, the purpose means statement is, for example, “Strengthen the on-site support system by the head office and branch organization, work to reduce costs throughout the entire organization, improve the on-site capabilities by securing engineers and implementing appropriate allocation through the mobility of personnel. I will aim. " Note that the clue expression may be called a clue phrase.

また、本実施の形態において、2以上の文のうち、明らかに未来表現文でない文を除く第一のフィルタリング処理を行う情報処理装置について説明する。なお、未来表現文でない文を、適宜、非未来表現文と言う。また、本実施の形態において、第一のフィルタリング処理は、目的手段文の抽出の前処理として行われても良い。   In the present embodiment, an information processing apparatus that performs a first filtering process that excludes a sentence that is clearly not a future expression sentence from two or more sentences will be described. A sentence that is not a future expression sentence is appropriately referred to as a non-future expression sentence. Further, in the present embodiment, the first filtering process may be performed as a pre-process for extracting the objective means sentence.

また、本実施の形態において、第一のフィルタリング処理の結果、残った文に対して、文末表現を用いて、明らかに未来表現文である文、または明らかに未来表現文でない文を決定する第二のフィルタリング処理を行う情報処理装置について説明する。   Further, in the present embodiment, as a result of the first filtering process, a sentence that is clearly a future expression sentence or a sentence that is clearly not a future expression sentence is determined for the remaining sentences using a sentence end expression. An information processing apparatus that performs the second filtering process will be described.

また、本実施の形態において、機械学習のアルゴリズムを用いて、未来表現文を決定する情報処理装置について説明する。   In the present embodiment, an information processing apparatus that determines a future expression sentence using a machine learning algorithm will be described.

また、本実施の形態において、機械学習のアルゴリズムを用いて、目的手段文を決定する情報処理装置について説明する。   Also, in the present embodiment, an information processing apparatus that determines a target means sentence using a machine learning algorithm will be described.

さらに、本実施の形態において、文章情報には対応付いている1以上の文書属性値を用いて統計処理を行い、未来志向文情報を取得する情報処理装置について説明する。   Furthermore, in the present embodiment, an information processing apparatus that performs statistical processing using one or more document attribute values associated with text information and acquires future-oriented text information will be described.

図1は、本実施の形態における情報処理装置Aのブロック図である。情報処理装置Aは、格納部1、受付部2、処理部3、および出力部4を備える。   FIG. 1 is a block diagram of an information processing apparatus A in the present embodiment. The information processing apparatus A includes a storage unit 1, a reception unit 2, a processing unit 3, and an output unit 4.

格納部1は、文章情報格納部11、学習データ格納部12、除外条件格納部13、文末条件格納部14、第一学習器格納部15、および第二学習器格納部16を備える。処理部3は、学習部31、除外部32、検知部33、および取得部34を備える。検知部33は、未来表現文検知手段331、目的手段文検知手段332、および選択手段333を備える。未来表現文検知手段331は、第一機械学習手段3311を備える。目的手段文検知手段332は、第二機械学習手段3321を備える。   The storage unit 1 includes a sentence information storage unit 11, a learning data storage unit 12, an exclusion condition storage unit 13, a sentence end condition storage unit 14, a first learner storage unit 15, and a second learner storage unit 16. The processing unit 3 includes a learning unit 31, an exclusion unit 32, a detection unit 33, and an acquisition unit 34. The detection unit 33 includes a future expression sentence detection means 331, a target means sentence detection means 332, and a selection means 333. The future expression sentence detection means 331 includes first machine learning means 3311. The objective means sentence detection means 332 includes second machine learning means 3321.

格納部1には、各種の情報が格納される。各種の情報とは、例えば、後述する文章情報、後述する学習データ、後述する除外条件、後述する文末条件、後述する第一学習器、後述する第二学習器である。   Various information is stored in the storage unit 1. The various types of information include, for example, sentence information described later, learning data described later, exclusion conditions described later, sentence ending conditions described later, a first learner described later, and a second learner described later.

文章情報格納部11は、1以上の文章情報が格納される。文章情報は、1または2以上の文を含む情報である。文章情報は、例えば、企業の活動について記載された企業活動テキストである。企業活動テキストは、有価証券報告書、ニュースレター、企業のホームページ等である。ただし、文章情報の内容は問わない。また、文章情報は、例えば、ファイルであるが、DBに格納されている情報でも良い。文章情報は、テキストファイルでも良いし、HTMLファイル等でも良い。つまり、文章情報のデータ構造、記述形式等は問わない。なお、有価証券報告書は、通常、階層的な構造を有する。つまり、文章情報は、階層的な構造を有する文書の情報でも良いし、フラットな構造の文書の情報でも良い。   The text information storage unit 11 stores one or more text information. The sentence information is information including one or two or more sentences. The text information is, for example, a business activity text describing business activities. The corporate activity text includes a securities report, a newsletter, a corporate website, and the like. However, the content of the text information does not matter. Moreover, although text information is a file, for example, the information stored in DB may be sufficient. The text information may be a text file or an HTML file. That is, the data structure of the text information, the description format, etc. are not questioned. Note that securities reports usually have a hierarchical structure. That is, the text information may be information on a document having a hierarchical structure or information on a document having a flat structure.

学習データ格納部12には、4以上の学習データが格納される。学習データは、学習器を構成するための元になる情報である。学習器は、分類器と言っても良い。4以上の学習データは、2以上の第一学習データ、および2以上の第二学習データを含む。   The learning data storage unit 12 stores four or more learning data. The learning data is information serving as a basis for configuring the learning device. The learning device may be called a classifier. The four or more learning data includes two or more first learning data and two or more second learning data.

第一学習データは、第一学習器を構成するための学習データである。2以上の各第一学習データは、1以上の正例と1以上の負例とを有することは好適である。第一学習データの正例は、未来表現文を含む。第一学習データの正例は、未来表現文であることを示す情報(フラグ)と未来表現文でも良い。第一学習データは、未来表現文でも良い。第一学習データの負例は、非未来表現文を含む。第一学習データの負例は、未来表現文でないことを示す情報(フラグ)と非未来表現文でも良い。第一学習データの負例は、非未来表現文でも良い。   The first learning data is learning data for configuring the first learning device. It is preferable that each of the two or more first learning data has one or more positive examples and one or more negative examples. A positive example of the first learning data includes a future expression sentence. The positive example of the first learning data may be information (flag) indicating a future expression sentence and a future expression sentence. The first learning data may be a future expression sentence. A negative example of the first learning data includes a non-future expression sentence. The negative example of the first learning data may be information (flag) indicating that it is not a future expression sentence and a non-future expression sentence. The negative example of the first learning data may be a non-future expression sentence.

第二学習データは、第二学習器を構成するための学習データである。2以上の各第二学習データは、1以上の正例と1以上の負例とを有することは好適である。第二学習データの正例は、目的手段文を含む。第二学習データの正例は、目的手段文であることを示す情報(フラグ)と目的手段文でも良い。第二学習データの正例は、目的手段文でも良い。第二学習データの負例は、目的手段文でない文を含む。第二学習データの負例は、目的手段文でないことを示す情報(フラグ)と目的手段文ではない文でも良い。第二学習データの負例は、目的手段文でない文でも良い。なお、目的手段文でない文を、適宜、非目的手段文と言う。   The second learning data is learning data for configuring the second learning device. Each of the two or more second learning data preferably has one or more positive examples and one or more negative examples. The positive example of the second learning data includes the objective means sentence. The positive example of the second learning data may be information (flag) indicating that it is an objective means sentence and an objective means sentence. The positive example of the second learning data may be a purpose means sentence. The negative example of the second learning data includes a sentence that is not the objective means sentence. The negative example of the second learning data may be information (flag) indicating that it is not the objective means sentence and a sentence that is not the objective means sentence. A negative example of the second learning data may be a sentence that is not a target means sentence. Note that a sentence that is not a purpose means sentence is appropriately referred to as a non-purpose means sentence.

除外条件格納部13には、除外条件が格納される。除外条件は、未来志向文に該当しない文を除くための条件である。除外条件は、例えば、未来志向文を抽出する場合に、ノイズとなる文を除外するための条件である。   The exclusion condition storage unit 13 stores exclusion conditions. The exclusion condition is a condition for excluding sentences that do not correspond to future-oriented sentences. The exclusion condition is a condition for excluding a sentence that causes noise when, for example, a future-oriented sentence is extracted.

除外条件は、例えば、文字数条件、項目条件、属性条件、文字条件のうちの1以上の条件、または文字数条件、項目条件、属性条件、文字条件のうちの2以上の条件の組み合わせの条件である。   The exclusion condition is, for example, a condition of one or more of a character number condition, an item condition, an attribute condition, and a character condition, or a combination of two or more conditions of a character number condition, an item condition, an attribute condition, and a character condition. .

文字数条件は、文の文字数に関する条件である。文字数条件は、例えば、文字数が閾値以下、または閾値未満であることである。なお、閾値は、例えば、6であることは好適であるが、5から9等でも良い。   The character number condition is a condition related to the number of characters of a sentence. The character number condition is, for example, that the number of characters is less than or less than a threshold value. For example, the threshold is preferably 6, but may be 5 to 9 or the like.

項目条件は、文が出現する項目であり、文に対応する項目に関する条件である。項目条件は、文に対応する章または節等に関する条件である、と言っても良い。項目条件は、文に対応するタイトルに関する条件である、と言っても良い。項目条件は、例えば、特定の項目の文であること、特定の項目の文でないことである。項目条件は、例えば、有価証券報告書の[対処すべき課題]、[経営方針、経営環境及び対処すべき課題等]の項目に該当することである。項目とは、階層化された文書の中の見出し、タイトル、章、節、タグ(例えば、[対処すべき課題]、[経営方針、経営環境及び対処すべき課題等])等である。文に対応する項目は、例えば、文が属する項目である、と言える。   The item condition is an item in which a sentence appears, and is a condition relating to an item corresponding to the sentence. It may be said that the item condition is a condition related to a chapter or a section corresponding to the sentence. It may be said that the item condition is a condition related to the title corresponding to the sentence. The item condition is, for example, a sentence of a specific item or not a sentence of a specific item. The item condition is, for example, that it corresponds to the items of [issues to be addressed], [management policy, management environment, issues to be addressed, etc.] of the securities report. Items include headings, titles, chapters, sections, tags (for example, [issues to be addressed], [management policy, management environment, issues to be addressed, etc.]) and the like in a hierarchical document. It can be said that the item corresponding to the sentence is, for example, the item to which the sentence belongs.

属性条件は、文の属性に関する条件である。属性条件は、文の属性が「タイトル」であること、文の属性が「本文」であること、文の属性が「パーツ」であること等である。なお、文の属性「タイトル」は、当該文が文書の本文中の見出しであることを意味する。文の属性「本文」とは、当該文が文書の本文中の文であることを意味する。文の属性「パーツ」は、文章構造化の過程で発生した文章の部分である。   The attribute condition is a condition related to the attribute of the sentence. The attribute condition is that the sentence attribute is “title”, the sentence attribute is “text”, and the sentence attribute is “part”. The sentence attribute “title” means that the sentence is a heading in the text of the document. The sentence attribute “text” means that the sentence is a sentence in the text of the document. The sentence attribute “part” is a sentence part generated in the process of sentence structuring.

文字条件は、文に含まれる特定の文字に関する条件である。文字条件は、例えば、文頭の文字に関する条件である。文字条件は、例えば、文頭に記号があること、文に句点が無いことである。記号とは、例えば、「(1)」「a)」「(イ)」「(i)」「・」等である。   The character condition is a condition related to a specific character included in the sentence. The character condition is, for example, a condition related to the character at the beginning of the sentence. The character condition is, for example, that there is a symbol at the beginning of the sentence and that there are no punctuation in the sentence. The symbols are, for example, “(1)”, “a)”, “(I)”, “(i)”, “•”, and the like.

除外条件は、例えば、以下の(1)〜(4)のいずれかに該当することである。
(1)文字数が6以下の文であること
(2)文が項目[対処すべき課題] もしくは[経営方針、経営環境及び対処すべき課題等]の中の文であること
(3)文の属性がタイトル & 文頭に記号有り & 句点が無い & 文字数が30以下の文であること
(4)文の属性がパーツ & 句点が無い & 文字数が25以下の文であること
For example, the exclusion condition corresponds to one of the following (1) to (4).
(1) The number of characters must be 6 or less. (2) The sentence must be in the item [issues to be addressed] or [management policy, management environment, issues to be addressed, etc.] (3) The attribute is the title & the symbol at the beginning of the sentence & there is no punctuation & the number of characters is 30 or less (4) The sentence attribute is part & no punctuation & the number of characters is 25 or less

文末条件格納部14は、文末条件が格納される。文末条件は、文末表現に関する条件である。文末条件は、未来表現文に該当する文を特定するための条件、未来表現文に該当しない文を特定するための条件のうちの1以上の条件である。   The sentence end condition storage unit 14 stores sentence end conditions. The sentence end condition is a condition related to the sentence end expression. The sentence end condition is one or more conditions among a condition for specifying a sentence corresponding to the future expression sentence and a condition for specifying a sentence not corresponding to the future expression sentence.

文末条件は、例えば、文末手がかり表現に該当するか否かである。未来表現文に該当する文を特定するための文末条件は、例えば、「参ります。」、「まいります。」「致します。」「いたします。」「ます。」である。つまり、「参ります。」または「致します。」等を文末に有する文は未来表現文に該当する文である、と判断される。例えば、文「新たなアトラクションを適時に導入することをはじめとして継続的かつ資産効率を加味した設備投資を行っていくことが必 要不可欠であると考え、これらの施策を実行してまいります。」、「次世代半導体製造用材料として液浸関連材料の開発を加速させるなど新規市場での新製品の開発により成長機会を確保する ことに注力いたします。」等は、未来表現文である、と判断される。また、未来表現文に該当しない文を特定するための文末条件は、例えば、タ形であることである。タ形とは、文末が「た。」の文である。つまり、タ形の文は、未来表現文に該当しない文である、と判断される。例えば、文「経営統合により、国際競争力を有するアジア有数の総合エネルギー・資源・素材グループとして発展し、持続可能で活力ある経済・社会の発展に貢献することを目指すことについて合意しました。」等は非未来表現文である、と判断される。   The sentence end condition is, for example, whether or not it corresponds to the sentence end clue expression. The sentence ending conditions for specifying the sentence corresponding to the future expression sentence are, for example, “I will visit”, “I will do it”, “I will do it”, “I will do it”, and “I will do it”. That is, it is determined that a sentence having “I will come” or “I will do” at the end of the sentence is a sentence corresponding to the future expression sentence. For example, we will implement these measures, considering that it is indispensable to continuously make capital investments that take into account asset efficiency, including the introduction of new attractions in a timely manner. "We will focus on securing growth opportunities by developing new products in new markets, such as accelerating the development of immersion-related materials as materials for next-generation semiconductor manufacturing." It is judged. The sentence ending condition for specifying a sentence that does not correspond to the future expression sentence is, for example, a T-shape. A shape is a sentence whose end is "ta." That is, it is determined that the T-shaped sentence is a sentence that does not correspond to the future expression sentence. For example, the sentence “Agreed to develop as one of Asia's leading comprehensive energy, resource and material groups with international competitiveness through business integration and to contribute to the development of sustainable and vibrant economic and social development.” Etc. are judged to be non-future expressions.

第一学習器格納部15には、第一学習器が格納される。第一学習器は、2以上の未来表現正例文を用いて、未来表現文であるか否かを判断する際に使用される情報であり、機械学習のアルゴリズムにより作成された学習器である。また、第一学習器は、1または2以上の未来表現正例文に加えて、1または2以上の未来表現負例文をも用いて取得された学習器であることは好適である。なお、未来表現正例文は、未来表現文である。未来表現負例文は、非未来表現文である。なお、機械学習のアルゴリズムについては後述する。   The first learner storage unit 15 stores the first learner. The first learner is information used when determining whether or not it is a future expression sentence by using two or more future expression positive example sentences, and is a learner created by a machine learning algorithm. Moreover, it is preferable that the first learning device is a learning device obtained by using one or more future expression negative example sentences in addition to one or more future expression negative example sentences. The future expression positive example sentence is a future expression sentence. The future expression negative example sentence is a non-future expression sentence. The machine learning algorithm will be described later.

第一学習器は、学習部31が取得した情報であることは好適である。第一学習器は、例えば、2以上の各未来表現正例文を用いて取得されたベクトルであり、予め決められた文末手がかり表現に関する文末手がかり表現情報、予め決められた頻出する用語である頻出用語に関する頻出用語情報、文に含まれる副詞の用語に関する副詞情報、文末の2文節のペアに関するペア情報、文末の形態素の品詞に関する品詞情報、文に含まれる句点に関する句点情報、文の属性に関する文属性情報のうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習され、取得された学習器であることは好適である。第一学習器は、例えば、形態素ユニグラム、形態素バイグラムのうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習され、取得された学習器であっても良い。   The first learning device is preferably information acquired by the learning unit 31. The first learner is, for example, a vector acquired using two or more future expression correct example sentences, sentence ending clue expression information related to a predetermined sentence ending clue expression, and frequent terms that are predetermined frequent terms. Frequently used term information, adverb information about adverb terms in sentences, pair information about two-sentence pairs at the end of a sentence, part of speech information about morpheme at the end of a sentence, punctuation information about punctuation included in a sentence, sentence attributes about sentence attributes It is preferable that the learning device be learned and acquired by a machine learning algorithm using two or more vectors having one or more pieces of information as elements. The first learning device may be, for example, a learning device that is learned and acquired by a machine learning algorithm using two or more vectors having one or more pieces of information of morpheme unigrams and morpheme bigrams as elements. .

文末手がかり表現情報、頻出用語情報、副詞情報、ペア情報、品詞情報、句点情報、文属性情報については後述する。   Sentence clue expression information, frequent term information, adverb information, pair information, part of speech information, punctuation information, and sentence attribute information will be described later.

第二学習器格納部16には、第二学習器が格納される。第二学習器は、2以上の目的手段正例文を用いて、目的手段文であるか否かを判断する際に使用される情報であり、機械学習のアルゴリズムにより作成された学習器である。また、第二学習器は、1または2以上の目的手段正例文に加えて、1または2以上の目的手段負例文をも用いて取得された学習器であることは好適である。目的手段正例文は、目的手段文である。目的手段負例文は、非目的手段文である。   The second learner storage unit 16 stores the second learner. The second learner is information used when determining whether or not the sentence is a target means sentence using two or more target means positive example sentences, and is a learner created by a machine learning algorithm. Moreover, it is preferable that the second learning device is a learning device obtained by using one or more target means negative example sentences in addition to one or more target means positive example sentences. The target means positive example sentence is a target means sentence. The target means negative example sentence is a non-purpose means sentence.

第二学習器は、学習部31が取得した情報であることは好適である。第二学習器は、例えば、2以上の各目的手段正例文を用いて取得されたベクトルであり、読点の前の単語の品詞に関する読点前品詞情報、句点の前の単語の品詞に関する句点前品詞情報、文に含まれる句点に関する句点情報、文の属性に関する文属性情報、第一機械学習手段3311が取得した未来表現文であるか否かについての第一判断結果情報のうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習し、取得された学習器であることは好適である。第二学習器は、例えば、形態素ユニグラム、形態素バイグラムのうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習され、取得された学習器であっても良い。   The second learning device is preferably information acquired by the learning unit 31. The second learner is, for example, a vector acquired using two or more objective means positive example sentences, and the part-of-speech part-of-speech information about the part-of-speech information about the part-of-speech of the word before the punctuation point, Information of one or more of information, punctuation information about punctuation included in the sentence, sentence attribute information about the attribute of the sentence, and first determination result information about whether or not it is a future expression sentence acquired by the first machine learning means 3311 It is preferable that the learning device is obtained by learning with an algorithm of machine learning using two or more vectors having elements as. The second learning device may be, for example, a learning device that has been learned and acquired by a machine learning algorithm using two or more vectors whose elements are one or more of morpheme unigrams and morpheme bigrams. .

読点前品詞情報、句点前品詞情報、句点情報、文属性情報、第一判断結果情報については後述する。   Part-of-speech information before punctuation, part-of-speech part-of-speech information, punctuation information, sentence attribute information, and first determination result information will be described later.

受付部2は、各種の指示や情報を受け付ける。各種の指示や情報とは、例えば、動作の開始の指示である開始指示、第一学習器を構成する指示である第一学習指示、第二学習器を構成する指示である第二学習指示、文章情報、学習データ、除外条件、文末条件、第一学習器、第二学習器である。ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。各種の指示や情報等の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。受付部2は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。   The accepting unit 2 accepts various instructions and information. The various instructions and information are, for example, a start instruction that is an instruction to start an operation, a first learning instruction that is an instruction that constitutes a first learner, a second learning instruction that is an instruction that constitutes a second learner, The sentence information, the learning data, the exclusion condition, the sentence end condition, the first learning device, and the second learning device. Here, reception means reception of information input from an input device such as a keyboard, mouse, touch panel, reception of information transmitted via a wired or wireless communication line, recording on an optical disk, magnetic disk, semiconductor memory, or the like. It is a concept including reception of information read from a medium. Any means such as a touch panel, a keyboard, a mouse, or a menu screen may be used for inputting various instructions and information. The accepting unit 2 can be realized by a device driver for input means such as a touch panel and a keyboard, control software for a menu screen, and the like.

処理部3は、各種の処理を行う。各種の処理は、例えば、学習部31、除外部32、検知部33、取得部34等が行う処理である。   The processing unit 3 performs various processes. The various processes are, for example, processes performed by the learning unit 31, the exclusion unit 32, the detection unit 33, the acquisition unit 34, and the like.

処理部3は、例えば、各種の手がかり表現をブートストラップにより、1または2以上の文章情報から取得しても良い。各種の手がかり表現とは、未来表現文を抽出するための文字列、未来表現文でないことを決定するための文字列、目的表現を示す文字列、手段表現を示す文字列等である。また、ブートストラップについては公知技術であるので、詳細な説明を省略する。ブートストラップについて、例えば、文献「[Hiroyuki Sakai, Shigeru Masuyama, "Cause Information Extraction from Financial Articles Concerning Business Performance", IEICE Trans. Information and Systems, ED, 4, pp.959-968, 2008.]を参照のこと。   For example, the processing unit 3 may acquire various clue expressions from one or more pieces of text information by bootstrap. The various clue expressions are a character string for extracting a future expression sentence, a character string for determining that it is not a future expression sentence, a character string indicating a purpose expression, a character string indicating means expression, and the like. Moreover, since bootstrap is a well-known technique, detailed description is abbreviate | omitted. Regarding bootstrap, see, for example, the document “[Hiroyuki Sakai, Shigeru Masuyama,“ Cause Information Extraction from Financial Articles Concerning Business Performance ”, IEICE Trans. Information and Systems, ED, 4, pp. 959-968, 2008.] about.

学習部31は、学習データ格納部12の2以上の第一学習データを用いて、機械学習のアルゴリズムにより第一学習器を取得する。機械学習のアルゴリズムとは、例えば、SVM、深層学習、決定木、ランダムフォレスト等であるが、他の機械学習のアルゴリズムでも良い。   The learning unit 31 uses the two or more first learning data items stored in the learning data storage unit 12 to acquire a first learning device using a machine learning algorithm. The machine learning algorithm is, for example, SVM, deep learning, decision tree, random forest, etc., but other machine learning algorithms may be used.

学習部31は、例えば、機械学習の関数(例えば、TinySVM, fastText, 、各種のRandomForest関数等)に、入力である未来表現正例文(例えば、未来表現正例文そのもの、未来表現正例文が格納されたファイル、またはそのファイルポインタ等)と、出力させたい情報(正例であることを示すフラグであり、例えば、「1」)の組を、2組以上、引数として与え、当該関数を実行し、第一学習器を取得する。   The learning unit 31 stores, for example, machine representation functions (for example, TinySVM, fastText, various RandomForest functions, etc.) as future input correct example sentences (for example, future expression correct example sentences themselves, future expression correct example sentences). File or its file pointer) and information to be output (a flag indicating that it is a positive example, for example, “1”) is given as two or more pairs as arguments, and the function is executed. Get the first learner.

学習部31は、例えば、機械学習の関数に、入力である未来表現正例文(例えば、未来表現正例文そのもの、未来表現正例文が格納されたファイル、またはそのファイルポインタ等)と、出力させたい情報(正例であることを示すフラグであり、例えば、「1」)の組を2組以上、および入力である未来表現負例文(例えば、未来表現負例文そのもの、未来表現負例文が格納されたファイル、またはそのファイルポインタ等)と、出力させたい情報(負例であることを示すフラグであり、例えば、「0」)の組を1組以上を引数として与え、第一学習器を取得する。   For example, the learning unit 31 wants a machine learning function to output a future expression correct example sentence (for example, a future expression correct example sentence itself, a file in which the future expression correct example sentence is stored, or a file pointer thereof). 2 or more sets of information (a flag indicating that it is a positive example, for example, “1”) and an input future expression negative example sentence (for example, a future expression negative example sentence itself, a future expression negative example sentence are stored. File or its file pointer, etc.) and the information to be output (a flag indicating that it is a negative example, for example, “0”) is given as one or more sets of arguments to obtain the first learner To do.

学習部31は、学習データ格納部12の2以上の第二学習データを用いて、機械学習のアルゴリズムにより第二学習器を取得する。   The learning unit 31 uses the two or more second learning data in the learning data storage unit 12 to acquire a second learning device by a machine learning algorithm.

学習部31は、例えば、機械学習の関数に、入力である目的手段正例文(例えば、目的手段正例文そのもの、目的手段正例文が格納されたファイル、またはそのファイルポインタ等)と、出力させたい情報(正例であることを示すフラグであり、例えば、「1」)の組を、2組以上、引数として与え、第二学習器を取得する。   For example, the learning unit 31 wants a machine learning function to output the target means positive example sentence (for example, the target means positive example sentence itself, a file storing the target means correct example sentence, or a file pointer thereof). Two or more sets of information (a flag indicating that it is a positive example, for example, “1”) is given as an argument, and a second learner is acquired.

学習部31は、例えば、機械学習の関数に、入力である目的手段正例文と、出力させたい情報(正例であることを示すフラグであり、例えば、「1」)の組を2組以上、および入力である目的手段負例文と、出力させたい情報(負例であることを示すフラグであり、例えば、「0」)の組を1組以上を引数として与え、第二学習器を取得する。   The learning unit 31 includes, for example, two or more sets of a target example positive example sentence that is an input to a machine learning function and information to be output (a flag indicating a positive example, for example, “1”). , And the target means negative example sentence that is input and the information to be output (a flag indicating that it is a negative example, for example, “0”) is given as one or more sets as arguments, and the second learner is acquired. To do.

除外部32は、文が除外条件を満たすか否かを判断する。除外部32は、検査対象の各文に対して、第一のフィルタリング処理を行う。除外部32は、例えば、1以上の各文章情報が有する1以上の各文が除外条件を満たすか否かを判断し、除外条件を満たす文を除外する。なお、ここで除外する処理は、例えば、該当する文を削除する処理、該当する文に対応付けてフラグを付す処理等であり、除外しない文と除外する文とを区別できるようにする処理であれば何でも良い。なお、除外部32は、必須の要素ではない。つまり、検査対象のすべての文に対して、後述する検知部33の処理が実行されても良い。   The exclusion unit 32 determines whether the sentence satisfies the exclusion condition. The exclusion unit 32 performs a first filtering process on each sentence to be examined. For example, the exclusion unit 32 determines whether one or more sentences included in one or more pieces of sentence information satisfy the exclusion condition, and excludes sentences that satisfy the exclusion condition. The processing to be excluded here is, for example, processing that deletes the corresponding sentence, processing that adds a flag in association with the corresponding sentence, and processing that makes it possible to distinguish a sentence that is not excluded from an excluded sentence. Anything is fine. The exclusion unit 32 is not an essential element. That is, the processing of the detection unit 33 to be described later may be executed for all sentences to be examined.

除外部32は、例えば、以下のように動作する。まず、除外部32は、検査対象の文から文字数、文が属する項目名、文の第一属性、文の第二属性、文頭の文字、句点のうちのいずれか1または2以上の情報を取得する。なお、文の第一属性は、文がタイトルであるか否かを示す情報である。文の第二属性は、文がパーツであるか否かを示す情報である。なお、文から文字数、文頭の文字、句点等を取得する技術は周知技術である。   For example, the excluding unit 32 operates as follows. First, the exclusion unit 32 obtains information on one or more of the number of characters, the item name to which the sentence belongs, the first attribute of the sentence, the second attribute of the sentence, the character at the beginning of the sentence, and the punctuation from the sentence to be examined. To do. The first attribute of the sentence is information indicating whether the sentence is a title. The second attribute of the sentence is information indicating whether the sentence is a part. A technique for acquiring the number of characters, the first letter, a punctuation point, and the like from a sentence is a well-known technique.

除外部32は、例えば、文の最も近い位置であり、当該文の前に出現する見出し(例えば、文頭が「数値」+「.」の文(章または節の番号の行の文)、タグ(“[”と“]”)で囲まれた文等)である文であり、文が属する項目名を取得する。かかる処理は、パターンマッチング、機械学習等により可能である。   The exclusion unit 32 is, for example, the closest position of a sentence, and a heading that appears before the sentence (for example, a sentence whose sentence starts with “numerical value” + “.” (A sentence in a chapter or section number line), tag (Sentence enclosed by “[” and “]”)), and the item name to which the sentence belongs is acquired. Such processing can be performed by pattern matching, machine learning, or the like.

除外部32は、例えば、文の前に予め決められた文字列(例えば、文頭が「数値」+「.」)が存在するか否かにより、文がタイトルか否かを判断する。また、除外部32は、例えば、文がタグ(“[”と“]”)で囲まれた文であるか否かにより、文がタイトルか否かを判断する。その他、文がタイトルか否かを判断する処理は問わない。かかる判断処理により、除外部32は、文の第一属性を取得できる。   For example, the excluding unit 32 determines whether or not the sentence is a title based on whether or not a predetermined character string (for example, the beginning of the sentence is “numerical value” + “.”) Exists before the sentence. Further, the excluding unit 32 determines whether the sentence is a title based on, for example, whether the sentence is a sentence surrounded by tags (“[” and “]”). In addition, the process which determines whether a sentence is a title does not ask | require. With this determination process, the exclusion unit 32 can acquire the first attribute of the sentence.

また、除外部32は、例えば、予め決められた属性(例えば、「タイトル」や「本文」など)では無く、文の属性を決定できなかったものをパーツである、と判断する。その他、文がパーツか否かを判断する処理は問わない。かかる判断処理により、除外部32は、文の第二属性を取得できる。   Further, the excluding unit 32 determines that, for example, a part whose sentence attribute cannot be determined is a part that is not a predetermined attribute (for example, “title”, “text”, and the like). In addition, the process which determines whether a sentence is a part is not ask | required. With this determination process, the exclusion unit 32 can acquire the second attribute of the sentence.

そして、除外部32は、取得した文字数、文が属する項目名、文の第一属性、文の第二属性、文頭の文字、句点のうちのいずれか1以上の情報を用いて、文が格納部1の除外条件に合致するか否かを判断する。   Then, the exclusion unit 32 stores the sentence using one or more information of the acquired number of characters, the item name to which the sentence belongs, the first attribute of the sentence, the second attribute of the sentence, the character at the beginning of the sentence, and the punctuation mark. It is determined whether or not the exclusion condition of part 1 is met.

除外部32は、例えば、以下の(1)から(4)のいずれかの除外条件に該当する文を除外する。
(1)文字数が6以下の文であること
(2)文が項目[対処すべき課題] もしくは[経営方針、経営環境及び対処すべき課題等]の中の文であること
(3)文の属性がタイトル & 文頭に記号有り & 句点が無い & 文字数が30以下の文であること
(4)文の属性がパーツ & 句点が無い & 文字数が25以下の文であること
For example, the excluding unit 32 excludes sentences corresponding to any of the following excluding conditions (1) to (4).
(1) The number of characters must be 6 or less. (2) The sentence must be in the item [issues to be addressed] or [management policy, management environment, issues to be addressed, etc.] (3) The attribute is the title & the symbol at the beginning of the sentence & there is no punctuation & the number of characters is 30 or less (4) The sentence attribute is part & no punctuation & the number of characters is 25 or less

検知部33は、文が未来志向文であるか否かを判断する。検知部33は、文章情報格納部11に格納されている1以上の各文章情報が有する1以上の文から、未来志向文を検知することは好適である。   The detection unit 33 determines whether the sentence is a future-oriented sentence. It is preferable that the detection unit 33 detects a future-oriented sentence from one or more sentences included in the one or more pieces of sentence information stored in the sentence information storage unit 11.

検知部33は、例えば、1以上の各文章情報が有する1以上の文であり、除外部32が除外した文を除く1以上の文から、未来表現文であり、かつ目的手段文である未来志向文を検知する。   The detection unit 33 is, for example, one or more sentences included in one or more pieces of sentence information, and is a future expression sentence and a target means sentence from one or more sentences excluding the sentence excluded by the exclusion unit 32. Detect oriented sentences.

ただし、除外部32が存在しない場合、検知部33は、検査対象のすべての文に対して、検査し、未来志向文であるか否かを判断する。   However, when the exclusion unit 32 does not exist, the detection unit 33 examines all the sentences to be examined and determines whether or not the sentence is a future-oriented sentence.

検知部33は、例えば、文末条件に合致する文に対して、未来表現文であることを決定しても良い。また、検知部33は、例えば、文末条件に合致する文に対して、未来表現文でないことを決定しても良い。   For example, the detection unit 33 may determine that the sentence matching the sentence end condition is a future expression sentence. For example, the detection unit 33 may determine that the sentence that matches the sentence end condition is not a future expression sentence.

検知部33は、例えば、手がかり表現を用いて、文が未来志向文であるか否かを判断する。検知部33は、例えば、「まいります。」、「参ります。」等の予め決められた文字列(手がかり表現)が文の中に存在すれば、未来表現文である、と判断する。また、検知部33は、例えば、「ために」等の予め決められた文字列が文の中に存在すれば、目的表現の文である、と判断する。また、検知部33は、例えば、「図ることで」等の予め決められた文字列が文の中に存在すれば、手段表現の文である、と判断する。なお、かかる場合、予め決められた文字列は、格納部1に格納されている。そして、検知部33は、例えば、条件「未来表現文 AND (目的表現の文 OR 手段表現の文)」に合致する場合(未来表現文であり、かつ目的表現の文または手段表現の文である場合)、当該文を未来志向文であると判断し、上記条件に合致しない場合、当該文を未来志向文でないと判断する。   For example, the detection unit 33 determines whether the sentence is a future-oriented sentence using a clue expression. For example, if a predetermined character string (cue expression) such as “I will come” or “I will come” is present in the sentence, the detection unit 33 determines that the sentence is a future expression sentence. For example, if a predetermined character string such as “for” is present in the sentence, the detection unit 33 determines that the sentence is a purpose expression sentence. For example, if a predetermined character string such as “by drawing” is present in the sentence, the detection unit 33 determines that the sentence is a means expression. In such a case, a predetermined character string is stored in the storage unit 1. Then, the detection unit 33, for example, matches the condition “future expression sentence AND (object expression sentence OR statement of means expression)” (future expression sentence and statement of purpose expression or means expression). ), The sentence is determined to be a future-oriented sentence, and if the above condition is not met, it is determined that the sentence is not a future-oriented sentence.

検知部33は、後述する未来表現文検知手段331、後述する目的手段文検知手段332、および後述する選択手段333を用いて、検査対象の文が未来志向文であるか否かを判断することは好適であるが、かかる方法に拘束されない。上述したように、手がかり表現のみを用いて、未来志向文であるか否かを判断しても良い。   The detection unit 33 uses the future expression sentence detection unit 331 described later, the target means sentence detection unit 332 described later, and the selection unit 333 described later to determine whether the sentence to be examined is a future-oriented sentence. Is preferred but is not constrained by such methods. As described above, it may be determined whether the sentence is a future-oriented sentence using only the clue expression.

未来表現文検知手段331は、検査対象の文が、未来表現文であるか否かを判断する。   The future expression sentence detection unit 331 determines whether or not the examination target sentence is a future expression sentence.

未来表現文検知手段331は、未来表現を示す手がかり表現を用いて、検査対象の文が、未来表現文であるか否かを判断しても良い。つまり、未来表現文検知手段331は、例えば、未来表現を示す手がかり表現を含む文は未来表現文であると判断し、未来表現を示す手がかり表現を含まない文は未来表現文でないと判断しても良い。また、未来表現でないことを示す手がかり表現を用いて、検査対象の文が、未来表現文であるか否かを判断しても良い。つまり、未来表現文検知手段331は、例えば、未来表現でないことを示す手がかり表現を含む文は未来表現文でないと判断しても良い。なお、未来表現を示す手がかり表現は、例えば、「参ります。」、「まいります。」「致します。」「いたします。」である。また、未来表現でないことを示す手がかり表現は、例えば、「た。」(タ形)である。また、未来表現を示す手がかり表現、未来表現でないことを示す手がかり表現は、格納部1に格納されている。   The future expression sentence detection unit 331 may determine whether or not the sentence to be examined is a future expression sentence using a clue expression indicating the future expression. That is, for example, the future expression sentence detection unit 331 determines that a sentence including a clue expression indicating the future expression is a future expression sentence, and determines that a sentence not including the clue expression indicating the future expression is not a future expression sentence. Also good. Further, it is possible to determine whether or not the sentence to be examined is a future expression sentence by using a clue expression indicating that it is not a future expression. That is, the future expression sentence detection unit 331 may determine that a sentence including a clue expression indicating that it is not a future expression is not a future expression sentence. In addition, clue expressions indicating the future expression are, for example, “I will visit”, “I will continue”, “I will do”, “I will do”. Further, the clue expression indicating that it is not the future expression is, for example, “ta.” Further, a clue expression indicating the future expression and a clue expression indicating that it is not the future expression are stored in the storage unit 1.

未来表現文検知手段331は、後述する機械学習のアルゴリズムを用いずに、未来表現を示す手がかり表現を用いて、検査対象の文が、未来表現文であるか否かを判断しても良い。また、未来表現文検知手段331は、後述する機械学習のアルゴリズムを用いずに、未来表現でないことを示す手がかり表現を用いて、検査対象の文が、未来表現文であるか否かを判断しても良い。   The future expression sentence detection unit 331 may determine whether or not the sentence to be examined is a future expression sentence by using a clue expression indicating the future expression without using a machine learning algorithm described later. Further, the future expression sentence detection means 331 determines whether the sentence to be examined is a future expression sentence by using a clue expression indicating that it is not the future expression without using a machine learning algorithm described later. May be.

未来表現文検知手段331は、未来表現を示す手がかり表現を用いて、検査対象の文が、未来表現文であるか否かを判断し、かつ後述する第一機械学習手段3311が機械学習のアルゴリズムを用いて、検査対象の文が、未来表現文であるか否かを判断することは好適である。また、未来表現文検知手段331は、未来表現でないことを示す手がかり表現を用いて、検査対象の文が、未来表現文であるか否かを判断し、かつ後述する第一機械学習手段3311が機械学習のアルゴリズムを用いて、検査対象の文が、未来表現文であるか否かを判断することは好適である。かかる場合、未来表現を示す手がかり表現を用いて、検査対象の文が、未来表現文であるか否かを判断する処理、または未来表現でないことを示す手がかり表現を用いて、検査対象の文が、未来表現文であるか否かを判断する処理は、第二のフィルタリング処理である。   The future expression sentence detection means 331 uses the clue expression indicating the future expression to determine whether the sentence to be inspected is a future expression sentence, and the first machine learning means 3311 described later uses a machine learning algorithm. It is preferable to determine whether or not the sentence to be examined is a future expression sentence. Further, the future expression sentence detection unit 331 determines whether the sentence to be inspected is a future expression sentence by using a clue expression indicating that it is not the future expression, and the first machine learning means 3311 described later It is preferable to determine whether the sentence to be inspected is a future expression sentence by using a machine learning algorithm. In such a case, using the clue expression indicating the future expression, a process for determining whether the sentence to be inspected is a future expression sentence, or using the clue expression indicating that the sentence to be inspected is not the future expression, The process for determining whether or not it is a future expression sentence is a second filtering process.

未来表現文検知手段331を構成する第一機械学習手段3311は、例えば、第一学習器を用いて、機械学習のアルゴリズムにより、検査対象の文に対して、未来表現文であるか否かを決定する。第一機械学習手段3311は、第二のフィルタリング処理が行われた結果、未来表現文であるか否かの判断が付いていない残った文に対して、機械学習のアルゴリズムにより未来表現文であるか否かを決定することは好適である。ただし、第一機械学習手段3311は、検査対象のすべての文に対して、機械学習のアルゴリズムにより未来表現文であるか否かを決定しても良い。なお、未来表現文であるか否かを決定する処理は、未来表現文と非未来表現文とを区別する処理であれば良く、例えば、未来表現文であるか否かを示す情報を取得する処理、非未来表現文を削除する処理、未来表現文と非未来表現文とを別の記憶領域に蓄積する等である。   The first machine learning means 3311 constituting the future expression sentence detection means 331, for example, uses the first learner to determine whether or not the sentence to be examined is a future expression sentence by a machine learning algorithm. decide. The first machine learning means 3311 is a future expression sentence by a machine learning algorithm for the remaining sentence that has not been determined whether or not it is a future expression sentence as a result of the second filtering process. It is preferable to determine whether or not. However, the first machine learning means 3311 may determine whether or not all sentences to be examined are future expression sentences by a machine learning algorithm. Note that the process for determining whether or not it is a future expression sentence may be a process that distinguishes a future expression sentence from a non-future expression sentence. For example, information indicating whether or not it is a future expression sentence is acquired. For example, processing, processing for deleting non-future expressions, and storing future expressions and non-future expressions in different storage areas.

第一機械学習手段3311は、例えば、検査対象の文を第一学習器に適用し、当該文が未来表現文であるか否かを示す情報を取得する。第一機械学習手段3311が、例えば、機械学習の関数(例えば、TinySVM、fastText、各種のRandomForest関数等)に第一学習器と検査対象の1以上の各文とを引数として与えると、当該1以上の各文に対して予測された情報(各文が未来表現文であるか否かを示す情報)が得られる。   The first machine learning unit 3311 applies, for example, a sentence to be examined to the first learning device, and acquires information indicating whether or not the sentence is a future expression sentence. When the first machine learning means 3311 gives, for example, a machine learning function (for example, TinySVM, fastText, various RandomForest functions, etc.) as arguments, the first learner and one or more sentences to be inspected are given as 1 Information predicted for each of the above sentences (information indicating whether each sentence is a future expression sentence) is obtained.

第一機械学習手段3311は、検査対象の文から、例えば、文末手がかり表現情報、頻出用語情報、副詞情報、ペア情報、句点情報、品詞情報、句点情報、文属性情報のうちの1または2以上の情報を取得し、当該1以上の情報を要素とするベクトルを構成する。そして、第一機械学習手段3311は、当該ベクトルを第一学習器に適用し、機械学習のアルゴリズムにより、未来表現文であるか否かを示す情報を取得する。   The first machine learning means 3311 determines, for example, one or more of sentence end clue expression information, frequent term information, adverb information, pair information, phrase information, part of speech information, phrase information, and sentence attribute information from the sentence to be examined. And a vector having the one or more pieces of information as elements. Then, the first machine learning means 3311 applies the vector to the first learner, and acquires information indicating whether or not it is a future expression sentence by a machine learning algorithm.

さらに具体的には、第一機械学習手段3311は、機械学習の関数に学習器と当該ベクトルとを引数として与え、関数を実行し、情報(未来表現文であるか否かを示す情報)を取得する。なお、第一機械学習手段3311は、検査対象の文から上記の1以上の情報に加え、検査対象の文を形態素解析し、得られた形態素から、形態素ユニグラム、形態素バイグラムのうちの1種類以上の情報を取得し、かかる1種類以上の情報をも要素として有するベクトルを構成することは好適である。かかる場合、ベクトルは、例えば、形態素ユニグラム、形態素バイグラム、文末手がかり表現情報、頻出用語情報、副詞情報、ペア情報、句点情報、品詞情報、句点情報、文属性情報を要素として有するベクトルである。   More specifically, the first machine learning unit 3311 gives a learner and the vector as arguments to a machine learning function, executes the function, and provides information (information indicating whether it is a future expression sentence). get. The first machine learning means 3311 adds one or more of morpheme unigram and morpheme bigram from the obtained morpheme in addition to the above one or more information from the sentence to be examined. It is preferable to construct a vector having such information as an element. In this case, the vector is a vector having, for example, morpheme unigram, morpheme bigram, sentence end clue expression information, frequent term information, adverb information, pair information, phrase information, part of speech information, phrase information, and sentence attribute information as elements.

なお、形態素ユニグラムとは、一つの形態素である。第一機械学習手段3311は、文に対して、形態素解析を行い、各形態素を取得する。なお、形態素解析は、MeCab(URL:https://www.mlab.im.dendai.ac.jp/~yamada/ir/MorphologicalAnalyzer/MeCab.html等参照)、Chasen(URL:http://chasen.naist.jp/hiki/ChaSen/?%C3%E3%E4%A5%A4%CE%C7%DB%C9%DB等参照)等により可能であり、公知技術である。   A morpheme unigram is one morpheme. The first machine learning means 3311 performs morpheme analysis on the sentence and acquires each morpheme. In addition, morphological analysis is performed using MeCab (URL: https://www.mlab.im.dendai.ac.jp/~yamada/ir/MorphologicalAnalyzer/MeCab.html), Chasen (URL: http: // chasen. naist.jp/hiki/ChaSen/?%C3%E3%E4%A5%A4%CE%C7%DB%C9%DB etc.), etc.

また、形態素バイグラムとは、文の中の連続する2つの形態素である。第一機械学習手段3311は、文に対して、形態素解析を行い、連続する2つの形態素を一の情報として取得する。   A morpheme bigram is two consecutive morphemes in a sentence. The first machine learning unit 3311 performs morphological analysis on the sentence and acquires two consecutive morphemes as one piece of information.

また、文末手がかり表現情報とは、文末の特定の手がかり表現と一致するか否かを示す情報である。第一機械学習手段3311は、例えば、文の文末が格納部1のいずれかの当該手がかり表現と一致するか否かを検知し、一致する場合と一致しない場合とで、異なる値を得る。第一機械学習手段3311は、例えば、一致する場合は「1」を取得し、一致しない場合は「0」を取得する。かかる場合、文末手がかり表現情報は、一つの要素を有する。また、第一機械学習手段3311は、例えば、文末の特定の各手がかり表現と一致するか否かの各情報を、要素とする文末手がかり表現情報を取得しても良い。かかる場合、文末手がかり表現情報は、2以上の要素を有する。   The sentence end clue expression information is information indicating whether or not the sentence end clue expression matches a specific clue expression at the end of the sentence. For example, the first machine learning unit 3311 detects whether or not the end of a sentence matches any one of the clue expressions in the storage unit 1, and obtains different values depending on whether or not they match. For example, the first machine learning unit 3311 acquires “1” if they match, and acquires “0” if they do not match. In such a case, the sentence ending clue expression information has one element. Further, the first machine learning unit 3311 may acquire sentence ending clue expression information including, for example, each piece of information as to whether or not it matches each specific clue expression at the end of the sentence. In such a case, the sentence ending clue expression information has two or more elements.

なお、文末の特定の手がかり表現は、例えば、図2である。かかる手がかり表現は、例えば、上述したブートストラップにより取得された文字列である。   The specific clue expression at the end of the sentence is, for example, FIG. Such clue expression is, for example, a character string acquired by the bootstrap described above.

また、さらに具体的には、処理部3は、例えば、タネ表現「“参ります。”、“致します。”、“行います。”、“行う。”」及び α=0.45を与え、ブートストラップを実行し、図2に示す手がかり表現を得る。そして、第一機械学習手段3311は、句点で終わらない表現及び、文末が“た。”の表現を除いた出力を文末手がかり表現の素性として取得する。次に、第一機械学習手段3311は、文を構文解析し、文末表現が素性の各要素(例えば、図2の文末手がかり表現)と一致するかを判定し、文末手がかり表現情報を取得する。   More specifically, the processing unit 3 visits the seed expression ““. "I will do it." "," Do it. "," Do it. “” And α = 0.45, and bootstrap is performed to obtain the clue expression shown in FIG. Then, the first machine learning means 3311 acquires the output excluding the expression that does not end with a punctuation and the expression that the sentence end is “ta” as the feature of the sentence end clue expression. Next, the first machine learning unit 3311 parses the sentence, determines whether the sentence end expression matches each element of the feature (for example, the sentence end clue expression in FIG. 2), and acquires sentence end clue expression information.

また、頻出用語情報とは、予め決められた頻出する用語である頻出用語に関する情報である。頻出用語情報は、例えば、格納部1の頻出用語のいずれかに一致する場合と、いずれとも一致しない場合とで異なる値を採り、例えば、一致する場合は「1」、一致しない場合は「0」である。かかる場合、頻出用語情報は、一つの要素の情報である。頻出用語情報は、例えば、2以上の各頻出用語が存在する場合は当該頻出用語に対応する要素が「1」、各頻出用語が存在しない場合は当該頻出用語に対応する要素が「0」である。かかる場合、頻出用語情報は、2以上の要素の情報である。   The frequently used term information is information on frequently used terms that are predetermined frequently used terms. For example, the frequent term information takes different values depending on whether it matches any of the frequent terms in the storage unit 1 or not, for example, “1” if they match, and “0” if they do not match. Is. In such a case, the frequently used term information is information of one element. For example, when there are two or more frequently used terms, the element corresponding to the frequently used term is “1”, and when each frequently used term does not exist, the element corresponding to the frequently used term is “0”. is there. In such a case, the frequently used term information is information of two or more elements.

なお、頻出用語情報の取得方法については、例えば、文献「[Hiroyuki Sakai, Shigeru Masuyama, "Cause Information Extraction from Financial Articles Concerning Business Performance", IEICE Trans. Information and Systems, ED, 4, pp.959-968, 2008.]に記載されているが、かかる方法に拘束されないことは言うまでもない。   For information on how to obtain frequently used term information, see, for example, the document “[Hiroyuki Sakai, Shigeru Masuyama,“ Cause Information Extraction from Financial Articles Concerning Business Performance ”, IEICE Trans. Information and Systems, ED, 4, pp.959-968. , 2008.], it goes without saying that it is not bound by such a method.

処理部3は、例えば、文末手がかり表現を取得する時に出力される共通頻出表現(頻出用語)を共通頻出表現の素性として取得する。そして、第一機械学習手段3311は、例えば、文を構文解析し、文末文節に係る文節の表現が素性の各要素(共通頻出表現)と一致するかを判定し、頻出用語情報を取得する。   For example, the processing unit 3 acquires a common frequent expression (frequently used term) output when acquiring a sentence end cue expression as a feature of the common frequent expression. Then, for example, the first machine learning unit 3311 parses the sentence, determines whether the phrase expression related to the sentence end phrase matches each element of the feature (common frequent expression), and acquires frequent term information.

また、副詞情報とは、文に含まれる副詞の用語に関する情報である。処理部3は、学習データの各文を形態素解析し、品詞が副詞の形態素を、重複を除き格納部1に蓄積する。そして、処理部3は、取得した形態素を副詞の素性とする。そして、第一機械学習手段3311は、検査対象の文において、素性の各要素(副詞の形態素)を含むか否かを判定し、判定結果である副詞情報を取得する。第一機械学習手段3311は、検査対象の文において、いずれかの副詞の形態素を含むか否かを示す副詞情報を取得しても良い。かかる場合、副詞情報は、一つの要素の情報である。また、第一機械学習手段3311は、検査対象の文において、2以上の各副詞の形態素を含むか否かを示す副詞情報を取得しても良い。かかる場合、副詞情報は、2以上の要素の情報である。   The adverb information is information related to the term of the adverb included in the sentence. The processing unit 3 performs a morphological analysis on each sentence of the learning data, and accumulates morphemes whose adverbs are adverbs in the storage unit 1 except for duplication. And the process part 3 makes the acquired morpheme the feature of an adverb. Then, the first machine learning means 3311 determines whether or not each feature element (adverb morpheme) is included in the sentence to be examined, and acquires adverb information as a determination result. The first machine learning means 3311 may acquire adverb information indicating whether or not a morpheme of any adverb is included in the sentence to be examined. In such a case, the adverb information is information of one element. Further, the first machine learning means 3311 may acquire adverb information indicating whether or not the sentence to be examined includes morphemes of two or more adverbs. In such a case, the adverb information is information of two or more elements.

また、ペア情報とは、文末の2文節の表現のペアに関する情報である。ペア情報とは、文末の2文節の表現のペアの情報である。処理部3は、例えば、学習データの各文を構文解析し、文末2文節の表現のペアを、重複を除き格納部1に蓄積する。そして、処理部3は、取得した文節の表現のペアを文末2文節のペアの素性とする。処理部3は、学習データの各文を構文解析し、文末の2文節の表現(文字列)を作成し、素性の各要素(文節のペア)と一致するかを判定し、判定結果であるペア情報を取得する。第一機械学習手段3311は、検査対象の文において、2以上の各文末2文節の表現のペアを含むか否かを示すペア情報を取得しても良い。かかる場合、ペア情報は、2以上の要素の情報である。また、第一機械学習手段3311は、検査対象の文において、いずれかの文末2文節の表現のペアを含むか否かを示すペア情報を取得しても良い。かかる場合、ペア情報は、一つの要素の情報である。   The pair information is information related to a pair of expressions in the last two phrases. The pair information is information on a pair of expressions of two phrases at the end of the sentence. For example, the processing unit 3 parses each sentence of the learning data, and accumulates pairs of sentence end 2 phrase expressions in the storage unit 1 excluding duplicates. Then, the processing unit 3 sets the acquired phrase expression pair as the feature of the sentence end two phrase pair. The processing unit 3 parses each sentence of the learning data, creates an expression (character string) of two clauses at the end of the sentence, determines whether or not each element of the feature (a pair of clauses) matches, and is a determination result. Get pair information. The first machine learning means 3311 may acquire pair information indicating whether or not the sentence to be examined includes a pair of expressions of two or more sentence end two clauses. In such a case, the pair information is information of two or more elements. Further, the first machine learning means 3311 may acquire pair information indicating whether or not the sentence to be examined includes a pair of expressions of any one sentence end two clauses. In such a case, the pair information is information of one element.

また、品詞情報とは、文末の形態素の品詞に関する情報である。処理部3は、例えば、学習データの各文を形態素解析し、文末(句点の1つ前)の形態素の品詞を、重複を除き格納部1に蓄積する。そして、処理部3は、例えば、取得した品詞を文末の品詞の素性とする。第一機械学習手段3311は、検査対象の文を形態素解析し、文末(句点の1つ前)の形態素の品詞が素性の各要素(品詞)と一致するかを判定し、判定結果である品詞情報を取得する。品詞情報は、文末の形態素の品詞が、2以上の素性の各要素と一致するか否かを示す情報であり、2以上の要素の情報でも良い。また、品詞情報は、文末の形態素の品詞が、いずれかの素性の要素と一致するか否かを示す情報であり、一つの要素の情報でも良い。   The part of speech information is information related to the part of speech of the morpheme at the end of the sentence. For example, the processing unit 3 performs morphological analysis on each sentence of the learning data, and accumulates the part of speech of the morpheme at the end of the sentence (one before the punctuation mark) in the storage unit 1 excluding duplication. And the process part 3 makes the acquired part of speech the feature of the part of speech of the sentence end, for example. The first machine learning means 3311 performs a morphological analysis on the sentence to be inspected, determines whether the part of speech of the morpheme at the end of the sentence (one before the punctuation mark) matches each element (part of speech) of the feature, and the part of speech that is the determination result Get information. The part of speech information is information indicating whether or not the part of speech of the morpheme at the end of the sentence matches each element of two or more features, and may be information of two or more elements. The part of speech information is information indicating whether the part of speech of the morpheme at the end of the sentence matches an element of any feature, and may be information of one element.

また、句点情報とは、文に含まれる句点に関する情報である。第一機械学習手段3311は、検査対象の文において、例えば、句点を含むか否かを示す情報である句点情報を取得する。第一機械学習手段3311は、検査対象の文において、例えば、句点を含む数を示す句点情報を取得する。   Further, the phrase information is information regarding the phrase included in the sentence. The first machine learning unit 3311 acquires, for example, phrase information that is information indicating whether or not the sentence to be examined includes a phrase. The first machine learning unit 3311 obtains, for example, punctuation information indicating the number including punctuation in the sentence to be examined.

また、文属性情報とは、文の属性に関する情報である。文属性情報とは、例えば、文が本文に存在するか、タイトルに存在するか、部品であるか否か、箇条書きの文であるか否かを示す情報である。文属性情報は、文が本文に存在するか、タイトルに存在するか、部品であるか否か、箇条書きの文であるか否かのいずれかを特定する情報でも良く、かかる場合、文属性情報は、一つの要素の情報である。また、文属性情報は、文が本文に存在するか否か、タイトルに存在するか否か、部品であるか否か、箇条書きの文であるか否かのうちの2以上の事項の各々を特定する情報でも良く、かかる場合、文属性情報は、2以上の要素の情報である。   The sentence attribute information is information regarding sentence attributes. The sentence attribute information is, for example, information indicating whether the sentence exists in the body text, exists in the title, is a component, or is a bulleted sentence. The sentence attribute information may be information specifying whether the sentence exists in the body text, in the title, whether it is a part, or whether it is a bulleted sentence. Information is information of one element. The sentence attribute information includes each of two or more items of whether the sentence exists in the text, whether it exists in the title, whether it is a part, or whether it is a bulleted sentence. In this case, the sentence attribute information is information of two or more elements.

第一機械学習手段3311は、文が属する項目を取得し、かかる項目を用いて、文属性情報を取得する。   The first machine learning unit 3311 acquires an item to which the sentence belongs, and acquires sentence attribute information using the item.

以上により、例えば、第一機械学習手段3311は、図3に示す次元数のベクトルを構成する。図3において、ユニグラムは形態素ユニグラムの次元数、バイグラムは形態素バイグラムの次元数、手がかり表現は文末手がかり表現情報の次元数、共通頻出表現は頻出用語情報の次元数、副詞は副詞情報の次元数、文末2文節ペアはペア情報の次元数、文末の品詞は品詞情報の次元数、句点は句点情報の次元数、文の属性は文属性情報次元数、計はベクトルの次元数である。   As described above, for example, the first machine learning unit 3311 configures a vector having the number of dimensions shown in FIG. In FIG. 3, the unigram is the number of dimensions of the morpheme unigram, the bigram is the number of dimensions of the morpheme bigram, the clue expression is the number of dimensions of the end-of-sentence clue expression information, the common frequent expression is the number of dimensions of frequent term information, the adverb is the number of dimensions of adverb information, The sentence end 2 phrase pair is the number of dimensions of the pair information, the part of speech of the sentence is the number of dimensions of the part of speech information, the punctuation is the number of dimensions of the punctuation information, the sentence attribute is the number of dimensions of the sentence attribute information, and the total is the number of dimensions of the vector.

目的手段文検知手段332は、検査対象の文が、目的手段文であるか否かを判断する。   The objective means sentence detection means 332 determines whether the sentence to be examined is an objective means sentence.

目的手段文検知手段332を構成する第二機械学習手段3321は、例えば、第二学習器を用いて、機械学習のアルゴリズムにより、1以上の各文章情報が有する1以上の文に対して、目的手段文であるか否かを決定する。   The second machine learning unit 3321 constituting the target unit sentence detection unit 332 uses, for example, a second learner to perform an objective on one or more sentences included in one or more pieces of sentence information by a machine learning algorithm. Determine whether it is an instrumental statement.

ただし、目的手段文検知手段332は、目的表現、手段表現のうちの1以上の種類の表現を示す手がかり表現を用いて、検査対象の文が、目的手段文であるか否かを判断しても良い。つまり、目的手段文検知手段332は、例えば、目的表現または手段表現を示す手がかり表現を含む文は目的手段文であると判断し、目的表現および手段表現を示す手がかり表現を含まない文は目的手段文でないと判断しても良い。   However, the objective means sentence detection means 332 determines whether or not the sentence to be examined is the objective means sentence using a clue expression indicating one or more types of expressions of the objective expression and the means expression. Also good. In other words, the purpose means sentence detection means 332 determines that, for example, a sentence including a clue expression indicating a purpose expression or means expression is a purpose means sentence, and a sentence not including the purpose expression and the clue expression indicating the means expression is a purpose means. You may judge that it is not a sentence.

第二機械学習手段3321は、例えば、検査対象の文を第二学習器に適用し、当該文が目的手段文であるか否かを示す情報を取得する。第二機械学習手段3321が、例えば、機械学習の関数(例えば、TinySVM、fastText、各種のRandomForest関数等)に第二学習器と検査対象の文とを引数として与えると、予測された情報(目的手段文であるか否かを示す情報)が得られる。   For example, the second machine learning unit 3321 applies the sentence to be examined to the second learning device, and acquires information indicating whether or not the sentence is the target unit sentence. When the second machine learning unit 3321 gives, for example, a machine learning function (for example, TinySVM, fastText, various RandomForest functions, etc.) as arguments, the second learner and the sentence to be examined are predicted information (purpose Information indicating whether or not it is a means sentence) is obtained.

第二機械学習手段3321は、例えば、目的手段文検知手段332が手がかり表現を用いて、目的手段文であるか否かを判断した文を検査対象の文から除いて、当該各文に対して、第二学習器に適用し、当該文が目的手段文であるか否かを示す情報を取得しても良い。かかる場合の目的手段文検知手段332の手がかり表現を用いた処理は、第三のフィルタリング処理である。   For example, the second machine learning unit 3321 removes, from the sentence to be inspected, the sentence for which the target unit sentence detection unit 332 uses the clue expression to determine whether the target unit sentence is the target unit sentence. Applying to the second learning device, information indicating whether or not the sentence is the objective means sentence may be acquired. In such a case, the process using the clue expression of the target means sentence detection means 332 is a third filtering process.

第二機械学習手段3321は、例えば、1以上の各文章情報が有する1以上の各文から、読点前品詞情報、句点前品詞情報、句点情報、文属性情報、第一判断結果情報のうちの1以上の情報を取得し、1以上の情報を要素とするベクトルを構成し、ベクトルを第二学習器に適用し、機械学習のアルゴリズムにより、目的手段文であるか否かを示す情報を取得する。   For example, the second machine learning unit 3321 includes, from among one or more sentences included in one or more pieces of sentence information, part-of-speech information before punctuation, part-of-speech information before punctuation, punctuation information, sentence attribute information, and first determination result information. Get one or more pieces of information, construct a vector with one or more pieces of information as elements, apply the vector to the second learner, and get information that indicates whether it is a target means sentence by machine learning algorithm To do.

なお、第二機械学習手段3321は、検査対象の文から上記の1以上の情報に加え、検査対象の文を形態素解析し、得られた形態素から、形態素ユニグラム、形態素バイグラムのうちの1種類以上の情報を取得し、かかる1種類以上の情報をも要素として有するベクトルを構成することは好適である。かかる場合、ベクトルは、例えば、形態素ユニグラム、形態素バイグラム、読点前品詞情報、句点前品詞情報、句点情報、文属性情報、第一判断結果情報を要素として有するベクトルである。   The second machine learning unit 3321 performs morphological analysis on the sentence to be examined in addition to the one or more pieces of information from the sentence to be examined. From the obtained morpheme, one or more types of morpheme unigram and morpheme bigram are obtained. It is preferable to construct a vector having such information as an element. In this case, the vector is a vector having, for example, morpheme unigrams, morpheme bigrams, part-of-speech information before reading, part-of-speech information, punctuation information, sentence attribute information, and first determination result information as elements.

なお、読点前品詞情報とは、読点の直前の形態素の品詞に関する情報である。処理部3は、学習データの各文に読点(、)が含まれる場合は、文を形態素解析し、読点の1つ前の形態素の品詞を、重複を除き格納部1に蓄積する。そして、処理部3は、取得した品詞を読点の前の品詞とする。そして、第二機械学習手段3321は、検査対象の文を形態素解析し、読点の前の1つ形態素の品詞が素性の各要素(品詞)と一致するかを判定し、判定結果である読点前品詞情報を取得する。なお、第二機械学習手段3321は、例えば、文が読点を含まない場合は、「含まない」ことを示す要素を取得する。第二機械学習手段3321は、例えば、読点の前の1つ形態素の品詞が2以上の素性の各要素(品詞)と一致するかを判定し、品詞毎の情報(当該品詞の読点前の形態素が存在するか否か)を取得しても良い。かかる場合、読点前品詞情報は、2以上の要素を有する。また、第二機械学習手段3321は、例えば、読点の前の1つ形態素の品詞が素性のいずれかの要素(品詞)と一致するかを判定し、一つの要素からなる読点前品詞情報を取得しても良い。   The part-of-speech information before punctuation is information related to the part of speech of the morpheme immediately before the punctuation. When a sentence (,) is included in each sentence of the learning data, the processing unit 3 performs a morphological analysis on the sentence, and accumulates the part of speech of the morpheme immediately preceding the reading point in the storage unit 1 without duplication. Then, the processing unit 3 sets the acquired part of speech as the part of speech before the reading. Then, the second machine learning means 3321 performs a morphological analysis on the sentence to be examined, determines whether the part of speech of one morpheme before the reading is coincident with each element (part of speech) of the feature, and before the reading as the determination result Get part of speech information. Note that the second machine learning means 3321 acquires an element indicating “not included” when the sentence does not include a punctuation mark, for example. The second machine learning means 3321 determines, for example, whether the part of speech of one morpheme before the reading matches with each element (part of speech) of two or more features, and information for each part of speech (the morpheme before the reading of the part of speech) Whether or not there exists) may be acquired. In such a case, the part-of-speech information before reading has two or more elements. Further, the second machine learning means 3321 determines, for example, whether the part of speech of one morpheme before the punctuation coincides with any element (part of speech) of the feature, and obtains the part of speech information before punctuation consisting of one element. You may do it.

また、句点前品詞情報とは、句点の直前の形態素の品詞に関する情報である。処理部3は、学習データの各文を形態素解析し、文末(句点の1つ前)の形態素の品詞を、重複を除き格納部1に蓄積する。そして、処理部3は、取得した品詞を文末の品詞の素性とする。そして、第二機械学習手段3321は、検査対象の文を形態素解析し、文末(句点の1つ前)の形態素の品詞が素性の各要素(品詞)と一致するかを判定し、判定結果である句点前品詞情報を取得する。第二機械学習手段3321は、例えば、句点の前の1つ形態素の品詞が2以上の素性の各要素(品詞)と一致するかを判定し、品詞毎の情報(当該品詞の句点前の形態素が存在するか否か)を取得しても良い。かかる場合、句点前品詞情報は、2以上の要素を有する。また、第二機械学習手段3321は、例えば、句点の前の1つ形態素の品詞が素性のいずれかの要素(品詞)と一致するかを判定し、一つの要素からなる読点前品詞情報を取得しても良い。   The part-of-speech information before the punctuation is information related to the part-of-speech of the morpheme immediately before the punctuation. The processing unit 3 performs morphological analysis on each sentence of the learning data, and accumulates the part of speech of the morpheme at the end of the sentence (one before the punctuation mark) in the storage unit 1 without duplication. Then, the processing unit 3 uses the acquired part of speech as the feature of the part of speech at the end of the sentence. Then, the second machine learning means 3321 performs a morphological analysis on the sentence to be examined, determines whether the morpheme of the morpheme at the end of the sentence (one before the punctuation mark) matches each element (part of speech) of the feature, Acquire part-of-speech part-of-speech information. The second machine learning means 3321 determines, for example, whether or not the part of speech of one morpheme before the punctuation matches each element (part of speech) of two or more features, and information for each part of speech (morpheme before the punctuation of the part of speech. Whether or not there exists) may be acquired. In such a case, the pre-punctuation part-of-speech information has two or more elements. Also, the second machine learning means 3321 determines, for example, whether the part of speech of one morpheme before the punctuation matches any element (part of speech) of the feature, and acquires pre-reading part of speech information consisting of one element. You may do it.

また、第一判断結果情報とは、検知部33(例えば、第一機械学習手段3311)が当該文が未来表現文であるか否かを判断した結果である。第一判断結果情報は、例えば、文が未来表現文であるか否か、文が未来表現文でないか否かを示す2つの要素の情報でも良い。第一判断結果情報は、例えば、文が未来表現文である場合は「1」、文が未来表現文でない場合は「0」でも良い。なお、第一判断結果情報を使用する場合、文が目的手段文であるか否かを判断する前に、文が未来表現文であるか否かが判断されている、とする。   The first determination result information is a result of the detection unit 33 (for example, the first machine learning unit 3311) determining whether or not the sentence is a future expression sentence. The first determination result information may be information of two elements indicating, for example, whether the sentence is a future expression sentence or not, and whether the sentence is not a future expression sentence. For example, the first determination result information may be “1” when the sentence is a future expression sentence, and may be “0” when the sentence is not a future expression sentence. When the first determination result information is used, it is assumed that it is determined whether the sentence is a future expression sentence before determining whether the sentence is a target means sentence.

以上により、例えば、第二機械学習手段3321は、図4に示す次元数のベクトルを構成する。図4において、ユニグラムは形態素ユニグラムの次元数、バイグラムは形態素バイグラムの次元数、読点の前の品詞読点前品詞情報の次元数、句点の前の品詞は句点前品詞情報の次元数、句点有無は、句点情報の次元数、文の属性は文属性情報の次元数、SVM1段階目の結果は第一判断結果情報の次元数、計はベクトルの次元数である。   As described above, for example, the second machine learning unit 3321 configures a vector having the number of dimensions shown in FIG. In FIG. 4, the unigram is the number of dimensions of the morpheme unigram, the bigram is the number of dimensions of the morpheme bigram, the number of parts of speech part-of-speech information before the punctuation mark, the part of speech before the punctuation point is the dimension number of the part-of-speech part-of-speech information, The number of dimensions of the phrase information, the attribute of the sentence is the number of dimensions of the sentence attribute information, the result of the SVM first stage is the number of dimensions of the first determination result information, and the total is the number of dimensions of the vector.

なお、検知部33が未来表現文であるか否かを判断する第一判断と、目的手段文であるか否かを判断する第二判断の順序は問わない。第一判断の後に第二判断を行っても良いし、第二判断の後に第一判断行っても良い。また、第一判断と二判断とは、並列に行われても良い。また、検知部33は、第一判断の結果、未来表現文に該当すると判断された文のみに、第二判断の処理を行っても良い。また、検知部33は、第二判断の結果、目的手段文に該当すると判断された文のみに、第一判断の処理を行っても良い。   The order of the first determination for determining whether or not the detection unit 33 is a future expression sentence and the second determination for determining whether or not it is a purpose means sentence are not limited. The second determination may be performed after the first determination, or the first determination may be performed after the second determination. Further, the first determination and the second determination may be performed in parallel. Moreover, the detection part 33 may perform the process of a 2nd determination only to the sentence determined to correspond to a future expression sentence as a result of a 1st determination. Moreover, the detection part 33 may perform the process of a 1st determination only to the sentence determined to correspond to an objective means sentence as a result of a 2nd determination.

選択手段333は、未来表現文検知手段331が未来表現文であると判断し、かつ目的手段文検知手段332が目的手段文であると判断した文である未来志向文を選択する。なお、文の選択とは、文の取得でも良いし、文に対応付けてフラグを付加することでも良いし、未来志向文以外の文を削除すること等でも良い。つまり、選択手段333は、未来志向文と未来志向文でない文とを区別できるようにすれば良い。   The selection unit 333 selects a future-oriented sentence that is a sentence that the future expression sentence detection means 331 determines to be a future expression sentence and the purpose means sentence detection means 332 determines to be a target means sentence. The sentence selection may be acquisition of a sentence, addition of a flag in association with the sentence, deletion of a sentence other than a future-oriented sentence, or the like. That is, the selection unit 333 may distinguish between future-oriented sentences and non-future-oriented sentences.

また、第一判断と第二判断とをシーケンシャルに行った場合、第二判断の結果または第一判断の結果が、文が未来志向文であるか否かの結果である。かかる場合、選択手段333は不要である。   Further, when the first determination and the second determination are sequentially performed, the result of the second determination or the result of the first determination is a result of whether or not the sentence is a future-oriented sentence. In such a case, the selection means 333 is not necessary.

取得部34は、検知部33における判断結果に関する情報である未来志向文情報を取得する。取得部34は、検知部33が検知した未来志向文に関する情報である未来志向文情報を取得する。   The acquisition unit 34 acquires future-oriented sentence information that is information related to the determination result in the detection unit 33. The acquisition unit 34 acquires future-oriented text information that is information related to the future-oriented text detected by the detection unit 33.

取得部34は、例えば、選択手段333が選択した未来志向文に関する情報である未来志向文情報を取得する。   The acquisition unit 34 acquires, for example, future-oriented sentence information that is information on the future-oriented sentence selected by the selection unit 333.

取得部34は、例えば、検知部33が検知した1以上の未来志向文を用いて統計処理を行い、統計処理結果である未来志向文情報を取得する。未来志向文情報は、例えば、文章情報中の未来志向文の数、文章情報中の未来志向文の割合である。   The acquisition unit 34 performs, for example, statistical processing using one or more future-oriented sentences detected by the detection unit 33, and acquires future-oriented sentence information that is a statistical processing result. The future-oriented sentence information is, for example, the number of future-oriented sentences in the sentence information and the ratio of the future-oriented sentences in the sentence information.

取得部34は、例えば、文章属性値を用いて、統計処理結果である未来志向文情報を取得する。文章属性値は、例えば、企業を識別する企業識別子または業種を識別する業種識別子である。   The acquisition unit 34 acquires, for example, future-oriented sentence information that is a statistical processing result using a sentence attribute value. The text attribute value is, for example, a company identifier that identifies a company or a business type identifier that identifies a business type.

取得部34は、例えば、企業識別子または業種識別子を用いて、統計処理結果である未来志向文情報を取得する。かかる場合、未来志向文情報は、例えば、企業毎の文章情報中の未来志向文の数、文章情報中の未来志向文の割合である。また、未来志向文情報は、例えば、業種毎の文章情報中の未来志向文の数、文章情報中の未来志向文の割合である。また、未来志向文情報は、例えば、企業が属する業種の中における、他の企業と比較した文章情報中の未来志向文の数、文章情報中の未来志向文の割合である。   For example, the acquisition unit 34 acquires the future-oriented sentence information that is the statistical processing result by using the company identifier or the business type identifier. In this case, the future-oriented sentence information is, for example, the number of future-oriented sentences in the sentence information for each company and the ratio of the future-oriented sentences in the sentence information. Further, the future-oriented sentence information is, for example, the number of future-oriented sentences in the sentence information for each type of business and the ratio of the future-oriented sentences in the sentence information. Further, the future-oriented sentence information is, for example, the number of future-oriented sentences in the sentence information compared to other companies in the industry to which the company belongs, and the ratio of the future-oriented sentences in the sentence information.

また、取得部34は、例えば、文章情報中の未来志向文の数または文章情報中の未来志向文の割合の情報を用いて、スコアを算出しても良い。かかるスコアは、未来志向文の数または未来志向文の割合をパラメータとする増加関数により算出される。なお、かかる増加関数の演算式の情報は、格納部1に格納されている、とする。   Further, the acquisition unit 34 may calculate the score using, for example, information on the number of future-oriented sentences in the sentence information or the ratio of future-oriented sentences in the sentence information. Such a score is calculated by an increasing function using the number of future-oriented sentences or the ratio of future-oriented sentences as a parameter. It is assumed that the information on the arithmetic expression of the increase function is stored in the storage unit 1.

また、取得部34は、例えば、企業識別子ごとに、スコアを算出しても良い。また、取得部34は、例えば、企業識別子ごとに、他の企業と比較した相対的なスコアを算出しても良い。また、取得部34は、例えば、企業識別子ごとに、一の業界における相対的なスコア(例えば、偏差値)を算出しても良い。   Further, the acquisition unit 34 may calculate a score for each company identifier, for example. Moreover, the acquisition part 34 may calculate the relative score compared with another company for every company identifier, for example. The acquisition unit 34 may calculate a relative score (for example, a deviation value) in one industry for each company identifier, for example.

出力部4は、取得部34が取得した未来志向文情報を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。   The output unit 4 outputs the future-oriented sentence information acquired by the acquisition unit 34. Here, output refers to display on a display, projection using a projector, printing with a printer, sound output, transmission to an external device, storage in a recording medium, and output to other processing devices or other programs. It is a concept that includes delivery of processing results.

格納部1、文章情報格納部11、学習データ格納部12、除外条件格納部13、文末条件格納部14、第一学習器格納部15、および第二学習器格納部16は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。   The storage unit 1, the sentence information storage unit 11, the learning data storage unit 12, the exclusion condition storage unit 13, the sentence end condition storage unit 14, the first learning device storage unit 15, and the second learning device storage unit 16 are nonvolatile recordings. A medium is preferred, but a volatile recording medium can also be realized.

格納部1等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部1等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部1等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部1等で記憶されるようになってもよい。   The process in which information is stored in the storage unit 1 or the like is not limited. For example, information may be stored in the storage unit 1 or the like via a recording medium, information transmitted via a communication line or the like may be stored in the storage unit 1 or the like, Alternatively, information input via the input device may be stored in the storage unit 1 or the like.

処理部3、学習部31、除外部32、検知部33、取得部34、未来表現文検知手段331、目的手段文検知手段332、選択手段333、第一機械学習手段3311、および第二機械学習手段3321は、通常、MPUやメモリ等から実現され得る。処理部3の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   Processing unit 3, learning unit 31, exclusion unit 32, detection unit 33, acquisition unit 34, future expression sentence detection unit 331, purpose unit sentence detection unit 332, selection unit 333, first machine learning unit 3311, and second machine learning The means 3321 can be usually realized by an MPU, a memory, or the like. The processing procedure of the processing unit 3 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

出力部4は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部4は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。   The output unit 4 may be considered as including or not including an output device such as a display or a speaker. The output unit 4 can be realized by driver software for an output device or driver software for an output device and an output device.

次に、情報処理装置Aの動作例について、図5のフローチャートを用いて説明する。   Next, an operation example of the information processing apparatus A will be described using the flowchart of FIG.

(ステップS501)受付部2は、開始指示を受け付けたか否かを判断する。開始指示を受け付けた場合はステップS502に行き、開始指示を受け付けなかった場合はステップS513に行く。   (Step S501) The accepting unit 2 determines whether a start instruction has been accepted. When the start instruction is accepted, the process goes to step S502. When the start instruction is not accepted, the process goes to step S513.

(ステップS502)処理部3は、カウンタiに1を代入する。   (Step S502) The processing unit 3 substitutes 1 for the counter i.

(ステップS503)処理部3は、i番目の文章情報が文章情報格納部11に存在するか否かを判断する。i番目の文章情報が存在すればステップS504に行き、存在しなければステップS511に行く。   (Step S503) The processing unit 3 determines whether or not the i-th sentence information exists in the sentence information storage unit 11. If i-th sentence information exists, it will go to step S504, and if it does not exist, it will go to step S511.

(ステップS504)検知部33は、i番目の文章情報を文章情報格納部11から取得する。   (Step S504) The detection unit 33 acquires the i-th sentence information from the sentence information storage unit 11.

(ステップS505)検知部33は、カウンタjに1を代入する。   (Step S505) The detection unit 33 substitutes 1 for a counter j.

(ステップS506)検知部33は、ステップS504で取得した文章情報の中に、j番目の文が存在するか否かを判断する。j番目の文が存在する場合はステップS507に行き、j番目の文が存在しない場合はステップS510に行く。なお、文の区切りを検知し、文章情報から文を取得する技術は周知技術であるので、詳細な説明を省略する。検知部33は、例えば、句点を手がかりに文を抽出する。また、検知部33は、リターンコードを手がかりに文を抽出する。   (Step S506) The detection unit 33 determines whether or not the j-th sentence exists in the sentence information acquired in step S504. If the jth sentence exists, go to step S507, and if the jth sentence does not exist, go to step S510. Note that a technique for detecting sentence breaks and acquiring sentences from sentence information is a well-known technique, and a detailed description thereof will be omitted. For example, the detection unit 33 extracts a sentence using clues as clues. Further, the detection unit 33 extracts a sentence using the return code as a clue.

(ステップS507)検知部33は、ステップS504で取得した文章情報からj番目の文を取得する。   (Step S507) The detection unit 33 acquires the j-th sentence from the sentence information acquired in Step S504.

(ステップS508)検知部33は、ステップS507で取得した文に対して、検知処理を行う。検知処理は、文が未来志向文であるか否かを判断する処理である。検知処理について、図6のフローチャートを用いて説明する。   (Step S508) The detection unit 33 performs detection processing on the sentence acquired in step S507. The detection process is a process for determining whether or not the sentence is a future-oriented sentence. The detection process will be described with reference to the flowchart of FIG.

(ステップS509)検知部33は、カウンタjを1、インクリメントする。ステップS506に戻る。   (Step S509) The detector 33 increments the counter j by 1. The process returns to step S506.

(ステップS510)処理部3は、カウンタiを1、インクリメントする。ステップS503に戻る。   (Step S510) The processing unit 3 increments the counter i by one. The process returns to step S503.

(ステップS511)取得部34は、未来志向文情報を取得する。かかる取得処理について、図11のフローチャートを用いて説明する。   (Step S511) The acquisition unit 34 acquires future-oriented sentence information. Such acquisition processing will be described with reference to the flowchart of FIG.

(ステップS512)出力部4は、ステップS511で取得された未来志向文情報を出力する。ステップS501に戻る。   (Step S512) The output unit 4 outputs the future-oriented sentence information acquired in Step S511. The process returns to step S501.

(ステップS513)受付部2は、第一学習指示を受け付けたか否かを判断する。第一学習指示を受け付けた場合はステップS514に行き、第一学習指示を受け付けなかった場合はステップS515に行く。   (Step S513) The reception unit 2 determines whether or not a first learning instruction has been received. When the first learning instruction is accepted, the process goes to step S514. When the first learning instruction is not accepted, the process goes to step S515.

(ステップS514)学習部31は、第一学習処理を行い、第一学習器を取得し、当該第一学習器を第一学習器格納部15に蓄積する。第一学習処理について、図12のフローチャートを用いて説明する。   (Step S514) The learning unit 31 performs a first learning process, acquires a first learner, and accumulates the first learner in the first learner storage unit 15. The first learning process will be described using the flowchart of FIG.

(ステップS515)受付部2は、第二学習指示を受け付けたか否かを判断する。第二学習指示を受け付けた場合はステップS516に行き、第二学習指示を受け付けなかった場合はステップS501に戻る。   (Step S515) The reception unit 2 determines whether a second learning instruction has been received. When the second learning instruction is accepted, the process goes to step S516, and when the second learning instruction is not accepted, the process returns to step S501.

(ステップS516)学習部31は、第二学習処理を行い、第二学習器を取得し、当該第二学習器を第二学習器格納部16に蓄積する。第二学習処理について、図13のフローチャートを用いて説明する。   (Step S516) The learning unit 31 performs a second learning process, acquires a second learning device, and accumulates the second learning device in the second learning device storage unit 16. A 2nd learning process is demonstrated using the flowchart of FIG.

なお、図5のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。   In the flowchart of FIG. 5, the process ends when the power is turned off or the process ends.

次に、ステップS508の検知処理の例について、図6のフローチャートを用いて説明する。   Next, an example of the detection process in step S508 will be described using the flowchart of FIG.

(ステップS601)除外部32は、除外処理を行う。除外処理について、図7のフローチャートを用いて説明する。   (Step S601) The exclusion unit 32 performs an exclusion process. Exclusion processing will be described with reference to the flowchart of FIG.

(ステップS602)検知部33は、ステップS601における除外処理の結果、処理対象の文が除外される文であるか否かを判断する。除外される文である場合はステップS608に行き、除外される文でない場合はステップS603に行く。   (Step S602) The detection unit 33 determines whether the sentence to be processed is a sentence that is excluded as a result of the exclusion process in Step S601. If the sentence is excluded, the process goes to step S608. If the sentence is not excluded, the process goes to step S603.

(ステップS603)検知部33は、未来表現文検査を行う。未来表現文検査とは、文が未来表現文であるか、非未来表現文であるかを検査する処理である。未来表現文検査について、図8のフローチャートを用いて説明する。   (Step S603) The detection unit 33 performs future expression sentence inspection. The future expression sentence inspection is a process for inspecting whether a sentence is a future expression sentence or a non-future expression sentence. The future expression sentence inspection will be described with reference to the flowchart of FIG.

(ステップS604)検知部33は、目的手段文検査を行う。目的手段文検査とは、文が目的手段文であるか、非目的手段であるかを検査する処理である。目的手段検査について、図9のフローチャートを用いて説明する。   (Step S604) The detection unit 33 performs an objective means sentence inspection. The purpose means sentence check is a process for checking whether a sentence is a purpose means sentence or a non-purpose means. The objective means inspection will be described with reference to the flowchart of FIG.

(ステップS605)検知部33は、ステップS603、およびステップS604の検査の結果、文が「未来表現文」であり、かつ「目的手段文」であるか否かを判断する。かかる条件に合致する場合はステップS606に行き、合致しない場合はステップS607に行く。   (Step S605) The detection unit 33 determines whether the sentence is a “future expression sentence” and a “target means sentence” as a result of the inspections in steps S603 and S604. If this condition is met, the process goes to step S606, and if not, the process goes to step S607.

(ステップS606)検知部33は、変数「判断結果」に「未来志向文である」旨の情報(例えば、「1」)を代入する。上位処理にリターンする。   (Step S606) The detection unit 33 substitutes information (for example, “1”) indicating “future-oriented sentence” into the variable “judgment result”. Return to upper process.

(ステップS607)検知部33は、変数「判断結果」に「未来志向文でない」旨の情報(例えば、「0」)を代入する。上位処理にリターンする。   (Step S607) The detection unit 33 substitutes information (for example, “0”) indicating “not a future-oriented sentence” into the variable “judgment result”. Return to upper process.

(ステップS608)検知部33は、変数「判断結果」に「未来志向文でない」旨の情報(例えば、「1」)を代入する。上位処理にリターンする。   (Step S608) The detection unit 33 substitutes information (for example, “1”) indicating “not a future-oriented sentence” into the variable “judgment result”. Return to upper process.

なお、図6のフローチャートにおいて、除外処理は存在しなくても良い。   In the flowchart of FIG. 6, the exclusion process may not exist.

次に、ステップS601の除外処理の例について、図7のフローチャートを用いて説明する。   Next, an example of the exclusion process in step S601 will be described using the flowchart of FIG.

(ステップS701)除外部32は、検査対象の文の文字数を取得する。   (Step S701) The exclusion unit 32 acquires the number of characters of the sentence to be examined.

(ステップS702)除外部32は、文が属する項目名を取得する。   (Step S702) The exclusion unit 32 acquires the item name to which the sentence belongs.

(ステップS703)除外部32は、文がタイトルであるか否かを示す情報(文がタイトル内の文であるか否かを示す情報)を取得する。   (Step S703) The exclusion unit 32 acquires information indicating whether or not the sentence is a title (information indicating whether or not the sentence is a sentence in the title).

(ステップS704)除外部32は、文がパーツであるか否かを示す情報を取得する。   (Step S704) The exclusion unit 32 acquires information indicating whether or not the sentence is a part.

(ステップS705)除外部32は、文から文頭の文字を取得する。   (Step S705) The exclusion unit 32 acquires the first character from the sentence.

(ステップS706)除外部32は、文の中に句点を有するか否かを示す情報を取得する。   (Step S706) The exclusion unit 32 acquires information indicating whether or not the sentence has a punctuation mark.

(ステップS707)除外部32は、カウンタiに1を代入する。   (Step S707) The exclusion unit 32 substitutes 1 for the counter i.

(ステップS708)除外部32は、除外条件格納部13にi番目の除外条件が存在するか否かを判断する。i番目の除外条件が存在する場合はステップS709に行き、i番目の除外条件が存在しない場合はステップS713に行く。   (Step S708) The exclusion unit 32 determines whether or not the i-th exclusion condition exists in the exclusion condition storage unit 13. If the i-th exclusion condition exists, the process goes to step S709. If the i-th exclusion condition does not exist, the process goes to step S713.

(ステップS709)除外部32は、i番目の除外条件を除外条件格納部13から取得する。   (Step S709) The exclusion unit 32 acquires the i-th exclusion condition from the exclusion condition storage unit 13.

(ステップS710)除外部32は、ステップS701からステップS706までのステップ取得した情報のうち、1または2以上の情報がi番目の除外条件に合致するか否かを判断する。i番目の除外条件に合致する場合はステップS711に行き、i番目の除外条件に合致しない場合はステップS712に行く。   (Step S710) The exclusion unit 32 determines whether one or two or more pieces of information acquired in steps S701 to S706 meet the i-th exclusion condition. If the i-th exclusion condition is met, the process goes to step S711. If the i-th exclusion condition is not met, the process goes to step S712.

(ステップS711)除外部32は、変数「除外処理結果」に「除外する」旨の情報(例えば、「−1」)を代入する。上位処理にリターンする。   (Step S711) The excluding unit 32 substitutes information (for example, “−1”) indicating “exclude” into the variable “exclusion processing result”. Return to upper process.

(ステップS712)除外部32は、カウンタiを1、インクリメントする。ステップS708に戻る。   (Step S712) The exclusion unit 32 increments the counter i by 1. The process returns to step S708.

(ステップS713)除外部32は、変数「除外処理結果」に「除外しない」旨の情報(例えば、「0」)を代入する。上位処理にリターンする。   (Step S713) The exclusion unit 32 substitutes information (for example, “0”) indicating “not excluded” into the variable “exclusion process result”. Return to upper process.

次に、ステップS603の未来表現文検査の処理例について、図8のフローチャートを用いて説明する。   Next, a processing example of the future expression sentence inspection in step S603 will be described using the flowchart of FIG.

(ステップS801)未来表現文検知手段331は、第二のフィルタリング処理を行う。第二のフィルタリング処理について、図9のフローチャートを用いて説明する。   (Step S801) The future expression sentence detection means 331 performs a second filtering process. The second filtering process will be described with reference to the flowchart of FIG.

(ステップS802)未来表現文検知手段331は、ステップS801の処理結果である第一結果が「未定」であるか否かを判断する。第一結果が「未定」である場合はステップS803に行き、第一結果が「未定」でない場合は上位処理にリターンする。   (Step S802) The future expression sentence detection means 331 determines whether or not the first result, which is the processing result of step S801, is “undecided”. When the first result is “undecided”, the process goes to step S803, and when the first result is not “undetermined”, the process returns to the upper process.

(ステップS803)第一機械学習手段3311は、検査対象の文から1以上の情報を取得し、ベクトルを構成する。なお、ベクトルを構成するための1以上の情報は、例えば、文末手がかり表現情報、頻出用語情報、副詞情報、ペア情報、句点情報、品詞情報、句点情報、文属性情報のうちの1または2以上の情報である。   (Step S803) The first machine learning means 3311 acquires one or more pieces of information from the sentence to be examined, and constructs a vector. Note that one or more pieces of information for constructing the vector are, for example, one or more of sentence end clue expression information, frequent term information, adverb information, pair information, punctuation information, part of speech information, punctuation information, and sentence attribute information. Information.

(ステップS804)未来表現文検知手段331は、ステップS803で構成したベクトルと第一学習器とを用いて、機械学習のアルゴリズムにより、予測結果を取得する。上位処理にリターンする。ここで、機械学習の予測結果は、第一結果である。第一結果は、文が未来表現文であることを示す情報、または文が非未来表現文であることを示す情報である。第一結果は、機械学習の関数が出力するスコアをも有しても良い。スコアは、第一結果の尤度である。   (Step S804) The future expression sentence detection means 331 acquires a prediction result by a machine learning algorithm using the vector configured in step S803 and the first learner. Return to upper process. Here, the prediction result of machine learning is the first result. The first result is information indicating that the sentence is a future expression sentence, or information indicating that the sentence is a non-future expression sentence. The first result may also have a score output by a machine learning function. The score is the likelihood of the first result.

なお、図8のフローチャートにおいて、第二のフィルタリング処理は存在しなくても良い。   In the flowchart of FIG. 8, the second filtering process may not exist.

次に、ステップS801の第二のフィルタリング処理の例について、図9のフローチャートを用いて説明する。   Next, an example of the second filtering process of step S801 will be described using the flowchart of FIG.

(ステップS901)未来表現文検知手段331は、変数「第一結果」に値「未定」を代入する。   (Step S901) The future expression sentence detection means 331 substitutes the value “undecided” for the variable “first result”.

(ステップS902)未来表現文検知手段331は、カウンタiに1を代入する。   (Step S902) The future expression sentence detection means 331 substitutes 1 for the counter i.

(ステップS903)未来表現文検知手段331は、i番目の未来表現手がかり表現が格納部1に格納されているか否かを判断する。i番目の未来表現手がかり表現が格納されている場合はステップS904に行き、格納されていない場合はステップS908に行く。   (Step S903) The future expression sentence detection means 331 determines whether or not the i-th future expression clue expression is stored in the storage unit 1. If the i-th future expression clue expression is stored, the process goes to step S904, and if not stored, the process goes to step S908.

(ステップS904)未来表現文検知手段331は、格納部1からi番目の未来表現手がかり表現を取得する。   (Step S904) The future expression sentence detection means 331 acquires the i-th future expression clue expression from the storage unit 1.

(ステップS905)未来表現文検知手段331は、検査対象の文に、i番目の未来表現手がかり表現が含まれるか否かを判断する。i番目の未来表現手がかり表現が含まれる場合はステップS906に行き、含まれない場合はステップS907に行く。   (Step S905) The future expression sentence detection means 331 determines whether or not the i-th future expression clue expression is included in the sentence to be examined. If the i-th future expression clue expression is included, the process goes to step S906, and if not, the process goes to step S907.

(ステップS906)未来表現文検知手段331は、変数「第一結果」に値「未来表現文である」旨の情報を代入する。上位処理にリターンする。   (Step S906) The future expression sentence detection means 331 substitutes information indicating that the value is “future expression sentence” into the variable “first result”. Return to upper process.

(ステップS907)未来表現文検知手段331は、カウンタiを1、インクリメントする。ステップS903に戻る。   (Step S907) The future expression sentence detection means 331 increments the counter i by 1. The process returns to step S903.

(ステップS908)未来表現文検知手段331は、カウンタjに1を代入する。   (Step S908) The future expression sentence detection means 331 substitutes 1 for the counter j.

(ステップS909)未来表現文検知手段331は、j番目の非未来表現手がかり表現が格納部1に格納されているか否かを判断する。j番目の非未来表現手がかり表現が格納されている場合はステップS910に行き、格納されていない場合は上位処理にリターンする。   (Step S909) The future expression sentence detection means 331 determines whether or not the j-th non-future expression clue expression is stored in the storage unit 1. When the j-th non-future expression clue expression is stored, the process goes to step S910, and when it is not stored, the process returns to the upper process.

(ステップS910)未来表現文検知手段331は、j番目の非未来表現手がかり表現を格納部1から取得する。   (Step S910) The future expression sentence detection unit 331 acquires the j-th non-future expression clue expression from the storage unit 1.

(ステップS911)未来表現文検知手段331は、検査対象の文に、j番目の非未来表現手がかり表現が含まれるか否かを判断する。j番目の非未来表現手がかり表現が含まれる場合はステップS912に行き、含まれない場合はステップS913に行く。   (Step S911) The future expression sentence detection means 331 determines whether or not the j-th non-future expression clue expression is included in the sentence to be examined. If the j-th non-future expression clue expression is included, the process goes to step S912. If not, the process goes to step S913.

(ステップS912)未来表現文検知手段331は、変数「第一結果」に値「非未来表現文である」旨の情報を代入する。上位処理にリターンする。   (Step S912) The future expression sentence detection means 331 substitutes the value “non-future expression sentence” information for the variable “first result”. Return to upper process.

(ステップS913)未来表現文検知手段331は、カウンタjを1、インクリメントする。ステップS909に戻る。   (Step S913) The future expression sentence detection means 331 increments the counter j by 1. The process returns to step S909.

次に、ステップS604の目的手段検査の処理例について、図10のフローチャートを用いて説明する。   Next, a processing example of the objective means inspection in step S604 will be described using the flowchart of FIG.

(ステップS1001)第二機械学習手段3321は、検査対象の文から1以上の情報を取得し、ベクトルを構成する。なお、ベクトルを構成するための1以上の情報は、例えば、読点前品詞情報、句点前品詞情報、句点情報、文属性情報、第一判断結果情報のうちの1または2以上の情報を含む。   (Step S1001) The second machine learning unit 3321 obtains one or more pieces of information from the sentence to be examined, and constructs a vector. Note that the one or more pieces of information for constructing the vector include, for example, one or more pieces of information out of part-of-speech part-of-speech information, part-of-speech part-of-speech information, punctuation point information, sentence attribute information, and first determination result information.

(ステップS1002)第二機械学習手段3321は、ステップS1001で構成したベクトルと第二学習器とを用いて、機械学習のアルゴリズムにより、予測結果を取得する。上位処理にリターンする。ここで、機械学習の予測結果は、第二結果である。第二結果は、文が目的手段文であることを示す情報、または文が非目的手段文であることを示す情報である。第二結果は、機械学習の関数が出力するスコアをも有しても良い。スコアは、第二結果の尤度である。   (Step S1002) The second machine learning unit 3321 obtains a prediction result by a machine learning algorithm using the vector configured in step S1001 and the second learner. Return to upper process. Here, the prediction result of the machine learning is the second result. The second result is information indicating that the sentence is a purpose means sentence, or information indicating that the sentence is a non-purpose means sentence. The second result may also have a score output by a machine learning function. The score is the likelihood of the second result.

次に、ステップS511の取得処理の例について、図11のフローチャートを用いて説明する。   Next, an example of the acquisition process in step S511 will be described using the flowchart in FIG.

(ステップS1101)取得部34は、カウンタiに1を代入する。   (Step S1101) The acquisition unit 34 substitutes 1 for a counter i.

(ステップS1102)取得部34は、文章情報に対応付いている文章属性値の中に、i番目の文章属性値が存在するか否かを判断する。i番目の文章属性値が存在する場合はステップS1103に行き、i番目の文章属性値が存在しない場合はステップS1107に行く。なお、i番目の文章属性値は、他の文章属性値と、その情報は重複しないものとする。   (Step S1102) The acquisition unit 34 determines whether or not the i-th sentence attribute value exists in the sentence attribute values associated with the sentence information. If the i-th sentence attribute value exists, the process goes to step S1103. If the i-th sentence attribute value does not exist, the process goes to step S1107. The i-th sentence attribute value does not overlap with other sentence attribute values.

(ステップS1103)取得部34は、i番目の文章属性値に対応づいている1以上の文章情報の中の未来志向文の数を取得する。   (Step S1103) The acquisition unit 34 acquires the number of future-oriented sentences in one or more sentence information corresponding to the i-th sentence attribute value.

(ステップS1104)取得部34は、i番目の文章属性値に対応づいている1以上の文章情報の中の未来志向文の割合を算出する。   (Step S1104) The acquisition unit 34 calculates a ratio of future-oriented sentences in one or more pieces of sentence information corresponding to the i-th sentence attribute value.

(ステップS1105)取得部34は、ステップS1103で取得した未来志向文の数、ステップS1104で取得した未来志向文の割合のうちの1以上の情報を用いて、スコアを算出する。   (Step S1105) The acquisition unit 34 calculates a score using one or more information of the number of future-oriented sentences acquired in step S1103 and the ratio of future-oriented sentences acquired in step S1104.

(ステップS1106)取得部34は、カウンタiを1、インクリメントする。ステップS1102に戻る。   (Step S1106) The acquisition unit 34 increments the counter i by 1. The process returns to step S1102.

(ステップS1107)取得部34は、ステップS1103で取得した未来志向文の数、ステップS1104で取得した未来志向文の割合、ステップS1105で取得したスコアのうちの1以上の情報を用いて、統計処理を行い、統計処理結果を取得する。上位処理にリターンする。なお、ステップS1103で取得した未来志向文の数、ステップS1104で取得した未来志向文の割合、ステップS1105で取得したスコア、ステップS1107で取得した計処理結果は、未来志向文情報の一例である。   (Step S1107) The acquisition unit 34 performs statistical processing using one or more pieces of information among the number of future-oriented sentences acquired in Step S1103, the ratio of future-oriented sentences acquired in Step S1104, and the score acquired in Step S1105. To obtain statistical processing results. Return to upper process. The number of future-oriented sentences acquired in step S1103, the ratio of future-oriented sentences acquired in step S1104, the score acquired in step S1105, and the measurement processing result acquired in step S1107 are examples of future-oriented sentence information.

次に、ステップS514の第一学習処理の例について、図12のフローチャートを用いて説明する。   Next, an example of the first learning process of step S514 will be described using the flowchart of FIG.

(ステップS1201)学習部31は、カウンタiに1を代入する。   (Step S1201) The learning unit 31 assigns 1 to the counter i.

(ステップS1202)学習部31は、i番目の第一学習データが学習データ格納部12に存在するか否かを判断する。i番目の第一学習データが存在すればステップS1203に行き、存在しなければステップS1206に行く。   (Step S1202) The learning unit 31 determines whether or not the i-th first learning data exists in the learning data storage unit 12. If the i-th first learning data exists, the process goes to step S1203, and if not, the process goes to step S1206.

(ステップS1203)学習部31は、i番目の第一学習データを学習データ格納部12から読み出し、当該第一学習データを用いてベクトルを構成する。   (Step S1203) The learning unit 31 reads the i-th first learning data from the learning data storage unit 12, and constructs a vector using the first learning data.

(ステップS1204)学習部31は、i番目の第一学習データと対になる第一結果、またはi番目の第一学習データに含まれる第一結果を取得する。正例の第一学習データの第一結果は、未来表現文であることを示す情報である。負例の第一学習データの第一結果は、未来表現文でないことを示す情報である。   (Step S1204) The learning unit 31 acquires a first result paired with the i-th first learning data or a first result included in the i-th first learning data. The first result of the first learning data of the positive example is information indicating that it is a future expression sentence. The first result of the negative first learning data is information indicating that it is not a future expression sentence.

(ステップS1205)学習部31は、カウンタiを1、インクリメントする。ステップS1202に戻る。   (Step S1205) The learning unit 31 increments the counter i by 1. The process returns to step S1202.

(ステップS1206)学習部31は、ステップS1203で取得したベクトル、およびステップS1204で取得した第一結果の組の情報を用いて、機械学習のアルゴリズムにより学習処理を行い、第一学習器を取得する。   (Step S1206) The learning unit 31 uses the vector acquired in step S1203 and the information of the first result set acquired in step S1204 to perform a learning process using a machine learning algorithm to acquire a first learner. .

(ステップS1207)学習部31は、ステップS1206で取得した第一学習器を第一学習器格納部15に蓄積する。上位処理にリターンする。   (Step S1207) The learning unit 31 accumulates the first learning device acquired in step S1206 in the first learning device storage unit 15. Return to upper process.

次に、ステップS516の第二学習処理の例について、図13のフローチャートを用いて説明する。   Next, an example of the second learning process in step S516 will be described using the flowchart in FIG.

(ステップS1301)学習部31は、カウンタiに1を代入する。   (Step S1301) The learning unit 31 substitutes 1 for the counter i.

(ステップS1302)学習部31は、i番目の第二学習データが学習データ格納部12に存在するか否かを判断する。i番目の第二学習データが存在すればステップS1303に行き、存在しなければステップS1306に行く。   (Step S1302) The learning unit 31 determines whether or not the i-th second learning data exists in the learning data storage unit 12. If i-th 2nd learning data exists, it will go to step S1303, and if it does not exist, it will go to step S1306.

(ステップS1303)学習部31は、i番目の第二学習データを学習データ格納部12から読み出し、当該第二学習データを用いてベクトルを構成する。   (Step S1303) The learning unit 31 reads the i-th second learning data from the learning data storage unit 12, and constructs a vector using the second learning data.

(ステップS1304)学習部31は、i番目の第二学習データと対になる第二結果、またはi番目の第二学習データに含まれる第二結果を取得する。正例の第二学習データの第二結果は、目的手段文であることを示す情報である。負例の第二学習データの第二結果は、目的手段文でないことを示す情報である。   (Step S1304) The learning unit 31 acquires a second result paired with the i-th second learning data or a second result included in the i-th second learning data. The second result of the second learning data of the positive example is information indicating that it is a purpose means sentence. The second result of the second learning data of the negative example is information indicating that it is not the objective means sentence.

(ステップS1305)学習部31は、カウンタiを1、インクリメントする。ステップS1302に戻る。   (Step S1305) The learning unit 31 increments the counter i by 1. The process returns to step S1302.

(ステップS1306)学習部31は、ステップS1303で取得したベクトル、およびステップS1304で取得した第二結果の組の情報を用いて、機械学習のアルゴリズムにより学習処理を行い、第二学習器を取得する。   (Step S1306) The learning unit 31 performs a learning process by a machine learning algorithm using the vector acquired in step S1303 and the information of the second result set acquired in step S1304, and acquires a second learner. .

(ステップS1307)学習部31は、ステップS1306で取得した第二学習器を第二学習器格納部16に蓄積する。上位処理にリターンする。   (Step S1307) The learning unit 31 accumulates the second learning device acquired in step S1306 in the second learning device storage unit 16. Return to upper process.

なお、図6を用いて説明した検知処理の他の例は、図14のフローチャートのような動作でも良い。図14のフローチャートは、図6のフローチャートの一部のステップから構成されるので、説明を省略する。   Note that another example of the detection process described with reference to FIG. 6 may be an operation as shown in the flowchart of FIG. The flowchart of FIG. 14 includes a part of the steps of the flowchart of FIG.

また、図6を用いて説明した検知処理の他の例は、図15のフローチャートのような動作でも良い。図15のフローチャートにおいて、図6のフローチャートと同一のステップは説明を省略する。   Further, another example of the detection process described with reference to FIG. 6 may be an operation as shown in the flowchart of FIG. In the flowchart of FIG. 15, the description of the same steps as those in the flowchart of FIG. 6 is omitted.

(ステップS1501)検知部33は、第一結果が「未来表現文である」ことを示す情報であるか否かを判断する。「未来表現文である」ことを示す情報であればステップS604に行き、「未来表現文である」ことを示す情報でなければステップS607に行く。   (Step S1501) The detection unit 33 determines whether or not the first result is information indicating “future expression sentence”. If the information indicates “future expression sentence”, the process proceeds to step S604, and if the information does not indicate “future expression sentence”, the process proceeds to step S607.

(ステップS1502)検知部33は、第二結果が「目的手段文である」ことを示す情報であるか否かを判断する。「目的手段文である」ことを示す情報であればステップS606に行き、「目的手段文である」ことを示す情報でなければステップS607に行く。   (Step S1502) The detection unit 33 determines whether or not the second result is information indicating that “the target means sentence is”. If it is information indicating “is a target means sentence”, the process proceeds to step S606, and if it is not information indicating “is a target means sentence”, the process proceeds to step S607.

以下、本実施の形態における情報処理装置Aの具体的な動作例、実験結果について説明する。情報処理装置Aは、例えば、図16に示す手順で動作を行う。つまり、文章情報格納部11の文章情報であるテキストデータ1601が入力され、除外部32が第一のフィルタリング処理1602を行う。そして、検知部33は、除外部32により除外された文以外の文に対して、第二のフィルタリング処理1603を行う。そして、第一機械学習手段3311は、第二のフィルタリング処理1603により、未来表現文であるか否かを決定されていない文に対して、機械学習のアルゴリズムにより予測処理を行い、第一結果を取得する(1604)。第一結果は、文が未来表現文であるか否かを示す情報である(1605)。また、第二機械学習手段3321は、除外部32により除外された文以外の文に対して、機械学習のアルゴリズムにより、予測処理を行い、第二結果を取得する(1606)。第二結果は、文が目的手段文であるか否かを示す情報である(1607)。そして、選択手段333は、マッチングを行い(1608)、未来志向文(1609)を取得する。   Hereinafter, specific operation examples and experimental results of the information processing apparatus A in the present embodiment will be described. For example, the information processing apparatus A operates according to the procedure shown in FIG. That is, text data 1601 that is text information in the text information storage unit 11 is input, and the exclusion unit 32 performs a first filtering process 1602. Then, the detection unit 33 performs a second filtering process 1603 on a sentence other than the sentence excluded by the exclusion unit 32. Then, the first machine learning means 3311 performs a prediction process by a machine learning algorithm on a sentence that has not been determined whether or not it is a future expression sentence by the second filtering process 1603, and obtains the first result. Obtain (1604). The first result is information indicating whether or not the sentence is a future expression sentence (1605). Further, the second machine learning unit 3321 performs prediction processing on a sentence other than the sentence excluded by the exclusion unit 32 using a machine learning algorithm, and obtains a second result (1606). The second result is information indicating whether or not the sentence is a target means sentence (1607). Then, the selection unit 333 performs matching (1608) and acquires a future-oriented sentence (1609).

以下、文章情報の例が、有価証券報告書である場合について、情報処理装置Aの具体的な動作例、実験結果について説明する。   Hereinafter, when the example of text information is a securities report, a specific operation example and experimental results of the information processing apparatus A will be described.

文章情報格納部11には、例えば、図17に示す有価証券報告書のファイルが格納されている、とする。   Assume that the text information storage unit 11 stores, for example, a securities report file shown in FIG.

そして、除外部32が、第一のフィルタリング処理(図16の1602参照)により、上述した(1)〜(4)の除外条件のいずれかに該当する文を除いた、とする。そして、除かれた文の例は、図18である。   Then, it is assumed that the exclusion unit 32 excludes the sentence corresponding to any of the exclusion conditions (1) to (4) described above by the first filtering process (see 1602 in FIG. 16). An example of the removed sentence is shown in FIG.

また、検知部33は、第二のフィルタリング処理(図16の1603参照)により、文「新たなアトラクションを適時に導入することをはじめとして継続的かつ資産効率を加味した設備投資を行っていくことが必要不可欠であると考え、これらの施策を実行してまいります。」や文「次世代半導体製造用材料として液浸関連材料の開発を加速させるなど新規市場での新製品の開発により成長機会を確保することに注力いたします。」を未来表現文である、と決定した、とする。また、検知部33は、第二のフィルタリング処理(図16の1603参照)により、文「経営統合により、国際競争力を有するアジア有数の総合エネルギー・資源・素材グループとして発展し、持続可能で活力ある経済・社会の発展に貢献することを目指すことについて合意しました。」を未来表現文でない、と決定した、とする。   In addition, the detection unit 33 uses the second filtering process (see 1603 in FIG. 16) to make a capital investment that includes the sentence “introducing new attractions in a timely manner and taking into account asset efficiency”. "We will implement these measures because we believe it is indispensable." And the sentence "Growth opportunities by developing new products in new markets, such as accelerating the development of immersion-related materials as materials for next-generation semiconductor manufacturing." "We will focus on ensuring that" is a future expression sentence. In addition, the detection unit 33 is developed as a leading comprehensive energy, resource and material group in Asia that has international competitiveness by the management integration through the second filtering process (see 1603 in FIG. 16). We have agreed to aim to contribute to the development of a certain economy and society. "

また、第一機械学習手段3311は、図3に示した次元数の素性を用いて、上述したアルゴリズムによる機械学習により、第一の予測処理(図16の1604)を行った。かかる場合の実験結果を、図19に示す。図19において、未来表現文であることを特定できた精度等は、「正例」の行であり、未来表現文でないことを特定できた精度等は、「負例」の行であり、「正例」と「負例」の加重平均の精度等が「平均(加重)」の行である。図19において、平均では、精度・再現率・F値のいずれも0.9弱の良好と言える結果であった。また、負例では、精度が高く再現率が若干低いが、正例では、いずれも0.9を超えていた。また、負例と判定した数が、元々の負例のデータ数と同程度であったことから、やみくもに正例と判定したことによって高い評価結果となったわけではない。また、図19から、全体として、情報処理装置Aは高い判定性能があると判断できる。   Further, the first machine learning means 3311 performs the first prediction process (1604 in FIG. 16) by machine learning using the above-described algorithm using the feature of the number of dimensions shown in FIG. The experimental results in such a case are shown in FIG. In FIG. 19, the accuracy or the like that can be identified as a future expression sentence is a “positive example” line, and the accuracy or the like that can be identified as not a future expression sentence is a “negative example” line. The accuracy of the weighted average of “positive example” and “negative example” is the row of “average (weighted)”. In FIG. 19, on average, the accuracy, the recall, and the F value are all good, that is, less than 0.9. Further, in the negative example, the accuracy was high and the reproduction rate was slightly low, but in the positive example, both exceeded 0.9. Moreover, since the number determined as a negative example was about the same as the number of data of the original negative example, it was not necessarily a high evaluation result because it was determined as a positive example. Further, from FIG. 19, it can be determined that the information processing apparatus A has high determination performance as a whole.

また、第二機械学習手段3321は、図4に示した次元数の素性を用いて、上述したアルゴリズムによる機械学習により、第二の予測処理(図16の1606)を行った。かかる場合の実験結果を、図20に示す。図20において、目的手段文であることを特定できた精度等は、「正例」の行であり、目的手段文でないことを特定できた精度等は、「負例」の行であり、「正例」と「負例」の加重平均の精度等が「平均(加重)」の行である。図20において、平均では、精度・再現率・F値いずれも0.88と良好な結果であった。正例は3指標とも0.9を超え、負例は3指標いずれも0.75程度となった。負例と判定した数が、元々の負例のデータ数と同程度であったことから、やみくもに正例と判定したことによって高い評価結果となったわけではない。また、図20から、全体として、情報処理装置Aは高い判定性能があると判断できる。   Further, the second machine learning means 3321 performs the second prediction process (1606 in FIG. 16) by machine learning by the above-described algorithm using the feature of the number of dimensions shown in FIG. The experimental results in such a case are shown in FIG. In FIG. 20, the accuracy or the like that can be specified as the target means sentence is a “positive example” line, and the accuracy or the like that can be specified as not a target means sentence is the “negative example” line. The accuracy of the weighted average of “positive example” and “negative example” is the row of “average (weighted)”. In FIG. 20, on average, the accuracy, recall, and F value were all 0.88, which was a good result. The positive example exceeded 0.9 for all three indices, and the negative example was about 0.75 for all three indices. Since the number determined to be a negative example was about the same as the number of data of the original negative example, it was not necessarily a high evaluation result because it was determined to be a positive example. Further, from FIG. 20, it can be determined that the information processing apparatus A has high determination performance as a whole.

上述した未来表現抽出モデルでの処理、目的手段抽出モデルでの処理をマッチングさせて、未来志向文を抽出する情報処理装置Aの精度の実験結果を、図21に示す。図21は、850個の評価データを用いて行った評価である。評価データとは、学習器の性能を測るための例題とその答えのデータである。図21において、未来志向文であることを特定できた精度等は、「正例」の行であり、未来志向文でないことを特定できた精度等は、「負例」の行であり、「正例」と「負例」の加重平均の精度等が「平均(加重)」の行である。図21において、平均では、精度・再現率・F値いずれも0.9を超え、非常に良好な結果であった。正例は3指標とも0.9を超え、負例は3指標いずれも0.8を超えた。負例と判定した数が、元々の負例のデータ数と同程度であったことから、やみくもに正例と判定したことによって高い評価結果となったわけではない。負例について、各評価値は評価をマッチングすることで、各抽出モデルのみの評価値よりも大幅に改善できた。また、全体として、情報処理装置Aは非常に高い判定性能があると判断できる。   FIG. 21 shows the experimental results of the accuracy of the information processing apparatus A that extracts the future-oriented sentence by matching the processing in the future expression extraction model and the processing in the objective means extraction model. FIG. 21 shows an evaluation performed using 850 pieces of evaluation data. The evaluation data is data of examples and answers for measuring the performance of the learning device. In FIG. 21, the accuracy or the like that can be identified as a future-oriented sentence is a “positive example” line, and the accuracy or the like that can be identified as not a future-oriented sentence is a “negative example” line. The accuracy of the weighted average of “positive example” and “negative example” is the row of “average (weighted)”. In FIG. 21, on average, accuracy, recall, and F value all exceeded 0.9, which was a very good result. Positive examples exceeded 0.9 for all three indices, and negative examples exceeded 0.8 for all three indices. Since the number determined to be a negative example was about the same as the number of data of the original negative example, it was not necessarily a high evaluation result because it was determined to be a positive example. For negative examples, each evaluation value was significantly improved over the evaluation value of each extracted model by matching the evaluation. Further, as a whole, it can be determined that the information processing apparatus A has very high determination performance.

また、取得部34は、検知部33が検知した未来志向文の集合を用いて統計処理を行い、以下に示す未来志向文情報を取得した。ここで、未来志向文情報の例を図22に示す。図22において、未来志向文情報は、未来志向文の集合を用いた統計処理結果であり、図18の有価証券報告書を含む検査対象の文章情報の中の未来志向文の割合である。   The acquisition unit 34 performs statistical processing using the set of future-oriented sentences detected by the detection unit 33, and acquires the future-oriented sentence information shown below. Here, an example of future-oriented sentence information is shown in FIG. In FIG. 22, the future-oriented text information is a statistical processing result using a set of future-oriented texts, and is the ratio of the future-oriented text in the text information to be examined including the securities report of FIG.

以上、本実施の形態によれば、文が未来志向文であるか否かを判断する未来志向文判断処理が精度高く行える。   As described above, according to the present embodiment, the future-oriented sentence determination process for determining whether or not the sentence is a future-oriented sentence can be performed with high accuracy.

また、本実施の形態によれば、1以上の文章情報に含まれる各文に対して未来志向文判断処理を行い、その結果を用いて、情報を出力できる。   Further, according to the present embodiment, it is possible to perform future-oriented sentence determination processing for each sentence included in one or more pieces of sentence information, and output information using the result.

また、本実施の形態によれば、高速かつ精度高くに未来志向文判断処理ができる。   Further, according to the present embodiment, it is possible to perform future-oriented sentence determination processing at high speed and with high accuracy.

さらに、本実施の形態によれば、未来志向文判断処理の結果を使用し、統計処理ができる。   Furthermore, according to the present embodiment, statistical processing can be performed using the results of future-oriented sentence determination processing.

なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置Aを実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、文が未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文であるか否かを判断する検知部と、前記検知部における判断結果に関する情報である未来志向文情報を取得する取得部と、前記取得部が取得した未来志向文情報を出力する出力部として機能させるためのプログラムである。   Note that the processing in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded and distributed on a recording medium such as a CD-ROM. This also applies to other embodiments in this specification. Note that the software that implements the information processing apparatus A in the present embodiment is the following program. That is, this program is a future-oriented sentence that is a future means sentence that is a future expression sentence including that the sentence is related to the future and that has any one or more of a purpose expression and a means expression. A program for functioning as a detection unit that determines whether or not, an acquisition unit that acquires future-oriented sentence information that is information related to a determination result in the detection unit, and an output unit that outputs the future-oriented sentence information acquired by the acquisition unit It is.

また、図23は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置Aを実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図23は、このコンピュータシステム300の概観図であり、図24は、システム300のブロック図である。   FIG. 23 shows the external appearance of a computer that implements the information processing apparatus A according to various embodiments described above by executing the program described in this specification. The above-described embodiments can be realized by computer hardware and a computer program executed thereon. FIG. 23 is an overview diagram of the computer system 300, and FIG. 24 is a block diagram of the system 300.

図23において、コンピュータシステム300は、CD−ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。   In FIG. 23, a computer system 300 includes a computer 301 including a CD-ROM drive, a keyboard 302, a mouse 303, and a monitor 304.

図24において、コンピュータ301は、CD−ROMドライブ3012に加えて、MPU3013と、CD−ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。   24, in addition to the CD-ROM drive 3012, the computer 301 includes an MPU 3013, a bus 3014 connected to the CD-ROM drive 3012, a ROM 3015 for storing a program such as a bootup program, and an MPU 3013. It includes a RAM 3016 for temporarily storing application program instructions and providing a temporary storage space, and a hard disk 3017 for storing application programs, system programs, and data. Although not shown here, the computer 301 may further include a network card that provides connection to a LAN.

コンピュータシステム300に、上述した実施の形態の情報処理装置Aの機能を実行させるプログラムは、CD−ROM3101に記憶されて、CD−ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101またはネットワークから直接、ロードされても良い。   A program that causes the computer system 300 to execute the functions of the information processing apparatus A according to the above-described embodiment may be stored in the CD-ROM 3101, inserted into the CD-ROM drive 3012, and further transferred to the hard disk 3017. Alternatively, the program may be transmitted to the computer 301 via a network (not shown) and stored in the hard disk 3017. The program is loaded into the RAM 3016 at the time of execution. The program may be loaded directly from the CD-ROM 3101 or the network.

プログラムは、コンピュータ301に、上述した実施の形態の情報処理装置Aの機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。   The program does not necessarily include an operating system (OS) or a third-party program that causes the computer 301 to execute the functions of the information processing apparatus A according to the above-described embodiment. The program only needs to include an instruction portion that calls an appropriate function (module) in a controlled manner and obtains a desired result. How the computer system 300 operates is well known and will not be described in detail.

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。   Further, the computer that executes the program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.

また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。   Further, in each of the above embodiments, it goes without saying that two or more communication means existing in one apparatus may be physically realized by one medium.

また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。   In each of the above embodiments, each process may be realized by centralized processing by a single device, or may be realized by distributed processing by a plurality of devices.

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。   The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.

以上のように、本発明にかかる情報処理装置Aは、1以上の各文が、未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文であるか否かを判断する未来志向文判断処理ができるという効果を有し、有価証券報告書等の文章情報を処理する情報処理装置等として有用である。   As described above, the information processing apparatus A according to the present invention is an object in which one or more sentences are future expression sentences including things related to the future, and are sentences having at least one of a purpose expression and a means expression. It has the effect of being able to perform future-oriented sentence determination processing for determining whether or not it is a future-oriented sentence that is a means sentence, and is useful as an information processing apparatus that processes text information such as a securities report.

1 格納部
2 受付部
3 処理部
4 出力部
11 文章情報格納部
12 学習データ格納部
13 除外条件格納部
14 文末条件格納部
15 第一学習器格納部
16 第二学習器格納部
31 学習部
32 除外部
33 検知部
34 取得部
331 未来表現文検知手段
332 目的手段文検知手段
333 選択手段
3311 第一機械学習手段
3321 第二機械学習手段
DESCRIPTION OF SYMBOLS 1 Storage part 2 Reception part 3 Processing part 4 Output part 11 Text information storage part 12 Learning data storage part 13 Exclusion condition storage part 14 End sentence condition storage part 15 1st learning device storage part 16 2nd learning device storage part 31 Learning part 32 Exclusion unit 33 detection unit 34 acquisition unit 331 future expression sentence detection means 332 target means sentence detection means 333 selection means 3311 first machine learning means 3321 second machine learning means

Claims (11)

文が未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文であるか否かを判断する検知部と、
前記検知部が検知した未来志向文に関する情報である未来志向文情報を取得する取得部と、
前記取得部が取得した未来志向文情報を出力する出力部とを具備し、
前記検知部は、
検査対象の文が、前記未来表現文であるか否かを判断する未来表現文検知手段と、
検査対象の文が、前記目的手段文であるか否かを判断する目的手段文検知手段と、
前記未来表現文検知手段が未来表現文であると判断し、かつ前記目的手段文検知手段が目的手段文であると判断した文である未来志向文を選択する選択手段とを具備し、
前記未来表現文検知手段は、
第一未来表現文検知処理または第二未来表現文検知処理を行うことにより、文が前記未来表現文であるか否かを判断し、
前記第一未来表現文検知処理は、
格納部に格納されている未来表現を示す手がかり表現、未来表現でないことを示す手がかり表現のうちの1以上の種類の表現を用いて、検査対象の文が、未来表現文であるか否かを判断する処理であり、
前記第二未来表現文検知処理は、
未来表現文である2以上の未来表現正例文を用いて、未来表現文であるか否かを判断する際に使用される情報であり、機械学習のアルゴリズムにより作成された情報である第一学習器であり、第一学習器格納部に格納されている第一学習器を用いて、検査対象の文から、文末手がかり表現情報、頻出用語情報、副詞情報、ペア情報、句点情報、品詞情報、句点情報、文属性情報のうちの1以上の情報を取得し、当該1以上の情報を要素とするベクトルを構成し、当該ベクトルを前記第一学習器に適用し、機械学習のアルゴリズムにより、未来表現文であるか否かを判断する処理であり、
前記第一学習器は、
2以上の各未来表現正例文を用いて取得されたベクトルであり、予め決められた文末手がかり表現に関する文末手がかり表現情報、予め決められた頻出する用語である頻出用語に関する頻出用語情報、含まれる副詞の用語に関する副詞情報、文末の2文節のペアに関するペア情報、文末の形態素の品詞に関する品詞情報、文に含まれる句点に関する句点情報、文の属性に関する文属性情報のうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習し、取得された学習器であり、
前記目的手段文検知手段は、
第一目的手段文検知処理または第二目的手段文検知処理を行うことにより、文が前記目的手段文であるか否かを判断し、
前記第一目的手段文検知処理は、
格納部に格納されている目的表現、手段表現のうちの1以上の種類の表現を示す手がかり表現を用いて、検査対象の文が、目的手段文であるか否かを判断する処理であり、
前記第二目的手段文検知処理は、
目的手段文である2以上の目的手段正例文を用いて、目的手段文であるか否かを判断する際に使用される情報であり、機械学習のアルゴリズムにより作成された情報である第二学習器であり、第二学習器格納部に格納されている第二学習器を用いて、検査対象の文から、読点前品詞情報、句点前品詞情報、句点情報、文属性情報、第一判断結果情報のうちの1以上の情報を取得し、当該1以上の情報を要素とするベクトルを構成し、当該ベクトルを前記第二学習器に適用し、機械学習のアルゴリズムにより、目的手段文であるか否かを判断する処理であり、
前記第二学習器は、
2以上の各目的手段正例文を用いて取得されたベクトルであり、読点の前の単語の品詞に関する読点前品詞情報、句点の前の単語の品詞に関する句点前品詞情報、文に含まれる句点に関する句点情報、文の属性に関する文属性情報、第一機械学習手段が取得した未来表現文であるか否かについての第一判断結果情報のうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習し、取得された学習器であり、
前記取得部は、
前記選択手段が選択した未来志向文に関する情報である未来志向文情報を取得する情報処理装置。
A detector that determines whether or not the sentence is a future-oriented sentence that is a future expression sentence including a thing related to the future and is a purpose means sentence that is a sentence having any one or more of a purpose expression and a means expression;
An acquisition unit that acquires future-oriented text information that is information about the future-oriented text detected by the detection unit;
An output unit that outputs the future-oriented sentence information acquired by the acquisition unit ;
The detector is
A future expression sentence detection means for determining whether a sentence to be inspected is the future expression sentence;
An objective means sentence detection means for determining whether or not the sentence to be examined is the objective means sentence;
Selecting a future-oriented sentence that is a sentence that the future expression sentence detection means determines to be a future expression sentence and the target means sentence detection means determines to be a purpose means sentence; and
The future expression sentence detection means includes:
Determining whether the sentence is the future expression sentence by performing the first future expression sentence detection process or the second future expression sentence detection process;
The first future expression sentence detection process is:
Whether or not the sentence to be examined is a future expression sentence by using one or more kinds of expressions of the clue expression indicating the future expression stored in the storage unit and the clue expression indicating that it is not the future expression. It is a process to judge,
The second future expression sentence detection process is:
First learning, which is information used to determine whether or not it is a future expression sentence using two or more future expression sentences that are future expression sentences, and is created by a machine learning algorithm Using the first learner stored in the first learner storage unit, from the sentence to be examined, sentence ending clue expression information, frequent term information, adverb information, pair information, punctuation information, part of speech information, Obtain one or more pieces of information of the punctuation information and sentence attribute information, construct a vector having the one or more pieces of information as elements, apply the vector to the first learner, and use the machine learning algorithm to It is a process to determine whether it is an expression sentence,
The first learner is
Vectors obtained using two or more future expression positive example sentences, sentence ending clue expression information relating to a predetermined sentence ending clue expression, frequent term information relating to frequent terms which are predetermined frequent terms, and adverbs included One or more pieces of information: adverb information about a term, pair information about a pair of two clauses at the end of a sentence, part of speech information about a part of speech of a morpheme at the end of a sentence, punctuation information about a punctuation included in a sentence, and sentence attribute information about a sentence attribute Is a learning device obtained by learning with an algorithm of machine learning using two or more vectors.
The objective means sentence detection means comprises:
Determining whether the sentence is the objective means sentence by performing the first objective means sentence detection process or the second objective means sentence detection process;
The first objective means sentence detection process is:
A process of determining whether or not a sentence to be examined is a target means sentence by using a clue expression indicating one or more types of expressions of the purpose expression and means expression stored in the storage unit,
The second purpose means sentence detection process is:
Second learning, which is information used to determine whether a target means sentence is determined by using two or more target means positive example sentences that are target means sentences, and is information created by a machine learning algorithm Using the second learner stored in the second learner storage unit, from the sentence to be inspected, the part-of-speech information before punctuation, the part-of-speech information before the punctuation, the punctuation information, the sentence attribute information, and the first determination result Whether one or more pieces of information are obtained, a vector having the one or more pieces of information as an element is constructed, the vector is applied to the second learner, and the object means sentence is determined by a machine learning algorithm. Is a process of determining whether or not
The second learner is
It is a vector acquired using two or more objective means positive example sentences, part-of-speech part-of-speech information about the part-of-speech of the word before the punctuation point, part-of-speech part-of-speech information about the part-of-speech of the word before the punctuation point, and the punctuation point included in the sentence Two or more vectors whose elements are one or more of the following information: punctuation information, sentence attribute information related to sentence attributes, and first determination result information about whether or not it is a future expression sentence acquired by the first machine learning means It is a learning device that has been acquired by learning using a machine learning algorithm.
The acquisition unit
An information processing apparatus that acquires future-oriented text information that is information related to a future-oriented text selected by the selection means .
2以上の文を含む1以上の文章情報が格納される文章情報格納部と、
前記未来志向文に該当しない文を除くための条件である除外条件が格納される除外条件格納部と、
前記1以上の各文章情報が有する1以上の各文が前記除外条件を満たすか否かを判断し、当該除外条件を満たす文を除外する除外部をさらに具備し、
前記検知部は、
前記文章情報格納部に格納されている1以上の各文章情報が有する1以上の文であり、前記除外部が除外した文を除く1以上の文から、未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文を検知する請求項記載の情報処理装置。
A sentence information storage unit that stores one or more pieces of sentence information including two or more sentences;
An exclusion condition storage unit that stores an exclusion condition that is a condition for excluding a sentence not corresponding to the future-oriented sentence;
Determining whether or not each of the one or more sentences included in each of the one or more pieces of sentence information satisfies the exclusion condition, and further including an exclusion unit that excludes the sentence that satisfies the exclusion condition;
The detector is
Is one or more sentences in which one or more of each sentence information stored in the sentence information storing portion has one or more statements or et excluding sentences said excluding unit is excluded, in the future expression statement that includes about future The information processing apparatus according to claim 1 , wherein the information processing apparatus detects a future-oriented sentence that is a target means sentence that is a sentence having a target expression or means expression.
前記除外条件は、
文の文字数に関する文字数条件、文が出現する項目であり、文に対応する項目に関する項目条件、文の属性に関する属性条件、文に含まれる特定の文字に関する文字条件のうちの1以上の条件、または2以上の条件の組み合わせである請求項記載の情報処理装置。
The exclusion condition is:
One or more of the condition for the number of characters in the sentence, the item in which the sentence appears, the item condition for the item corresponding to the sentence, the attribute condition for the attribute of the sentence, the character condition for the specific character included in the sentence, or The information processing apparatus according to claim 2, which is a combination of two or more conditions.
文末表現に関する条件である文末条件が格納される文末条件格納部をさらに具備し、
前記第一未来表現文検知処理は、
前記文末条件に合致する文に対して、前記未来表現文であることを決定する、または前記未来表現文でないことを決定する処理である請求項1から請求項いずれか一項に記載の情報処理装置。
A sentence ending condition storage unit for storing a sentence ending condition that is a condition related to the sentence ending expression;
The first future expression sentence detection process is:
The information according to any one of claims 1 to 3, which is a process for determining that the sentence that satisfies the sentence end condition is the future expression sentence or not the future expression sentence. Processing equipment.
前記取得部は、
前記検知部が検知した1以上の未来志向文の数を取得し、当該未来志向文の数に基づく統計処理を行い、統計処理結果である未来志向文情報を取得する請求項から請求項いずれか一項に記載の情報処理装置。
The acquisition unit
The detecting unit acquires the number of 1 or more future-oriented statement is detected, performs statistical processing based on the number of the future-oriented statements, statistical processing claims from claim 1 to obtain a future-oriented statement information is the result 4 The information processing apparatus according to any one of claims.
2以上の文を含む1以上の文章情報が格納される文章情報格納部の1以上の各文章情報は、文章属性値が対応付いており、
前記取得部は、
前記文章属性値ごとの未来志向文の数を取得し、当該未来志向文の数に基づく統計処理を行い、統計処理結果である未来志向文情報を取得し、
前記未来志向文情報は、
文章属性値ごとの文章情報中の未来志向文の数、または文章属性値ごとの文章情報中の未来志向文の割合である請求項記載の情報処理装置。
One or more pieces of sentence information in the sentence information storage unit in which one or more pieces of sentence information including two or more sentences are stored are associated with sentence attribute values.
The acquisition unit
Obtaining the number of future-oriented sentences for each sentence attribute value, performing statistical processing based on the number of future-oriented sentences, obtaining future-oriented sentence information that is a statistical processing result ,
The future-oriented text information is
6. The information processing apparatus according to claim 5 , wherein the number of future-oriented sentences in the sentence information for each sentence attribute value or the ratio of future-oriented sentences in the sentence information for each sentence attribute value .
前記文章属性値は、企業を識別する企業識別子または業種を識別する業種識別子であり、
前記取得部は、
企業識別子または業種識別子値ごとの未来志向文の数を取得し、当該未来志向文の数に基づく統計処理を行い、統計処理結果である未来志向文情報を取得し、
前記未来志向文情報は、
企業識別子または業種識別子ごとの文章情報中の未来志向文の数、または企業識別子または業種識別子ごとの文章情報中の未来志向文の割合である請求項記載の情報処理装置。
The sentence attribute value is a company identifier for identifying a company or a business type identifier for identifying a business type,
The acquisition unit
Obtain the number of future-oriented sentences for each company identifier or industry identifier value, perform statistical processing based on the number of future-oriented sentences, obtain the future-oriented sentence information that is the statistical processing result ,
The future-oriented text information is
The information processing apparatus according to claim 6 , wherein the number is the number of future-oriented sentences in the sentence information for each company identifier or industry identifier, or the ratio of future-oriented sentences in the sentence information for each company identifier or industry identifier .
前記取得部は、The acquisition unit
前記検知部が検知した1以上の未来志向文を用いて、文章情報中の未来志向文の数または文章情報中の未来志向文の割合の情報を取得し、当該文章情報中の未来志向文の数または文章情報中の未来志向文の割合の情報を用いて、当該文章情報中の未来志向文の数または文章情報中の未来志向文の割合が大きいほど大きくなるスコアである未来志向文情報を算出する請求項5記載の情報処理装置。Using the one or more future-oriented sentences detected by the detection unit, information on the number of future-oriented sentences in the sentence information or the ratio of the future-oriented sentences in the sentence information is acquired, and the future-oriented sentences in the sentence information are acquired. Using the information on the number or the ratio of future-oriented sentences in the sentence information, the future-oriented sentence information that is a score that increases as the number of future-oriented sentences in the sentence information or the ratio of the future-oriented sentences in the sentence information increases. The information processing apparatus according to claim 5 to calculate.
前記検知部は、The detector is
有価証券報告書が有する2以上の各文に対して未来志向文であるか否かを判断する請求項1から請求項8いずれか一項に記載の情報処理装置。The information processing apparatus according to any one of claims 1 to 8, wherein the information processing apparatus determines whether or not each of the two or more sentences included in the securities report is a future-oriented sentence.
検知部と、取得部と、出力部とにより実現される情報処理方法であって、
前記検知部が、文が未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文であるか否かを判断する検知ステップと、
前記取得部が、前記検知ステップにおいて検知された未来志向文に関する情報である未来志向文情報を取得する取得ステップと、
前記出力部が、前記取得ステップで取得された未来志向文情報を出力する出力ステップとを具備し、
前記検知ステップは、
検査対象の文が、前記未来表現文であるか否かを判断する未来表現文検知サブステップと、
検査対象の文が、前記目的手段文であるか否かを判断する目的手段文検知サブステップと、
前記未来表現文検知サブステップにおいて未来表現文であると判断され、かつ前記目的手段文検知サブステップにおいて目的手段文であると判断された文である未来志向文を選択する選択サブステップとを具備し、
前記未来表現文検知サブステップにおいて、
第一未来表現文検知処理または第二未来表現文検知処理を行うことにより、文が前記未来表現文であるか否かを判断し、
前記第一未来表現文検知処理は、
格納部に格納されている未来表現を示す手がかり表現、未来表現でないことを示す手がかり表現のうちの1以上の種類の表現を用いて、検査対象の文が、未来表現文であるか否かを判断する処理であり、
前記第二未来表現文検知処理は、
未来表現文である2以上の未来表現正例文を用いて、未来表現文であるか否かを判断する際に使用される情報であり、機械学習のアルゴリズムにより作成された情報である第一学習器であり、第一学習器格納部に格納されている第一学習器を用いて、検査対象の文から、文末手がかり表現情報、頻出用語情報、副詞情報、ペア情報、句点情報、品詞情報、句点情報、文属性情報のうちの1以上の情報を取得し、当該1以上の情報を要素とするベクトルを構成し、当該ベクトルを前記第一学習器に適用し、機械学習のアルゴリズムにより、未来表現文であるか否かを判断する処理であり、
前記第一学習器は、
2以上の各未来表現正例文を用いて取得されたベクトルであり、予め決められた文末手がかり表現に関する文末手がかり表現情報、予め決められた頻出する用語である頻出用語に関する頻出用語情報、含まれる副詞の用語に関する副詞情報、文末の2文節のペアに関するペア情報、文末の形態素の品詞に関する品詞情報、文に含まれる句点に関する句点情報、文の属性に関する文属性情報のうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習し、取得された学習器であり、
前記目的手段文検知サブステップにおいて、
第一目的手段文検知処理または第二目的手段文検知処理を行うことにより、文が前記目的手段文であるか否かを判断し、
前記第一目的手段文検知処理は、
格納部に格納されている目的表現、手段表現のうちの1以上の種類の表現を示す手がかり表現を用いて、検査対象の文が、目的手段文であるか否かを判断する処理であり、
前記第二目的手段文検知処理は、
目的手段文である2以上の目的手段正例文を用いて、目的手段文であるか否かを判断する際に使用される情報であり、機械学習のアルゴリズムにより作成された情報である第二学習器であり、第二学習器格納部に格納されている第二学習器を用いて、検査対象の文から、読点前品詞情報、句点前品詞情報、句点情報、文属性情報、第一判断結果情報のうちの1以上の情報を取得し、当該1以上の情報を要素とするベクトルを構成し、当該ベクトルを前記第二学習器に適用し、機械学習のアルゴリズムにより、目的手段文であるか否かを判断する処理であり、
前記第二学習器は、
2以上の各目的手段正例文を用いて取得されたベクトルであり、読点の前の単語の品詞に関する読点前品詞情報、句点の前の単語の品詞に関する句点前品詞情報、文に含まれる句点に関する句点情報、文の属性に関する文属性情報、第一機械学習手段が取得した未来表現文であるか否かについての第一判断結果情報のうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習し、取得された学習器であり、
前記取得ステップにおいて、
前記選択サブステップで選択された未来志向文に関する情報である未来志向文情報を取得する情報処理方法。
An information processing method realized by a detection unit, an acquisition unit, and an output unit,
The detection unit determines whether or not the sentence is a future expression sentence including a thing related to the future and is a future-oriented sentence that is a target means sentence that is a sentence having any one or more of a purpose expression and a means expression. A detection step;
The acquisition unit, an acquisition step of acquiring a future-oriented statement information, which is information related to the detected contact had been detected future-oriented statements to step,
The output unit comprises an output step of outputting the future-oriented sentence information acquired in the acquisition step ;
The detection step includes
A future expression sentence detection substep for determining whether or not a sentence to be examined is the future expression sentence;
A target means sentence detection substep for determining whether or not a sentence to be examined is the target means sentence;
A selection sub-step for selecting a future-oriented sentence that is a sentence that is determined to be a future expression sentence in the future expression sentence detection sub-step and that is determined to be a target means sentence in the target means sentence detection sub-step; And
In the future expression sentence detection sub-step,
Determining whether the sentence is the future expression sentence by performing the first future expression sentence detection process or the second future expression sentence detection process;
The first future expression sentence detection process is:
Whether or not the sentence to be examined is a future expression sentence by using one or more kinds of expressions of the clue expression indicating the future expression stored in the storage unit and the clue expression indicating that it is not the future expression. It is a process to judge,
The second future expression sentence detection process is:
First learning, which is information used to determine whether or not it is a future expression sentence using two or more future expression sentences that are future expression sentences, and is created by a machine learning algorithm Using the first learner stored in the first learner storage unit, from the sentence to be examined, sentence ending clue expression information, frequent term information, adverb information, pair information, punctuation information, part of speech information, Obtain one or more pieces of information of the punctuation information and sentence attribute information, construct a vector having the one or more pieces of information as elements, apply the vector to the first learner, and use the machine learning algorithm to It is a process to determine whether it is an expression sentence,
The first learner is
Vectors obtained using two or more future expression positive example sentences, sentence ending clue expression information relating to a predetermined sentence ending clue expression, frequent term information relating to frequent terms which are predetermined frequent terms, and adverbs included One or more pieces of information: adverb information about a term, pair information about a pair of two clauses at the end of a sentence, part of speech information about a part of speech of a morpheme at the end of a sentence, punctuation information about a punctuation included in a sentence, and sentence attribute information about a sentence attribute Is a learning device obtained by learning with an algorithm of machine learning using two or more vectors.
In the objective means sentence detection sub-step,
Determining whether the sentence is the objective means sentence by performing the first objective means sentence detection process or the second objective means sentence detection process;
The first objective means sentence detection process is:
A process of determining whether or not a sentence to be examined is a target means sentence by using a clue expression indicating one or more types of expressions of the purpose expression and means expression stored in the storage unit,
The second purpose means sentence detection process is:
Second learning, which is information used to determine whether a target means sentence is determined by using two or more target means positive example sentences that are target means sentences, and is information created by a machine learning algorithm Using the second learner stored in the second learner storage unit, from the sentence to be inspected, the part-of-speech information before punctuation, the part-of-speech information before the punctuation, the punctuation information, the sentence attribute information, and the first determination result Whether one or more pieces of information are obtained, a vector having the one or more pieces of information as an element is configured, the vector is applied to the second learning device, and the object means sentence is determined by a machine learning algorithm. Is a process of determining whether or not
The second learner is
It is a vector acquired using two or more objective means positive example sentences, and the part-of-speech part-of-speech information about the part-of-speech of the word before the punctuation point, the part-of-speech part-of-speech information about the part-of-speech of the word before the punctuation point, and the punctuation point included in the sentence Two or more vectors whose elements are one or more of the following information: punctuation information, sentence attribute information related to sentence attributes, and first determination result information about whether or not it is a future expression sentence acquired by the first machine learning means It is a learning device that has been acquired by learning using a machine learning algorithm.
In the obtaining step,
An information processing method for acquiring future-oriented sentence information that is information related to a future-oriented sentence selected in the selection sub-step .
コンピュータを、
文が未来に関することを含む未来表現文であり、かつ目的表現または手段表現のいずれか1以上を有する文である目的手段文である未来志向文であるか否かを判断する検知部と、
前記検知部が検知した未来志向文に関する情報である未来志向文情報を取得する取得部と、
前記取得部が取得した未来志向文情報を出力する出力部として機能させるためのプログラムであって、
前記検知部は、
検査対象の文が、前記未来表現文であるか否かを判断する未来表現文検知手段と、
検査対象の文が、前記目的手段文であるか否かを判断する目的手段文検知手段と、
前記未来表現文検知手段が未来表現文であると判断し、かつ前記目的手段文検知手段が目的手段文であると判断した文である未来志向文を選択する選択手段とを具備するものとして、前記コンピュータを機能させ、
前記未来表現文検知手段は、
第一未来表現文検知処理または第二未来表現文検知処理を行うことにより、文が前記未来表現文であるか否かを判断し、
前記第一未来表現文検知処理は、
未来表現を示す手がかり表現を用いて、検査対象の文が、未来表現文であるか否かを判断する処理であり、
前記第二未来表現文検知処理は、
未来表現文である2以上の未来表現正例文を用いて、未来表現文であるか否かを判断する際に使用される情報であり、機械学習のアルゴリズムにより作成された情報である第一学習器であり、第一学習器格納部に格納されている第一学習器を用いて、検査対象の文から、文末手がかり表現情報、頻出用語情報、副詞情報、ペア情報、句点情報、品詞情報、句点情報、文属性情報のうちの1以上の情報を取得し、当該1以上の情報を要素とするベクトルを構成し、当該ベクトルを前記第一学習器に適用し、機械学習のアルゴリズムにより、未来表現文であるか否かを判断する処理であり、
前記第一学習器は、
2以上の各未来表現正例文を用いて取得されたベクトルであり、予め決められた文末手がかり表現に関する文末手がかり表現情報、予め決められた頻出する用語である頻出用語に関する頻出用語情報、含まれる副詞の用語に関する副詞情報、文末の2文節のペアに関するペア情報、文末の形態素の品詞に関する品詞情報、文に含まれる句点に関する句点情報、文の属性に関する文属性情報のうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習し、取得された学習器であり、
前記目的手段文検知手段は、
第一目的手段文検知処理または第二目的手段文検知処理を行うことにより、文が前記目的手段文であるか否かを判断し、
前記第一目的手段文検知処理は、
目的表現、手段表現のうちの1以上の種類の表現を示す手がかり表現を用いて、検査対象の文が、目的手段文であるか否かを判断する処理であり、
前記第二目的手段文検知処理は、
目的手段文である2以上の目的手段正例文を用いて、目的手段文であるか否かを判断する際に使用される情報であり、機械学習のアルゴリズムにより作成された情報である第二学習器であり、第二学習器格納部に格納されている第二学習器を用いて、検査対象の文から、読点前品詞情報、句点前品詞情報、句点情報、文属性情報、第一判断結果情報のうちの1以上の情報を取得し、当該1以上の情報を要素とするベクトルを構成し、当該ベクトルを前記第二学習器に適用し、機械学習のアルゴリズムにより、目的手段文であるか否かを判断する処理であり、
前記第二学習器は、
2以上の各目的手段正例文を用いて取得されたベクトルであり、読点の前の単語の品詞に関する読点前品詞情報、句点の前の単語の品詞に関する句点前品詞情報、文に含まれる句点に関する句点情報、文の属性に関する文属性情報、第一機械学習手段が取得した未来表現文であるか否かについての第一判断結果情報のうちの1以上の情報を要素とする2以上のベクトルを用いて、機械学習のアルゴリズムにより学習し、取得された学習器であり、
前記取得部は、
前記選択手段が選択した未来志向文に関する情報である未来志向文情報を取得する、ものとして前記コンピュータを機能させるためのプログラム
Computer
A detector that determines whether or not the sentence is a future-oriented sentence that is a future expression sentence including a thing related to the future and is a purpose means sentence that is a sentence having any one or more of a purpose expression and a means expression;
An acquisition unit that acquires future-oriented text information that is information about the future-oriented text detected by the detection unit;
A program for functioning as an output unit that outputs the future-oriented sentence information acquired by the acquisition unit ,
The detector is
A future expression sentence detection means for determining whether a sentence to be inspected is the future expression sentence;
An objective means sentence detection means for determining whether or not the sentence to be examined is the objective means sentence;
A selection means for selecting a future-oriented sentence that is a sentence that the future expression sentence detection means determines to be a future expression sentence and the target means sentence detection means determines to be a target means sentence; Make the computer function,
The future expression sentence detection means includes:
Determining whether the sentence is the future expression sentence by performing the first future expression sentence detection process or the second future expression sentence detection process;
The first future expression sentence detection process is:
A process of determining whether or not the sentence to be examined is a future expression sentence using a clue expression indicating the future expression.
The second future expression sentence detection process is:
First learning, which is information used to determine whether or not it is a future expression sentence using two or more future expression sentences that are future expression sentences, and is created by a machine learning algorithm Using the first learner stored in the first learner storage unit, from the sentence to be examined, sentence ending clue expression information, frequent term information, adverb information, pair information, punctuation information, part of speech information, Obtain one or more pieces of information of the punctuation information and sentence attribute information, construct a vector having the one or more pieces of information as elements, apply the vector to the first learner, and use the machine learning algorithm to It is a process to determine whether it is an expression sentence,
The first learner is
Vectors obtained using two or more future expression positive example sentences, sentence ending clue expression information relating to a predetermined sentence ending clue expression, frequent term information relating to frequent terms which are predetermined frequent terms, and adverbs included One or more pieces of information: adverb information about a term, pair information about a pair of two clauses at the end of a sentence, part of speech information about a part of speech of a morpheme at the end of a sentence, punctuation information about a punctuation included in a sentence, and sentence attribute information about a sentence attribute Is a learning device obtained by learning with an algorithm of machine learning using two or more vectors.
The objective means sentence detection means comprises:
Determining whether the sentence is the objective means sentence by performing the first objective means sentence detection process or the second objective means sentence detection process;
The first objective means sentence detection process is:
A process of determining whether or not a sentence to be examined is a purpose means sentence using a clue expression indicating one or more types of expressions among the purpose expression and means expression,
The second purpose means sentence detection process is:
Second learning, which is information used to determine whether a target means sentence is determined by using two or more target means positive example sentences that are target means sentences, and is information created by a machine learning algorithm Using the second learner stored in the second learner storage unit, from the sentence to be inspected, the part-of-speech information before punctuation, the part-of-speech information before the punctuation, the punctuation information, the sentence attribute information, and the first determination result Whether one or more pieces of information are obtained, a vector having the one or more pieces of information as an element is configured, the vector is applied to the second learning device, and the object means sentence is determined by a machine learning algorithm. Is a process of determining whether or not
The second learner is
It is a vector acquired using two or more objective means positive example sentences, and the part-of-speech part-of-speech information about the part-of-speech of the word before the punctuation point, the part-of-speech part-of-speech information about the part-of-speech of the word before the punctuation point, and the punctuation point included in the sentence Two or more vectors whose elements are one or more of the following information: punctuation information, sentence attribute information related to sentence attributes, and first determination result information about whether or not it is a future expression sentence acquired by the first machine learning means It is a learning device that has been acquired by learning using a machine learning algorithm.
The acquisition unit
A program for causing the computer to function as acquiring future-oriented text information that is information related to a future-oriented text selected by the selection means .
JP2019001952A 2019-01-09 2019-01-09 Information processing apparatus, information processing method, and program Active JP6615392B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019001952A JP6615392B1 (en) 2019-01-09 2019-01-09 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019001952A JP6615392B1 (en) 2019-01-09 2019-01-09 Information processing apparatus, information processing method, and program

Publications (2)

Publication Number Publication Date
JP6615392B1 true JP6615392B1 (en) 2019-12-04
JP2020112931A JP2020112931A (en) 2020-07-27

Family

ID=68763510

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019001952A Active JP6615392B1 (en) 2019-01-09 2019-01-09 Information processing apparatus, information processing method, and program

Country Status (1)

Country Link
JP (1) JP6615392B1 (en)

Also Published As

Publication number Publication date
JP2020112931A (en) 2020-07-27

Similar Documents

Publication Publication Date Title
Da The computational case against computational literary studies
Jänicke et al. Visual text analysis in digital humanities
US20210042662A1 (en) Interactive Information Capture and Retrieval with User-Defined and/or Machine Intelligence Augmented Prompts and Prompt Processing
Nave et al. A decision support system framework to track consumer sentiments in social media
US20210065569A1 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
US20240062110A1 (en) Automated comprehension and interest-based optimization of content
US20180366013A1 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
Lambert Text mining tutorial
CA3113784C (en) Automated production of data-driven reports with descriptive and rich text and graphical contents
Friese ATLAS. ti 7 Quick tour
CN102902697A (en) Method and system for generating structured document guide view
KR100905744B1 (en) Method and system for providing conversation dictionary service based on user created dialog data
US11887011B2 (en) Schema augmentation system for exploratory research
Morris et al. A new computer-aided technique for qualitative document analysis
Hall et al. Phonological CorpusTools: Software for doing phonological analysis on transcribed corpora
JP7065718B2 (en) Judgment support device and judgment support method
KR20230057114A (en) Method and apparatus for deriving keywords based on technical document database
Trakultaweekoon et al. Sensetag: A tagging tool for constructing thai sentiment lexicon
JP6615392B1 (en) Information processing apparatus, information processing method, and program
Uçar et al. A novel algorithm for extracting the user reviews from web pages
Roued-Cunliffe Towards a decision support system for reading ancient documents
JP6178480B1 (en) DATA ANALYSIS SYSTEM, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM
JP6026036B1 (en) DATA ANALYSIS SYSTEM, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM
US11514060B2 (en) Support system, storage medium, and method for presenting relationships of items
Makrynioti et al. Sentiment extraction from tweets: multilingual challenges

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190304

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190304

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191105

R150 Certificate of patent or registration of utility model

Ref document number: 6615392

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250