JP7032582B1 - Information analysis program, information analysis method and information analysis device - Google Patents

Information analysis program, information analysis method and information analysis device Download PDF

Info

Publication number
JP7032582B1
JP7032582B1 JP2021013489A JP2021013489A JP7032582B1 JP 7032582 B1 JP7032582 B1 JP 7032582B1 JP 2021013489 A JP2021013489 A JP 2021013489A JP 2021013489 A JP2021013489 A JP 2021013489A JP 7032582 B1 JP7032582 B1 JP 7032582B1
Authority
JP
Japan
Prior art keywords
dependency
word
occurrence
text information
extraction step
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021013489A
Other languages
Japanese (ja)
Other versions
JP2022117019A (en
Inventor
智大 磯
春樹 横山
昌也 近藤
耕也 大橋
Original Assignee
Kpmgコンサルティング株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kpmgコンサルティング株式会社 filed Critical Kpmgコンサルティング株式会社
Priority to JP2021013489A priority Critical patent/JP7032582B1/en
Application granted granted Critical
Publication of JP7032582B1 publication Critical patent/JP7032582B1/en
Publication of JP2022117019A publication Critical patent/JP2022117019A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

Figure 0007032582000001

【課題】
固有表現を抽出した上で、文章の因果関係を解析することで、専門用語などにも対応したキーワードの対応関係を解析する。
【解決手段】
情報解析プログラムは、テキスト情報を取得するテキスト情報取得ステップと、テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、テキスト情報から、係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、共起度に基づいて係り受けの組合せを抽出する共起抽出ステップを実行させるプログラムである。
【選択図】図2

Figure 0007032582000001

【Task】
By extracting the named entity and then analyzing the causal relationship of the sentence, the correspondence relationship of the keywords corresponding to the technical terms is analyzed.
SOLUTION:
The information analysis program analyzes the dependency from the text information, the text information acquisition step for acquiring the text information, the named entity extraction step for extracting the named entity from the text information and adding a tag, and the dependency source or the dependency. In the dependency extraction step that extracts the dependency whose one or both of the recipients are named entities, and the dependency extracted in the dependency extraction step from the text information, the degree of co-occurrence is calculated for the combination of the dependencies. It is a program that executes a co-occurrence extraction step that extracts a combination of dependencies based on the co-occurrence degree calculation step and the co-occurrence degree.
[Selection diagram] Fig. 2

Description

本開示は、テキストデータから固有表現の関連性を解析する情報解析プログラム、情報解析方法及び情報解析装置に関する。 The present disclosure relates to an information analysis program, an information analysis method, and an information analysis device that analyze the relevance of a unique expression from text data.

近年の自然後処理技術及び機械学習技術の進歩に伴い、テキストデータをコンピュータが自動的に解析する方法が提案されている。例えば、テキストデータの因果関係を解析することができれば、大量の文献データの中から、当該文献の主要な主張点などを解析することで、効率的に知識を体系化することが可能となる。 With the progress of natural post-processing technology and machine learning technology in recent years, a method for automatically analyzing text data by a computer has been proposed. For example, if the causal relationship of text data can be analyzed, knowledge can be efficiently systematized by analyzing the main points of assertion of the document from a large amount of document data.

例えば、特許文献1では、自然言語処理を用いて、因果関係を幅広く解析するための方法を提案している。 For example, Patent Document 1 proposes a method for analyzing a wide range of causal relationships by using natural language processing.

特開平8-221415号Japanese Patent Application Laid-Open No. 8-221415

しかし、特許文献1に開示された方法は、単に因果関係について解析するのみであって、目的と手段、あるいは、方法と効果など、その他の対応関係にまで適用することには触れられていない。 However, the method disclosed in Patent Document 1 merely analyzes the causal relationship, and does not mention that it is applied to other correspondence relationships such as purpose and means, or method and effect.

例えば、専門技術に関する文献を解析する場面などにおいては、原因・結果という因果関係の解析のみではなく、ある事象と、その事象を裏付けるための実験、試験、検査、根拠などの分析方法といった関係が解析できると、当該文献を体系化するに際して、より本質的な要素を抽出することが可能となる。 For example, in the scene of analyzing literature related to specialized technology, not only the analysis of the causal relationship between cause and effect, but also the relationship between a certain event and the analysis method such as experiments, tests, inspections, and grounds to support the event. If it can be analyzed, it will be possible to extract more essential elements when systematizing the document.

そこで、本開示では、因果関係の解析に際して、固有表現を抽出した上で、係り受けを抽出することで、キーワードを含んだ係り受けを抽出する。さらに、本開示では、係り受けの共起関係を抽出することにより、より精度の高い因果関係を解析し、また、因果関係の解析に留まらず、ある事象とその分析方法の関係など、様々な単語間の関係を解析することを目的とする。 Therefore, in the present disclosure, in the analysis of the causal relationship, the dependency including the keyword is extracted by extracting the named entity and then the dependency. Furthermore, in this disclosure, by extracting the co-occurrence relationship of the dependency, a more accurate causal relationship can be analyzed, and not only the analysis of the causal relationship but also the relationship between a certain event and its analysis method can be various. The purpose is to analyze the relationships between words.

プロセッサとメモリとを備えるコンピュータに実行させるためのプログラムである。プログラムは、プロセッサに、テキスト情報を取得するテキスト情報取得ステップと、テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、テキスト情報から、係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、共起度に基づいて係り受けの組合せを抽出する共起抽出ステップとを実行させるプログラムである。 It is a program to be executed by a computer equipped with a processor and a memory. The program analyzes the dependency from the text information, the text information acquisition step for acquiring the text information, the named entity extraction step for extracting the named entity from the text information and adding a tag, and the dependency source or the processor. The degree of co-occurrence is calculated for the combination of dependencies in the dependency extraction step that extracts the dependency whose one or both of the dependencies are named entities, and the dependency extracted in the dependency extraction step from the text information. It is a program that executes a co-occurrence degree calculation step and a co-occurrence extraction step that extracts a combination of dependencies based on the co-occurrence degree.

本開示によれば、自然言語処理を用いて、固有名詞、専門用語などを含むテキストデータに対しても、精度よく因果関係を解析することが可能となる。加えて、因果関係の解析に留まらず、ある事象とその分析方法の関係など、ユーザが所望する様々な単語間の関係を解析することが可能となる。 According to the present disclosure, it is possible to accurately analyze causal relationships even for text data including proper nouns, technical terms, etc. by using natural language processing. In addition, it is possible to analyze not only the causal relationship but also the relationship between various words desired by the user, such as the relationship between a certain event and the analysis method.

本開示の実施形態1のサーバの全体構成を示す図である。It is a figure which shows the whole structure of the server of Embodiment 1 of this disclosure. 本開示の実施形態1に係るサーバ構成の一例を示す図である。It is a figure which shows an example of the server configuration which concerns on Embodiment 1 of this disclosure. 固有表現抽出の具体例を示す図である。It is a figure which shows the specific example of the named entity extraction. 係り受けを解析する具体例を示す図である。It is a figure which shows the specific example which analyzes the dependency. 固有表現の情報を用いた係り受け解析の具体例を示す図である。It is a figure which shows the specific example of the dependency analysis using the information of a named entity. 科学技術用語を含む文の具体例を示す図である。It is a figure which shows the specific example of a sentence including a scientific term. 固有表現抽出の具体例を示す図である。It is a figure which shows the specific example of the named entity extraction. 係り受けを解析する具体例を示す図である。It is a figure which shows the specific example which analyzes the dependency. 係り受けとして最終的に抽出された具体例を示す図である。It is a figure which shows the specific example finally extracted as a dependency. 情報解析装置における実施形態1の処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the processing flow of Embodiment 1 in an information analysis apparatus. 本開示の実施形態2に係る情報解析装置の構成の一例を示す図であるャートである。It is a figure which shows an example of the structure of the information analysis apparatus which concerns on Embodiment 2 of this disclosure. 表示部において係り受けを表示した具体例を示す図である。It is a figure which shows the specific example which displayed the dependency in the display part. 表示部において階層構造に着目して係り受けを表示した具体例を示す図である。It is a figure which shows the specific example which displayed the dependency by paying attention to the hierarchical structure in the display part. 情報解析装置における実施形態2の処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the processing flow of Embodiment 2 in an information analysis apparatus. ネットワークを介した情報解析装置の具体例を示す図である。It is a figure which shows the specific example of the information analysis apparatus via a network.

以下、本開示の実施形態に係る情報解析装置、情報解析方法及び情報解析プログラムを、図面を参照しながら説明する。なお、以下に説明する実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。また、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。 Hereinafter, the information analysis device, the information analysis method, and the information analysis program according to the embodiment of the present disclosure will be described with reference to the drawings. The embodiments described below do not unreasonably limit the contents of the present disclosure described in the claims. Moreover, not all of the configurations described in the embodiments are essential constituent requirements of the present disclosure. Further, in all the drawings illustrating the embodiments, the common components are designated by the same reference numerals, and the repeated description will be omitted.

<実施形態1>
実施形態1では、テキスト情報を取得して分析し、固有表現を抽出した上で、固有表現の係り受けと共起関係を分析し、任意の固有表現ごとに、共起度を算出する。
<Embodiment 1>
In the first embodiment, text information is acquired and analyzed, a named entity is extracted, then the dependency of the named entity and the co-occurrence relationship are analyzed, and the degree of co-occurrence is calculated for each arbitrary named entity.

<全体構成>
図1は、本実施形態のサーバ10の全体構成を示す図である。サーバ10は、汎用のコンピュータである。サーバ10は、例えば、据え置き型のPC(Personal Computer)、ラップトップPC等により実現される。また、サーバ10は、スマートフォン、又はタブレット端末などの携行性を備えたコンピュータであってもよい。
<Overall configuration>
FIG. 1 is a diagram showing an overall configuration of the server 10 of the present embodiment. The server 10 is a general-purpose computer. The server 10 is realized by, for example, a stationary PC (Personal Computer), a laptop PC, or the like. Further, the server 10 may be a portable computer such as a smartphone or a tablet terminal.

図1に示すように、サーバ10は、プロセッサ11、メモリ12、ストレージ13、通信IF14、入出力IF15とを備える。 As shown in FIG. 1, the server 10 includes a processor 11, a memory 12, a storage 13, a communication IF 14, and an input / output IF 15.

プロセッサ11は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。メモリ12は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリにより実現される。ストレージ13は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)により実現される。通信IF14は、サーバ10が外部の装置と通信するため、信号を送受信するためのインタフェースである。入出力IF15は、ユーザからの入力を受け付けるための入力装置、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。 The processor 11 is hardware for executing an instruction set described in a program, and is composed of an arithmetic unit, registers, peripheral circuits, and the like. The memory 12 is for temporarily storing a program, data processed by the program or the like, and is realized by a volatile memory such as a DRAM (Dynamic Random Access Memory) or the like. The storage 13 is a storage device for storing data, and is realized by, for example, a flash memory or an HDD (Hard Disk Drive). The communication IF 14 is an interface for transmitting and receiving signals because the server 10 communicates with an external device. The input / output IF 15 functions as an interface with an input device for receiving input from the user and an output device for presenting information to the user.

<サーバの構成>
以下、サーバ10の構成を詳細に説明する。図2に示すように、本実施形態に係るサーバ10は、通信部101、記憶部102、制御部103とを備える。通信部101は、サーバ10が他の装置と通信するための処理を行う。通信部101は、制御部103で生成された信号に送信処理を施し、外部へ送信する。通信部101は、外部から受信した信号に受信処理を施し、制御部103へ出力する。
<Server configuration>
Hereinafter, the configuration of the server 10 will be described in detail. As shown in FIG. 2, the server 10 according to the present embodiment includes a communication unit 101, a storage unit 102, and a control unit 103. The communication unit 101 performs a process for the server 10 to communicate with another device. The communication unit 101 performs transmission processing on the signal generated by the control unit 103, and transmits the signal to the outside. The communication unit 101 performs reception processing on the signal received from the outside and outputs the signal to the control unit 103.

記憶部102は、例えばフラッシュメモリ等により構成され、サーバ10が使用するデータ、及びプログラムを記憶する。 The storage unit 102 is configured by, for example, a flash memory or the like, and stores data and programs used by the server 10.

制御部103は、プロセッサ11が記憶部102に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部103は、サーバ10の動作を制御する。具体的には、例えば、制御部103は、テキスト情報取得部1031と、固有表現抽出部1032と、係り受け抽出部1033と、共起度算出部1034と、共起抽出部1035としての機能を発揮する。 The control unit 103 is realized by the processor 11 reading a program stored in the storage unit 102 and executing an instruction included in the program. The control unit 103 controls the operation of the server 10. Specifically, for example, the control unit 103 functions as a text information acquisition unit 1031, a named entity extraction unit 1032, a dependency extraction unit 1033, a co-occurrence degree calculation unit 1034, and a co-occurrence extraction unit 1035. Demonstrate.

以下、サーバ10の制御部103における機能的な構成について説明する。 Hereinafter, the functional configuration of the control unit 103 of the server 10 will be described.

テキスト情報取得部1031は、解析対象とするテキストデータを取得する。解析対象とするテキストデータは、複数の文からなるテキストデータが想定される。また、テキスト情報取得部1031は、必ずしもテキストデータそのものを取得すること限られず、文書の画像データを取得した上で、OCR(Optical Character Recognition)などにより、テキスト化してもよい。 The text information acquisition unit 1031 acquires the text data to be analyzed. The text data to be analyzed is assumed to be text data consisting of a plurality of sentences. Further, the text information acquisition unit 1031 is not necessarily limited to acquiring the text data itself, and may acquire the image data of the document and then convert it into text by OCR (Optical Character Recognition) or the like.

テキスト情報取得部1031は、入出力インタフェース15を介して、USB(Universal Serial Bus)メモリ、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、HDD等のコンピュータ読み取り可能な記録媒体からテキストデータを取得してもよい。 The text information acquisition unit 1031 records computer-readable data such as a USB (Universal Serial Bus) memory, a CD-ROM (Compact Disc-Read Only Memory), a DVD (Digital Versatile Disc), and an HDD via the input / output interface 15. Text data may be acquired from the medium.

テキスト情報取得部1031は、有線通信又は無線通信を行うためのNIC(Network Interface Card controller)を備える通信IF15を介して、ネットワーク上からテキストデータを取得してもよい。 The text information acquisition unit 1031 may acquire text data from the network via a communication IF 15 provided with a NIC (Network Interface Card controller) for performing wired communication or wireless communication.

固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する。 The named entity extraction unit 1032 extracts the named entity and attaches a tag to the text data acquired by the text information acquisition unit 1031.

固有表現とは、データから情報抽出を行う際にキー要素となる表現である。固有表現は、人名、地名、組織名、商品名などの固有名詞、数量、金額、パーセンテージなどの数値表現、日付、時間などの時間表現などを含む。また、固有表現は、特定の物質、構造、機能、処理方法、分析方法、専門用語などを含めてもよい。なお、固有表現は、あらゆる表現の中から、予めその範囲を定義してよい。 Named entity is an expression that is a key element when extracting information from data. Named entities include named entities such as personal names, place names, organization names, product names, numerical expressions such as quantities, amounts, and percentages, and time expressions such as dates and times. Named entities may also include specific substances, structures, functions, treatment methods, analytical methods, terminology, and the like. The range of the named entity may be defined in advance from all the expressions.

タグは、固有表現を分類するための識別情報を示すものである。タグは、例えば、「人名」、「地名」などの固有名詞を表すタグ、「数量」、「日付」、「時間」など数値表現を表すタグなどを用意し、固有表現に対して付与してもよい。 The tag indicates the identification information for classifying the named entity. For tags, for example, tags representing proper nouns such as "personal name" and "place name", tags representing numerical expressions such as "quantity", "date", and "time" are prepared and assigned to the proper expression. May be good.

また、タグは、専門的な文献、自然科学分野の文献の解析を行うことを目的として、「事象」を示す事象タグ、事象に対する「分析方法」を示す分析タグなどのタグを用意してもよい。タグは、予め複数のものを用意しておく。 In addition, for the purpose of analyzing specialized literature and literature in the field of natural science, tags such as an event tag indicating an "event" and an analysis tag indicating an "analysis method" for an event may be prepared. good. Prepare multiple tags in advance.

さらに、タグは、階層構造を持たせて定義してもよい。 Further, the tag may be defined with a hierarchical structure.

例えば、論文などの専門的な文献、特に自然科学分野の文献では、仮説、状態、結果などある「事象」に対して、その裏付けとなる実験、試験、検査、根拠などの「分析方法」が示されることが想定される。そして、「事象」では、「AがBである」というように、「対象が状態である」といった形で示されることが想定される。また、「分析方法」では、事象を裏付けるために、「AがBである」というように、「試験等により結果となった」といった形で示されることが想定される。 For example, in specialized literature such as papers, especially in the field of natural science, there are "analytical methods" such as experiments, tests, tests, and grounds that support certain "events" such as hypotheses, states, and results. Expected to be shown. Then, in the "event", it is assumed that it is shown in the form of "the object is a state" such as "A is B". Further, in the "analytical method", in order to support the event, it is assumed that it is indicated in the form of "A is B" or "the result is obtained by a test or the like".

上記を踏まえ、例えば、タグは、「事象:対象」、「事象:状態」、「分析:試験方法」、「分析:試験結果」などのように、階層構造を持たせて定義してもよい。なお、この場合、「事象」及び「分析」が上位概念であり、「対象」及び「試験方法」が下位概念として階層構造をもつタグとして定義される。 Based on the above, for example, the tag may be defined with a hierarchical structure such as "event: target", "event: state", "analysis: test method", "analysis: test result", and the like. .. In this case, "event" and "analysis" are superordinate concepts, and "object" and "test method" are defined as tags having a hierarchical structure as subordinate concepts.

固有表現抽出部1032は、固有表現抽出の方法として、固有表現を表す辞書を予め用意しておき、当該辞書を用いて、入力された文から固有表現を抽出し、タグ付けを行ってもよい。 As a method of extracting the named entity, the named entity extraction unit 1032 may prepare a dictionary representing the named entity in advance, extract the named entity from the input sentence using the dictionary, and perform tagging. ..

固有表現抽出部1032は、固有表現抽出の方法として、一般的に知られているNER(Named Entity Recognition)などの方法を用いてよい。また、固有表現抽出部1032は、学習用データを用いて、機械学習による固有表現抽出用のモデルを作成した上で、固有表現の抽出を行ってもよい。 The named entity extraction unit 1032 may use a generally known method such as NER (Named Entry Recognition) as the named entity extraction method. Further, the named entity extraction unit 1032 may extract the named entity after creating a model for extracting the named entity by machine learning using the learning data.

一般的なNERでは、抽出対象とする固有表現は、固有名詞及び数値表現などである。したがって、固有表現として、これ以外の表現、例えば、事象及び分析方法などを抽出したい場合には、抽出対象としたい表現を対象とした学習用のデータを用意した上で、固有表現抽出用のモデルを作成する。 In general NER, the named entity to be extracted is a named entity, a numerical expression, or the like. Therefore, when it is desired to extract other expressions such as events and analysis methods as named entities, a model for named named entity extraction is prepared after preparing learning data for the expressions to be extracted. To create.

例えば、固有表現抽出部1032は、予め用意したテキストデータに対し、予め定義したタグを付した学習用データを用意し、これらを用いて、固有表現抽出のための機械学習用のモデルを用意しておく。そして、テキスト情報取得部1031が取得した分析対象とするテキストデータを形態素解析した上で、作成したモデルを用いてNERの方法を用いる。これにより、固有表現抽出部1032は、固有表現を抽出した上で、抽出された固有表現に対して予め定義したタグのいずれかを付与する。 For example, the named entity extraction unit 1032 prepares learning data with a predetermined tag attached to the text data prepared in advance, and uses these to prepare a model for machine learning for extracting the named entity. Keep it. Then, after morphological analysis of the text data to be analyzed acquired by the text information acquisition unit 1031, the NER method is used using the created model. As a result, the named entity extraction unit 1032 extracts the named entity and then attaches one of the predetermined tags to the extracted named entity.

固有表現抽出部1032において、固有表現を抽出し、タグ付けしておくことで、テキスト情報取得部1031で取得したテキストデータの中から、特に意味をもつ可能性の高い単語をタグ付けし、予め抽出することが可能となる。 By extracting and tagging the named entity in the named entity extraction unit 1032, words having a particularly high possibility of being particularly meaningful are tagged from the text data acquired by the text information acquisition unit 1031 in advance. It becomes possible to extract.

係り受け抽出部1033は、係り受けを抽出する。これには、一般的に用いられている係り受け解析器を用いてよい。 The dependency extraction unit 1033 extracts the dependency. A commonly used dependency analyzer may be used for this.

係り受けとは、構文解析を行った際に主語と述語、修飾語と被修飾語の関係等をもつ二つの単語のペアの関係をいう。そして、主語と述語であれば、主語が係り受け元、述語が係り受け先となり、修飾語と被修飾語であれば、修飾語が係り受け元、被修飾語が係り受け先となる。このように、係り受けは、係り受け元と係り受け先のペアからなる。 Dependency refers to the relationship between two word pairs that have a relationship between a subject and a predicate, and a modifier and a modifier when parsing is performed. In the case of a subject and a predicate, the subject is the dependency source and the predicate is the dependency destination, and in the case of the modifier and the modifier, the modifier is the dependency source and the modified word is the dependency destination. In this way, the dependency consists of a pair of the dependency source and the dependency destination.

一般的な係り受け解析器では、主語と述語の関係、修飾語と被修飾語の関係を係り受けとして抽出する。係り受け抽出部1033は、これらの双方又はどちらか一方を係り受けとして抽出してよい。 In a general dependency analyzer, the relationship between a subject and a predicate and the relationship between a modifier and a modifier are extracted as a dependency. The dependency extraction unit 1033 may extract both or either of these as a dependency.

また、一般的に用いられている係り受け解析の方法として、「~なので」「~によって」などの手がかり表現を解析し、その前後のキーワードに着目して係り受け抽出を行う方法もある。係り受け抽出部1033は、手がかり表現を用いて、及び/又は主語・述語の関係、修飾語・被修飾語の関係を用いて抽出を行ってもよい。 Further, as a commonly used method of dependency analysis, there is also a method of analyzing clue expressions such as "because" and "by", and performing dependency extraction by focusing on the keywords before and after that. The dependency extraction unit 1033 may perform extraction using a clue expression and / or using a subject / predicate relationship and a modifier / modifier relationship.

また、一般的な係り受け抽出を行う場合において、W1、W2、W1W2(例えば、W1は「精密」、W2は「機械」、W1W2は「精密機械」など)が固有表現であるとき、W1-W2が係り受けとして抽出されることがある。このとき、名詞句が係り受けとして抽出された場合には、名詞句のさらに先を探索して係り受け先を解析し、W1-W3などの係り受けを抽出してもよい。なお、ここでいう名詞句とは、複数の語からなり、全体として一つの名詞と同じはらたきをするものをいう。 Further, in the case of performing general dependency extraction, when W1, W2, W1W2 (for example, W1 is "precision", W2 is "machine", W1W2 is "precision machine", etc.) are named entity, W1- W2 may be extracted as a dependency. At this time, when the noun phrase is extracted as a dependency, the dependency may be analyzed by searching further ahead of the noun phrase and extracting the dependency such as W1-W3. The noun phrase here is composed of a plurality of words and has the same fluttering as one noun as a whole.

係り受け抽出部1033は、テキスト情報取得部1031が取得したテキストデータに対して、係り受けを解析した上で、固有表現抽出部1032によりタグが付された固有表現を含む係り受けを抽出する。このとき、係り受け元と係り受け先の両方が固有表現である係り受けのみを抽出すると、より望ましい。 The dependency extraction unit 1033 analyzes the dependency on the text data acquired by the text information acquisition unit 1031, and then extracts the dependency including the named entity tagged by the named entity extraction unit 1032. At this time, it is more desirable to extract only the dependencies whose dependency source and dependency destination are both named entities.

係り受け抽出部1033において、係り受けを抽出することにより、原因と結果、目的と手段、事象と分析方法などのように、何らかの意味をもつ単語間の関係を抽出することが可能となる。 By extracting the dependency in the dependency extraction unit 1033, it is possible to extract the relationship between words having some meaning such as cause and effect, purpose and means, event and analysis method, and the like.

また、固有表現を含む係り受け、特に係り受け元と係り受け先の両方が固有表現である係り受けのみを抽出することにより、そのテキストにおいて特に重要な表現を抽出できる。 In addition, by extracting only the dependencies that include named entities, in particular the dependencies whose both the dependency source and the recipient are named entities, it is possible to extract particularly important expressions in the text.

係り受け抽出部1033は、抽出された固有表現を含む係り受けに対して、例えば、W1、W2、W3、W4がいずれも固有表現であるときに、第1の語W1を係り受け元とする第1の係り受けW1-W3と、第2の語W2を係り受け元とする第2の係り受けW2-W4との係り受けがあり、かつ、W1W2となる複合語も固有表現であるときに、W1W2-W3、W1W2-W4のように、W1W2となる複合語を係り受け元とし、第1の係り受けの係り受け先の語W3と第2の係り受けの係り受け先の語W4にも係り受けがあるものとして係り受けを追加して拡張してもよい。なお、複合語とは、本来独立した単語が二つ以上結合して新たに一つの単語としての意味、機能をもつようになった語をいう。 The dependency extraction unit 1033 uses the first word W1 as the dependency source when, for example, W1, W2, W3, and W4 are all unique expressions for the dependency including the extracted named entity. When there is a dependency between the first dependency W1-W3 and the second dependency W2-W4 whose dependency source is the second word W2, and the compound word W1W2 is also a named entity. , W1W2-W3, W1W2-W4, etc., with compound words that are W1W2 as the dependency source, and also for the first dependency dependency word W3 and the second dependency dependency word W4. Dependents may be added and expanded as if there were dependencies. A compound word is a word in which two or more originally independent words are combined to have a new meaning and function as one word.

なお、係り受け抽出部1033における係り受けの拡張は、二語の複合語に限られず、三語以上の複合語において拡張してもよい。 The extension of the dependency in the dependency extraction unit 1033 is not limited to the compound word of two words, and may be extended to the compound word of three or more words.

固有表現における係り受けについては、複合語において、それが分節された固有表現の係り受けを複合語に拡張することにより、そのテキストの中で表現したい内容を適切に把握可能となる。 Regarding the dependency in the named entity, in the compound word, by extending the dependency of the segmented named entity to the compound word, it becomes possible to appropriately grasp the content to be expressed in the text.

また、係り受け抽出部1033は、固有表現を用いて係り受けを拡張することにより、より上位概念の係り受けを生成することも可能となる。 Further, the dependency extraction unit 1033 can also generate a dependency of a higher-level concept by extending the dependency by using a named entity.

共起度算出部1034は、係り受け抽出部1033において抽出した係り受けについて、係り受けごとに、当該係り受けが文中に出現する共起関係を解析し、テキスト情報取得部1031で取得したテキストデータ内において、当該係り受けのいずれかが現れる文の数と、当該係り受けの共起が発生する文の数とを解析し、その割合を共起度として算出する。これには、一般的に用いられている例えば、Jaccard係数などの手法を用いてもよい。 The co-occurrence degree calculation unit 1034 analyzes the co-occurrence relationship in which the dependency appears in the sentence for each dependency of the dependencies extracted by the dependency extraction unit 1033, and the text data acquired by the text information acquisition unit 1031. Within, the number of sentences in which any of the dependencies appears and the number of sentences in which the co-occurrence of the dependency occurs are analyzed, and the ratio is calculated as the degree of co-occurrence. For this, a commonly used method such as the Jaccard index may be used.

共起度算出部1034は、例えば、係り受け抽出部1033において、係り受けW1-W2及びW3-W4が抽出されたときに、テキスト情報取得部1031で取得したテキストデータ内から、W1-W2又はW3-W4の係り受けを含む文の数と、W1-W2及びW3-W4の係り受けを含む文との割合を共起度として算出する。 The co-occurrence degree calculation unit 1034 may, for example, use W1-W2 or W1-W2 or from the text data acquired by the text information acquisition unit 1031 when the dependencies W1-W2 and W3-W4 are extracted by the dependency extraction unit 1033. The ratio of the number of sentences including the dependencies of W3-W4 and the sentences including the dependencies of W1-W2 and W3-W4 is calculated as the co-occurrence degree.

共起度算出部1034により、係り受けに関する共起度の算出をすることで、共起度の高い係り受けの組合せを分析することが可能となる。 By calculating the degree of co-occurrence regarding the dependency by the co-occurrence degree calculation unit 1034, it is possible to analyze the combination of the dependencies having a high degree of co-occurrence.

共起抽出部1035は、係り受けに関する共起度に基づいて係り受けの組合せを抽出する。 The co-occurrence extraction unit 1035 extracts a combination of dependencies based on the degree of co-occurrence regarding the dependency.

共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出してもよい。 The co-occurrence extraction unit 1035 may extract, for example, a combination of dependencies having a co-occurrence degree exceeding a threshold value with respect to the co-occurrence degree for any combination of dependencies calculated by the co-occurrence degree calculation unit 1034. good.

例えば、共起抽出部1035は、閾値をTとして、係り受けKiとKjの共起度をVijとすると、Vij>Tとなる係り受けKiとKjの組合せを抽出してもよい For example, if the co-occurrence extraction unit 1035 has a threshold value of T and the co-occurrence degree of the dependency Ki and Kj is Vij, the co-occurrence extraction unit 1035 may extract a combination of the dependency Ki and Kj such that Vij> T.

共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、選択されたある係り受けを起点として、共起度の高い方から順に指定された数、すなわち上位N個を抽出してもよい。 The co-occurrence extraction unit 1035 starts from the one with the higher co-occurrence degree with respect to the co-occurrence degree for any combination of dependencies calculated by the co-occurrence degree calculation unit 1034, starting from a certain selected dependency. The specified number, that is, the upper N pieces may be extracted in order.

例えば、係り受けKiとKjの共起度をVijとすると、Kiを起点として、Vijが高いものから上位N件となるKjを抽出してもよい。 For example, assuming that the degree of co-occurrence between the dependent Ki and Kj is Vij, Kj that is the top N cases may be extracted from the one with the highest Vij, starting from Ki.

共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、階層関係も含めた特定のタグとの共起度に着目して抽出してもよい。 The co-occurrence extraction unit 1035 pays attention to the co-occurrence degree with a specific tag including the hierarchical relationship with respect to the co-occurrence degree for any combination of dependencies calculated by the co-occurrence degree calculation unit 1034, for example. It may be extracted.

共起抽出部1035により、閾値を超える共起度を有し、又はある係り受けを起点とした上位N個の共起関係を抽出することにより、テキストデータにおいて特に意味のある共起関係の組合せを抽出することが可能となり、大量のテキストデータから特に意味があり重要と推測される関係を抽出することが可能となる。 A combination of co-occurrence relationships that is particularly meaningful in text data by extracting the top N co-occurrence relationships that have a co-occurrence degree exceeding the threshold value or that start from a certain dependency by the co-occurrence extraction unit 1035. It becomes possible to extract relationships that are presumed to be particularly meaningful and important from a large amount of text data.

(固有表現抽出部1032における処理の具体例)
以下、固有表現抽出部1032の固有表現抽出の具体例を示す。例えば、図3に示すように、「2006年6月29日、小泉首相は、ワシントンを訪問し、ブッシュ大統領と首脳会談に臨みました。」との一文があり、固有表現タグとして、「人名」、「地名」、「数量」、「日付」、「時間」があるものとする。
(Specific example of processing in named entity extraction unit 1032)
Hereinafter, a specific example of named entity extraction by the named entity extraction unit 1032 will be shown. For example, as shown in Fig. 3, there is a sentence "On June 29, 2006, Prime Minister Koizumi visited Washington and attended a summit meeting with President Bush." , "Place name", "quantity", "date", "time".

固有表現抽出部1032は、まず、形態素解析を実施し、形態素の列に分解する。その上で、固有表現抽出部1032は、予め定義した「人名」、「地名」、「数量」、「日付」、「時間」のタグを抽出するための学習モデルを用意する。そして、固有表現抽出部1032は、形態素の列に分解された文に対して、タグ付けをしていく。 First, the named entity extraction unit 1032 performs morphological analysis and decomposes it into a sequence of morphemes. Then, the named entity extraction unit 1032 prepares a learning model for extracting tags of "person name", "place name", "quantity", "date", and "time" defined in advance. Then, the named entity extraction unit 1032 tags the sentences decomposed into columns of morphemes.

図3の例では、「2006年6月29日」は日付を表し、「小泉」は人名を、「ワシントン」は地名を、「ブッシュ」は人名を表すため、それぞれタグ付けがされる。 In the example of FIG. 3, "June 29, 2006" represents a date, "Koizumi" represents a person's name, "Washington" represents a place name, and "Bush" represents a person's name, so they are tagged respectively.

図3に示すように、固有表現抽出部1032は、固有表現となる単語を抽出した上で、タグ付けを行う。これによって、固有表現が予め定義されたタグに該当する単語を抽出し、分類することが可能となる。 As shown in FIG. 3, the named entity extraction unit 1032 extracts a word to be a named entity and then tags it. This makes it possible to extract and classify words corresponding to tags whose named entities are defined in advance.

(係り受け抽出部1033の処理の具体例)
係り受け抽出部1033の係り受けの抽出の具体例を示す。図4に示すように、例えば、「システムの停止が発生。」「電源異常の可能性を推察。」との二文があるとする。係り受け抽出部1033は、係り受けを抽出する。このとき、一般的な係り受け解析器を用いて係り受けを解析すると、「システム-停止」、「停止-発生」、「電源-異常」、「電源-可能性」、「異常-可能性」、「異常-推察」、「可能性-推察」の係り受けを抽出することができる。
(Specific example of processing of dependency extraction unit 1033)
A specific example of the dependency extraction of the dependency extraction unit 1033 is shown. As shown in FIG. 4, for example, it is assumed that there are two sentences such as "a system stop occurs" and "a possibility of a power failure is inferred." The dependency extraction unit 1033 extracts the dependency. At this time, when the dependency is analyzed using a general dependency analyzer, "system-stop", "stop-occurrence", "power supply-abnormality", "power supply-possibility", "abnormality-possibility" , "Abnormality-guess" and "possibility-guess" can be extracted.

係り受け抽出部1033は、名詞句があるときは、その先の係り受け先を抽出するため、「電源-異常」の係り受けはスキップされて、「異常-可能性」のみを抽出する。 When the dependency extraction unit 1033 has a noun phrase, the dependency extraction unit 1033 extracts the dependency destination after that, so that the dependency of "power supply-abnormality" is skipped and only the "abnormality-possibility" is extracted.

係り受け抽出部1033は、固有表現抽出部1032によって、固有表現として、タグを付した係り受けのみを抽出する。 The dependency extraction unit 1033 extracts only the dependencies with tags as named entity by the named entity extraction unit 1032.

例えば、固有表現として「性能」「状態」の二種類のタグが存在するとき、図4の文は、図5に示すように、「システム」=性能、「停止」=状態、「発生」=状態、「電源」=性能、「異常」=状態、「可能性」=状態、「推察」=状態といったタグがつけられる。また、「電源異常」という複合語に対しても「電源異常」=状態といったタグがつけられる For example, when there are two types of tags, "performance" and "state", as named entities, the sentence in FIG. 4 is "system" = performance, "stop" = state, "occurrence" = as shown in FIG. Tags such as state, "power" = performance, "abnormal" = state, "possibility" = state, "guess" = state are attached. In addition, the compound word "power supply error" can also be tagged as "power supply error" = status.

係り受け抽出部1033において、係り受けの双方の単語にタグが付された係り受けのみを抽出すると、いずれも係り受け元、係り受け先ともに固有表現としてのタグが付されているため、「システム-停止」、「停止-発生」、「電源-可能性」、「異常-可能性」、「異常-推察」、「可能性-推察」を抽出する。 When the dependency extraction unit 1033 extracts only the dependencies with tags attached to both words of the dependency, both the dependency source and the dependency recipient are tagged as named entities, so that "system" Extract "stop", "stop-occurrence", "power supply-possibility", "abnormality-possibility", "abnormality-guess", and "possibility-guess".

さらに、係り受け抽出部1033は、W1-W3、W2-W4の関係があり、W1W2が固有表現であるとき、W1W2-W3、W1W2-W4の係り受けに拡張する。ここでは、W1=「電源」、W2=「異常」の関係があるから、「電源異常-可能性」、「電源異常-推察」が係り受けとして抽出する。 Further, the dependency extraction unit 1033 has a relationship of W1-W3 and W2-W4, and when W1W2 is a named entity, it extends to the dependency of W1W2-W3 and W1W2-W4. Here, since there is a relationship of W1 = "power supply" and W2 = "abnormality", "power supply abnormality-possibility" and "power supply abnormality-guess" are extracted as dependencies.

(共起度算出部1034における具体的処理)
共起度算出部1034は、係り受け抽出部1033で抽出された係り受けに対して、共起度を算出する。例えば、係り受け抽出部1033で、W1-W2の係り受けと、W3-W4の係り受けが抽出されたとする。このとき、W1-W2又はW3-W4のいずれか又は両方の係り受けを含む文の数が全部で100文であり、W1-W2及びW3-W4の両方の係り受けを含む文の数が全部で10文あったとき、共起度は、(W1-W2又は/及びW3-W4の係り受けを含む文の数)/(W1―W2及びW3-W4の係り受けを含む文の数)=0.1として算出される。
(Specific processing in the co-occurrence degree calculation unit 1034)
The co-occurrence degree calculation unit 1034 calculates the co-occurrence degree for the dependency extracted by the dependency extraction unit 1033. For example, it is assumed that the dependency extraction unit 1033 extracts the dependency of W1-W2 and the dependency of W3-W4. At this time, the total number of sentences including the dependency of either or both of W1-W2 and W3-W4 is 100, and the total number of sentences including the dependency of both W1-W2 and W3-W4 is all. When there are 10 sentences in, the co-occurrence degree is (the number of sentences including the dependency of W1-W2 or / and W3-W4) / (the number of sentences including the dependency of W1-W2 and W3-W4) = Calculated as 0.1.

(共起抽出部1035における具体的処理)
共起抽出部1035は、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出する。
(Specific processing in the co-occurrence extraction unit 1035)
The co-occurrence extraction unit 1035 extracts a combination of dependencies having a co-occurrence degree exceeding a threshold value with respect to the co-occurrence degree for any combination of dependencies calculated by the co-occurrence degree calculation unit 1034.

例えば、係り受けK1,K2,K3があったとき、共起度算出部1034により、K1・K2の共起度は0.5、K1・K3は0.1、K2・K3は0.2と算出され、閾値を0.3として定めると、共起抽出部1035は、閾値を超える共起度を有するK1-K2の共起関係を抽出する。 For example, when there are dependencies K1, K2, and K3, the co-occurrence degree of K1 and K2 is 0.5, K1 and K3 are 0.1, and K2 and K3 are 0.2 by the co-occurrence degree calculation unit 1034. When calculated and the co-occurrence extraction unit 1035 is set to 0.3, the co-occurrence extraction unit 1035 extracts the co-occurrence relationship of K1-K2 having a co-occurrence degree exceeding the threshold.

(変形例1:)
以下、係り受けの共起のみでなく、係り受けと単語の共起、又は単語の共起についても抽出を行う変形例を示す。
(Modification example 1:)
Hereinafter, a modified example of extracting not only the co-occurrence of the dependency but also the co-occurrence of the dependency and the word or the co-occurrence of the word will be shown.

共起度算出部1034は、係り受け抽出部1033で抽出した係り受けが共起する割合を共起度として算出することに加え、係り受け抽出部1033で抽出した係り受けと、固有表現抽出部1032で固有表現として抽出した単語との共起度、及び/又は、固有表現抽出部1032で固有表現として抽出した単語同士の共起度を算出する。 The co-occurrence degree calculation unit 1034 calculates the co-occurrence ratio of the dependencies extracted by the dependency extraction unit 1033 as the co-occurrence degree, and also the dependency extracted by the dependency extraction unit 1033 and the unique expression extraction unit. The degree of co-occurrence with the word extracted as the eigenexpression in 1032 and / or the degree of co-occurrence between the words extracted as the eigenexpression by the eigenexpression extraction unit 1032 are calculated.

共起抽出部1035は、共起度算出部1034において算出された任意の係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せにおける共起度に対して、閾値を超える共起度を有する係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せを抽出する。このとき、閾値は、係り受けの組合せ、係り受けと単語の組合せ、単語同士の組合せにおいてそれぞれ別の値を設定してもよい。 The co-occurrence extraction unit 1035 exceeds the threshold value for the co-occurrence degree in any combination of dependencies, the combination of the dependency and the word, and / or the combination of words calculated by the co-occurrence degree calculation unit 1034. Extract the combinations of dependencies with co-occurrence, the combinations of dependencies and words, and / or the combinations of words. At this time, the threshold value may be set to a different value in the combination of the dependency, the combination of the dependency and the word, and the combination of the words.

共起抽出部1035は、係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せを抽出するに際して、固有表現抽出部1032で付与したタグについて、特定のタグを付与したものに限定して共起関係を抽出してもよい。 The co-occurrence extraction unit 1035 assigns a specific tag to the tag assigned by the unique expression extraction unit 1032 when extracting the combination of the dependency, the combination of the dependency and the word, and / or the combination of the words. Co-occurrence relationships may be extracted in a limited manner.

上記のように共起関係を抽出することで、係り受けの共起関係に加えて、係り受けと単語、及び/又は単語の共起も抽出し、分析に役立てることが可能となる。 By extracting the co-occurrence relationship as described above, in addition to the co-occurrence relationship of the dependency, the co-occurrence of the dependency and the word and / or the word can be extracted and used for analysis.

(変形例2:専門的な文献の解析例)
以下、特に専門的な文献の解析を行う際の変形例を示す。専門的な文献、特に科学技術の分野においては、論文などの文献において、その仮説、結論、主張、状態、性能、性質などの事象と、それを裏付けるための分析方法(実験方法、検査方法)が示されることが多い。したがって、事象と分析方法を抽出することにより、そのテキスト内で重要な点を抽出することができる。そこで、特に固有表現を示すタグとして、「事象」、「分析」の2種類のタグを用意する。なお、「事象」の下位分類として、例えば、「症例」、「部位」があり、「分析」の下位分類として、「検査項目」、「検査結果」があるものとして、「事象:症例」、「事象:部位」、「事象:状態」、「分析:検査項目」、「分析:検査結果」のタグを用意し、以下の説明をする。
(Variation example 2: Analysis example of specialized literature)
The following is an example of modification when analyzing a particularly specialized document. In specialized literature, especially in the field of science and technology, in literature such as papers, events such as hypotheses, conclusions, assertions, states, performances, and properties, and analytical methods (experimental methods, inspection methods) to support them. Is often shown. Therefore, by extracting the event and the analysis method, it is possible to extract important points in the text. Therefore, two types of tags, "event" and "analysis", are prepared as tags indicating unique expressions. In addition, as a subclass of "event", for example, there are "case" and "site", and as a subclass of "analysis", there are "test item" and "test result", "event: case", Prepare tags for "event: site", "event: state", "analysis: inspection item", and "analysis: inspection result", and explain the following.

テキスト情報取得部1031は、例えば、科学技術分野の論稿などをテキストデータとして取得する。そして、その中の例文として、図6に示すように、「眼球結膜に黄染が発生した。黄疸症状の可能性を推察し、血液検査でビリルビンの異常を確認した。」との例文が含まれるものとして具体的な処理を示す。 The text information acquisition unit 1031 acquires, for example, an article in the field of science and technology as text data. And, as an example sentence in it, as shown in FIG. 6, the example sentence "Yellow stain occurred in the conjunctiva of the eyeball. The possibility of jaundice symptom was inferred, and the abnormality of bilirubin was confirmed by the blood test." Specific processing is shown as such.

固有表現抽出部1032は、固有表現を取得して、タグ付けを行う。例えば、図6に示す文は、図7に示すように、「眼球」=事象:部位、「結膜」=事象:部位、「黄染」=事象:状態、「発生」=事象:状態、「黄疸」=事象:症例、「症状」=事象:状態、「可能性」=事象:状態、「推察」=事象:状態、「血液」=事象、部位、「検査」=分析:検査項目、「ビリルビン」=分析:検査項目、「異常」=分析:検査結果、「確認」=事象:状態として固有表現を抽出し、タグ付けを行う。 The named entity extraction unit 1032 acquires the named entity and tags it. For example, in the sentence shown in FIG. 6, as shown in FIG. 7, "eyeball" = event: site, "conjunctival" = event: site, "yellow dyeing" = event: state, "occurrence" = event: state, " "Yellow" = event: case, "symptom" = event: condition, "possibility" = event: condition, "guess" = event: condition, "blood" = event, site, "examination" = analysis: examination item, " Bilirubin ”= analysis: inspection item,“ abnormality ”= analysis: inspection result,“ confirmation ”= event: unique expression is extracted and tagged as a state.

さらに、固有表現抽出部1032は、複合語に対しても、「眼球結膜」=事象:部位、「黄疸症状」=事象:症例、「血液検査」=分析:検査項目のようにタグ付けを行う。複合語に対してもタグ付けを行った具体例を示しているのが図8である。 Furthermore, the named entity extraction unit 1032 also tags compound words as "eyeball conjunctiva" = event: site, "jaundice symptom" = event: case, "blood test" = analysis: test item. .. FIG. 8 shows a specific example in which a compound word is also tagged.

係り受け抽出部1033は、係り受けの抽出を行う。図7のように固有表現が抽出された文に対して、固有表現を含む係り受けを解析すると、図9左側のようになる。すなわち、「眼球-結膜」、「眼球-黄染」、「結膜-黄染」、「結膜-発生」、「黄染-発生」、「発生-した」、「黄疸-症状」、「黄疸-可能性」、「症状-可能性」、「症状-推察」、「可能性-推察」、「血液-検査」、「血液-異常」、「検査-異常」、「検査-確認」、「ビリルビン-異常」、「ビリルビン-確認」、「異常-確認」、「確認-した」を係り受けとして抽出する。 The dependency extraction unit 1033 extracts the dependency. When the dependency including the named entity is analyzed for the sentence from which the named entity is extracted as shown in FIG. 7, the left side of FIG. 9 is obtained. That is, "eyeball-conjunctiva", "eyeball-yellow dyeing", "conjunctiva-yellow dyeing", "conjunctiva-development", "yellow dyeing-development", "occurrence-", "jaundice-symptom", "jaundice-" "Possibility", "Symptom-Possibility", "Symptom-Guess", "Possibility-Guess", "Blood-Test", "Blood-Abnormal", "Test-Abnormal", "Test-Confirmation", "Bilirubin" -Extract "abnormal", "bilirubin-confirmation", "abnormal-confirmation", and "confirmation-confirmed" as dependencies.

係り受け抽出部1033は、名詞句があるときは、さらにその先の係り受けを探索して抽出するため、「眼球-結膜」、「黄疸-症状」、「血液-検査」は抽出されず、図9の右側のような係り受けを抽出する。 When the dependency extraction unit 1033 has a noun phrase, it searches for and extracts the dependency beyond it, so that "eyeball-conjunctiva", "jaundice-symptom", and "blood-test" are not extracted. Extract the dependencies as shown on the right side of FIG.

係り受け抽出部1033は、さらに、係り受け元及び係り受け先のいずれもが、固有表現抽出部1032によって、固有表現として、タグを付した係り受けのみを抽出する。すなわち、図9右側で丸が付されている「眼球-結膜」、「眼球-黄染」、「結膜-黄染」、「結膜-発生」、「黄染-発生」、「黄疸-症状」、「黄疸-可能性」、「症状-可能性」、「症状-推察」、「可能性-推察」、「血液-検査」、「血液-異常」、「検査-異常」、「検査-確認」、「ビリルビン-異常」、「ビリルビン-確認」、「異常-確認」を係り受けとして抽出する。 Further, the dependency extraction unit 1033 extracts only the dependencies tagged as the named entity by the named entity extraction unit 1032 by both the dependency source and the dependent recipient. That is, "eyeball-conjunctiva", "eyeball-yellow dyeing", "conjunctiva-yellow dyeing", "conjunctiva-development", "yellow dyeing-development", "jaundice-symptom" circled on the right side of FIG. , "Jaundice-possibility", "symptom-possibility", "symptom-guess", "possibility-guess", "blood-test", "blood-abnormal", "test-abnormal", "test-confirmation" , "Bilirubin-abnormal", "bilirubin-confirmation", "abnormal-confirmation" are extracted as dependencies.

係り受け抽出部1033は、W1-W3、W2-W4の関係があり、W1W2が固有表現であるとき、W1W2-W3、W1W2-W4の係り受けに拡張する。例えば、「眼球-黄染」「結膜-黄染」「結膜-発生」は、「眼球結膜-黄染」「眼球結膜-発生」となり、「黄疸-可能性」「症状-可能性」「症状-推察」は「黄疸症状-可能性」「黄疸症状-推察」となり、「血液-異常」「検査-異常」「検査-確認」は「血液検査-異常」「血液検査-確認」となる。すなわち、係り受け抽出部1033は、図7下部右側に示す係り受けを抽出する。 The dependency extraction unit 1033 has a relationship of W1-W3 and W2-W4, and when W1W2 is a named entity, it extends to the dependency of W1W2-W3 and W1W2-W4. For example, "eyeball-yellow dyeing", "conjunctiva-yellow dyeing", and "conjunctiva-development" become "eyeball conjunctiva-yellow dyeing" and "eyeball conjunctiva-development", and "jaundice-possibility", "symptom-possibility", and "symptom". -Inference" becomes "jaundice symptom-possibility" and "jaundice symptom-inference", and "blood-abnormality" "test-abnormality" "test-confirmation" becomes "blood test-abnormality" "blood test-confirmation". That is, the dependency extraction unit 1033 extracts the dependency shown on the lower right side of FIG. 7.

共起度算出部1034は、一般的に用いられている例えば、Jaccard係数などの手法を用いて、共起度を算出する。本変形例では、特に、事象に関する観点と、分析に関する観点の二つから共起度を算出する。 The co-occurrence degree calculation unit 1034 calculates the co-occurrence degree by using a commonly used method such as a Jaccard index. In this modification, the degree of co-occurrence is calculated from the viewpoints related to events and the viewpoints related to analysis.

まず、事象に関する観点では、係り受け元を事象とし、係り受け先も事象とする係り受けについて共起度を抽出する。すなわち、事象に関するW1-W2という係り受けと、W3-W4という係り受けがあるときに、W1-W2及びW3-W4のいずれも含む文の数を、W1-W2及び/又はW3-W4の係り受けがある文の数で割る(除する)ことによって、共起度を算出する。 First, from the viewpoint of an event, the degree of co-occurrence is extracted for the dependency in which the dependency source is an event and the dependency destination is also an event. That is, when there is a dependency of W1-W2 and a dependency of W3-W4 regarding an event, the number of sentences including both W1-W2 and W3-W4 is determined by the dependency of W1-W2 and / or W3-W4. The degree of co-occurrence is calculated by dividing (dividing) by the number of sentences.

次に、分析に関する観点では、係り受け元と係り受け先のいずれも事象をタグとする係り受けに加え、分析をタグとする単語との組み合わせについて共起度を算出してもよい。つまり、W1-W2の事象タグが付された係り受けとB1の分析タグのワードがあるとき、W1-W2の係り受けとB1を含む文のいずれも含む文の数を、W1-W2の係り受け及び/又はB1のワードを含む文の数で割る(除する)ことによって、共起度を算出する。 Next, from the viewpoint of analysis, both the dependency source and the dependency destination may calculate the co-occurrence degree for the combination with the word whose tag is the analysis, in addition to the dependency whose tag is the event. That is, when there is a word of the dependency with the event tag of W1-W2 and the analysis tag of B1, the number of sentences including both the dependency of W1-W2 and the sentence including B1 is the dependency of W1-W2. The degree of co-occurrence is calculated by dividing (dividing) by the number of sentences containing the word of receiving and / or B1.

例えば、テキスト中に、W1-W2、W3-W4の事象に関する係り受けと、B1、B2の分析タグが付されたワードがあるとき、(W1-W2,B1)(W1-W2,B2)(W3-W4,B1)(W3-W4,B2)のいずれの組み合せについても共起度を算出する。 For example, when there is a word in the text with a dependency on the event of W1-W2, W3-W4 and an analysis tag of B1, B2, (W1-W2, B1) (W1-W2, B2) ( The degree of co-occurrence is calculated for any combination of W3-W4, B1) and (W3-W4, B2).

共起抽出部1035は、事象の観点、分析の観点それぞれにおいて、共起度が閾値を超える組合せを抽出する。 The co-occurrence extraction unit 1035 extracts combinations in which the degree of co-occurrence exceeds the threshold value from the viewpoint of the event and the viewpoint of analysis.

共起抽出部1035は、テキストが階層構造を有するタグが付されている場合、階層関係も含めた特定のタグとの共起度に着目して抽出してもよい。 When the text has a tag having a hierarchical structure, the co-occurrence extraction unit 1035 may extract by paying attention to the degree of co-occurrence with a specific tag including the hierarchical relationship.

(処理の流れ)
図10は、本開示の実施形態1における情報解析装置の処理の流れを示す。
(Process flow)
FIG. 10 shows a flow of processing of the information analysis device according to the first embodiment of the present disclosure.

テキスト情報取得部1031は、解析対象とするテキストデータを取得する(ステップS1031)。 The text information acquisition unit 1031 acquires the text data to be analyzed (step S1031).

固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する(ステップS1032)。なお、タグの種類は予め定めておいてよい。 The named entity extraction unit 1032 extracts the named entity and attaches a tag to the text data acquired by the text information acquisition unit 1031 (step S1032). The type of tag may be determined in advance.

係り受け抽出部1033は、固有表現が抽出されたテキストデータに対して、係り受けを解析する(ステップS1033)。 The dependency extraction unit 1033 analyzes the dependency on the text data from which the named entity is extracted (step S1033).

係り受けの抽出に際しては、名詞句が係り受けとして抽出された場合に、さらに文の先を探索して、係り受けを抽出してもよい。また、固有表現抽出部1032によって固有表現としてタグ付けされたワードが係り受け元と係り受け先となる関係の係り受けのみを抽出してもよい。 In extracting the dependency, when the noun phrase is extracted as the dependency, the dependency may be extracted by further searching the tip of the sentence. Further, only the dependency of the relationship in which the word tagged as the named entity by the named entity extraction unit 1032 is the dependency source and the dependency destination may be extracted.

共起度算出部1034は、抽出された係り受けのワードに対して、共起度を算出する(ステップS1034)。 The co-occurrence degree calculation unit 1034 calculates the co-occurrence degree for the extracted dependent words (step S1034).

共起抽出部1035は、閾値を超える共起度を有する係り受けの組合せを抽出する(ステップS1035)。 The co-occurrence extraction unit 1035 extracts a combination of dependencies having a co-occurrence degree exceeding the threshold value (step S1035).

(効果)
本実施形態によれば、係り受け解析をする前提として、固有表現を抽出し、固有表現に係る係り受けのみを抽出することにより、より重要な単語、特に科学技術分野においてはキーワードとなる単語の係り受けを抽出することが可能となる。
(effect)
According to the present embodiment, as a premise for the dependency analysis, by extracting the named entity and extracting only the named entity, the more important words, especially the words that are keywords in the field of science and technology, are extracted. It is possible to extract dependencies.

加えて、係り受け及び共起度を算出し、共起度の高い係り受けを抽出することが可能となることにより、取得した文献から、専門用語などを含む内容に対しても、因果関係、及び/又は事象と分析方法の関係などを解析することが可能となる。 In addition, by calculating the dependency and the degree of co-occurrence and extracting the dependency with a high degree of co-occurrence, a causal relationship can be obtained from the acquired literature even for contents including technical terms. And / or it becomes possible to analyze the relationship between the event and the analysis method.

<実施形態2>
実施形態2では、取得したテキスト情報に対して行った解析について、ユーザに対して視覚的に表示する機能をさらに備える。
<Embodiment 2>
The second embodiment further includes a function of visually displaying the analysis performed on the acquired text information to the user.

<情報解析装置の構成>
図11に本実施形態におけるサーバ20の構成を示す。サーバ20の制御部203は、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035、表示部2036を備える。なお、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035はサーバ10の制御部103と同様である。
<Configuration of information analysis device>
FIG. 11 shows the configuration of the server 20 in this embodiment. The control unit 203 of the server 20 includes a text information acquisition unit 1031, a named entity extraction unit 1032, a dependency extraction unit 1033, a co-occurrence degree calculation unit 1034, a co-occurrence extraction unit 1035, and a display unit 2036. The text information acquisition unit 1031, the named entity extraction unit 1032, the dependency extraction unit 1033, the co-occurrence degree calculation unit 1034, and the co-occurrence extraction unit 1035 are the same as the control unit 103 of the server 10.

表示部2036は、共起抽出部1035において解析された係り受けの組合せについて、ユーザに対して視覚的に表現して表示する。具体的には、係り受けのある係り受け元の単語と係り受け先の単語を表示した上で、係り受けを線で結び、ネットワーク図の形で表現してもよい。 The display unit 2036 visually expresses and displays the combination of dependencies analyzed by the co-occurrence extraction unit 1035 to the user. Specifically, after displaying the word of the dependency source and the word of the dependency destination, the dependency may be connected by a line and expressed in the form of a network diagram.

表示部2036は、事象タグでタグ付けされた単語の係り受け関係と、分析タグでタグ付けされた単語の組合せについて、ユーザに対して視覚的に表現して表示してもよい。 The display unit 2036 may visually represent and display the combination of the word dependency relationship tagged with the event tag and the word tagged with the analysis tag to the user.

表示部2036は、テキスト階層構造を有するタグが付されたときに、階層構造も含めて係り受けの組合せを表示してもよい。 When a tag having a text hierarchical structure is attached, the display unit 2036 may display a combination of dependencies including the hierarchical structure.

表示部2036は、共起度の大きさに応じて、ネットワーク図の線の太さを変えたり、色を変えたりすることで表現してもよい。また、表示部2036は、共起度を併せて示してもよい。 The display unit 2036 may be expressed by changing the thickness of the line or changing the color of the network diagram according to the magnitude of the co-occurrence degree. Further, the display unit 2036 may also indicate the degree of co-occurrence.

(具体例)
図12に表示部2036が表示する係り受けの視覚的表現の具体例を示す。表示部2036は、係り受け抽出部1033により解析された係り受けについて、例えばネットワーク図の表現を用いて係り受けを視覚的に表現して表示する。図12の例では、事象について、「システム-停止」「電源-可能性」「電源-異常」といった係り受けの組合せ、及び、これらの係り受けと、「部品目視確認」「コンデンサ」「冷却装置」「電圧測定」「テスター」といった分析方法の単語との組み合わせについて、閾値を超える共起度を有するものが線で結ばれて表示されている。なお、図12の例では、事象の係り受け関係を白背景、分析方法の単語を黒背景として表示している。
(Concrete example)
FIG. 12 shows a specific example of the visual expression of the dependency displayed by the display unit 2036. The display unit 2036 visually expresses and displays the dependencies analyzed by the dependency extraction unit 1033, for example, by using a representation of a network diagram. In the example of FIG. 12, for the event, the combination of dependencies such as "system-stop", "power supply-possibility", and "power supply-abnormality", and these dependencies, "visual confirmation of parts", "condenser", and "cooling device" For combinations with words of analysis methods such as "voltage measurement" and "tester", those having a co-occurrence degree exceeding the threshold value are connected by a line and displayed. In the example of FIG. 12, the dependency relationship of the event is displayed as a white background, and the word of the analysis method is displayed as a black background.

表示部2036は、共起抽出部1035がタグの階層構造を考慮して共起関係を抽出するとき、タグの階層構造を考慮して表示してもよい。 The display unit 2036 may display the co-occurrence extraction unit 1035 in consideration of the hierarchical structure of the tags when the co-occurrence extraction unit 1035 extracts the co-occurrence relationship in consideration of the hierarchical structure of the tags.

例えば、分析方法のタグについて、「分析:原因特定方法」のタグがあり、「部品目視確認」「電圧測定」に付されており、「分析:対象物」のタグがあり、「コンデンサ」「冷却装置」に付されており、「分析:測定機器」のタグがあり、「テスター」に付されているとする。ここで、「分析:原因特定方法」に着目して共起関係を抽出すると、事象における共起関係と、「分析:原因特定方法」の関係が抽出されて図示される。 For example, regarding the analysis method tag, there is a tag of "analysis: cause identification method", which is attached to "visual confirmation of parts" and "voltage measurement", and there is a tag of "analysis: object", and "capacitor" and "condenser". It is attached to "cooling device", has a tag of "analysis: measuring instrument", and is attached to "tester". Here, when the co-occurrence relationship is extracted by focusing on "analysis: cause identification method", the relationship between the co-occurrence relationship in the event and "analysis: cause identification method" is extracted and illustrated.

図13に表示部2036が表示する係り受けについて、「分析:原因特定方法」に着目して共起関係を抽出したときの視覚的表現の具体例を示す。図12と比較すると、着目している共起関係のみが抽出されるため、より関係性の把握がしやすくなる。 FIG. 13 shows a specific example of the visual expression of the dependency displayed by the display unit 2036 when the co-occurrence relationship is extracted by focusing on “analysis: method for identifying the cause”. Compared with FIG. 12, since only the co-occurrence relationship of interest is extracted, it becomes easier to grasp the relationship.

なお、図13では、「分析:原因特定方法」に着目しているため、係り受けと、かかるタグが付された単語との間の共起関係しか抽出されない。一方で、「コンデンサ」、「冷却装置」、「テスター」は、「部品目視確認」又は「電圧測定」の単語との間で共起関係があるため、それらと結びついて共起関係が抽出され、図示されている。 Since FIG. 13 focuses on "analysis: method for identifying the cause", only the co-occurrence relationship between the dependency and the word with such a tag is extracted. On the other hand, since "capacitor", "cooling device", and "tester" have a co-occurrence relationship with the words "visual confirmation of parts" or "voltage measurement", the co-occurrence relationship is extracted in connection with them. , Illustrated.

表示部2036は、共起度算出部1034で算出された共起度をネットワーク図と合わせて表示してもよい。 The display unit 2036 may display the co-occurrence degree calculated by the co-occurrence degree calculation unit 1034 together with the network diagram.

このように、視覚的な表現を用いることにより、係り受けのみならず、重要なワードの関係をユーザに視覚的に分かりやすく理解させることが可能となる。 In this way, by using the visual expression, it is possible to make the user understand not only the dependency but also the relationship of important words in a visually easy-to-understand manner.

(処理の流れ)
図14は、本開示の実施形態2における情報解析装置の処理の流れを示す。
(Process flow)
FIG. 14 shows a flow of processing of the information analysis apparatus according to the second embodiment of the present disclosure.

テキスト情報取得部1031は、解析対象とするテキストデータを取得する(ステップS1031)。 The text information acquisition unit 1031 acquires the text data to be analyzed (step S1031).

固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する(ステップS1032)。なお、タグの種類は予め定めておいてよい。 The named entity extraction unit 1032 extracts the named entity and attaches a tag to the text data acquired by the text information acquisition unit 1031 (step S1032). The type of tag may be determined in advance.

係り受け抽出部1033は、固有表現が抽出されたテキストデータに対して、係り受けを抽出する(ステップS1033)。 The dependency extraction unit 1033 extracts the dependency from the text data from which the named entity is extracted (step S1033).

係り受けの抽出に際しては、名詞句が係り受けとして抽出された場合に、さらに文の先を探索して、係り受けを抽出してもよい。また、固有表現抽出部1032によって固有表現としてタグ付けされたワードが係り受け元と係り受け先となる関係の係り受けのみを抽出してもよい。 In extracting the dependency, when the noun phrase is extracted as the dependency, the dependency may be extracted by further searching the tip of the sentence. Further, only the dependency of the relationship in which the word tagged as the named entity by the named entity extraction unit 1032 is the dependency source and the dependency destination may be extracted.

共起度算出部1034は、抽出された係り受けのワードに対して、共起度を算出する(ステップS1034)。 The co-occurrence degree calculation unit 1034 calculates the co-occurrence degree for the extracted dependent words (step S1034).

共起抽出部1035は、閾値を超える共起度を有する係り受けの組合せを抽出する(ステップS1035)。 The co-occurrence extraction unit 1035 extracts a combination of dependencies having a co-occurrence degree exceeding the threshold value (step S1035).

表示部2036は、係り受けについて、視覚的表現を用いてユーザに対して表示させる(ステップS2036)。このとき、表示部2036は、共起度を併せて表示し、また、共起度に応じて表示方法を変更させてもよい。 The display unit 2036 causes the user to display the dependency by using a visual expression (step S2036). At this time, the display unit 2036 may also display the co-occurrence degree, and may change the display method according to the co-occurrence degree.

(効果)
本実施形態によれば、抽出された係り受けについて、共起度なども考慮に入れて表示を行うことが、ユーザが重要なワードを的確に把握するのに資する。
(effect)
According to the present embodiment, displaying the extracted dependencies in consideration of the degree of co-occurrence and the like helps the user to accurately grasp important words.

特に専門分野、科学技術などの文献では、専門用語が多いため、これまで一般的に用いられている自然言語の処理方法では重要あるいは意味のあるワードを抽出することが難しかったが、これを的確に抽出した上で表現することが可能となる。 Especially in specialized fields and literature such as science and technology, there are many technical terms, so it was difficult to extract important or meaningful words with the natural language processing methods that have been commonly used so far, but this is accurate. It is possible to express after extracting to.

以上で実施形態の説明を終了するが、上記実施形態は一例に過ぎない。そのため、サーバ10、20の具体的な構成、処理内容等は上記実施形態で説明したものに限られない。 This is the end of the description of the embodiment, but the above embodiment is only an example. Therefore, the specific configurations, processing contents, and the like of the servers 10 and 20 are not limited to those described in the above embodiment.

本開示に係る情報解析装置は、例えば、スタンドアロンで動作するコンピュータ上に実現されることに留まらず、例えばサーバ型コンピュータとして動作させてもよい。 The information analysis device according to the present disclosure is not limited to being realized on a computer that operates standalone, for example, and may be operated as, for example, a server-type computer.

例えば、図15に示すように、サーバ10と、ユーザが操作するユーザ端末30とをネットワークを介して接続させ、ユーザ端末30から操作させて、サーバ10に文献を解析させ、その結果をユーザ端末30に表示させてもよい。 For example, as shown in FIG. 15, the server 10 and the user terminal 30 operated by the user are connected via a network, operated from the user terminal 30, and the server 10 analyzes a document, and the result is analyzed by the user terminal. It may be displayed at 30.

また、本開示に係る情報解析装置は、上記装置によらず、例えば、コンピュータがプログラムを実行することで、その機能を実現してもよい。情報解析装置の機能を実現するためのプログラムは、USB(Universal Serial Bus)メモリ、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、HDD(Hard Disc Drive)等のコンピュータ読み取り可能な記録媒体に記憶されてもよいし、ネットワークを介してコンピュータにダウンロードされてもよい。 Further, the information analysis device according to the present disclosure may realize its function by, for example, a computer executing a program, regardless of the above device. The program to realize the function of the information analysis device is computer reading of USB (Universal Serial Bus) memory, CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), HDD (Hard Disc Drive), etc. It may be stored on a possible recording medium or downloaded to a computer via a network.

以上、本開示の好ましい実施形態について説明したが、本開示は係る特定の実施形態に限定されるものではなく、本開示には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。また、上記実施形態及び変形例で説明した装置の構成は、技術的な矛盾が生じない限り、適宜組み合わせ可能である。 Although the preferred embodiments of the present disclosure have been described above, the present disclosure is not limited to such specific embodiments, and the present disclosure includes the inventions described in the claims and the equivalent scope thereof. Is done. Further, the configurations of the devices described in the above-described embodiments and modifications can be appropriately combined as long as there is no technical contradiction.

10,20…サーバ、11…プロセッサ、12…メモリ、13…ストレージ、14…通信IF、15…入出力IF、30…ユーザ端末、101…通信部、102…記憶部、103…制御部、1031…テキスト情報取得部、1032…固有表現抽出部、1033…係り受け抽出部、1034…共起度算出部、1035…共起抽出部、2036…表示部、211…表示部が表示させる具体例

10, 20 ... server, 11 ... processor, 12 ... memory, 13 ... storage, 14 ... communication IF, 15 ... input / output IF, 30 ... user terminal, 101 ... communication unit, 102 ... storage unit, 103 ... control unit, 1031 ... Text information acquisition unit, 1032 ... Unique expression extraction unit, 1033 ... Dependency extraction unit, 1034 ... Co-occurrence extraction unit, 1035 ... Co-occurrence extraction unit, 2036 ... Display unit, 211 ... Specific example to be displayed by the display unit

Claims (13)

プロセッサを備えるコンピュータに処理を行わせるプログラムであって、前記プロセッサに、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行させ、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
プログラム。
A program that causes a computer equipped with a processor to perform processing, and the processor
The text information acquisition step to acquire text information and
A named entity extraction step that extracts a named entity from the text information and assigns a tag to it.
A dependency extraction step of analyzing a dependency from the text information and extracting a dependency for which one or both of the dependency source and the dependency destination are unique expressions.
In the dependency extracted in the dependency extraction step from the text information, the co-occurrence degree calculation step for calculating the co-occurrence degree for the combination of the dependencies, and the co-occurrence degree calculation step.
A co-occurrence extraction step that extracts a combination of dependencies based on the degree of co-occurrence,
To execute,
In the dependency extraction step, in the extracted dependency, the first word, the second word, the third word, and the fourth word are unique expressions, and the first word is the dependency source. There is a dependency of the third word as a dependency, a dependency of the second word as a dependency source, and a dependency of the fourth word as a dependency, and the first word. When the compound word of the second word and the second word is a proper expression, the third dependency with the compound word as the dependency source and the third word as the dependency destination, and the compound word are involved. A program that adds and extends the fourth dependency, which is the receiver and the dependency destination is the fourth word , to the extracted dependency .
前記タグは、階層構造をもつタグを含む請求項1に記載のプログラム The program according to claim 1 , wherein the tag includes a tag having a hierarchical structure. 前記固有表現及び前記タグは、少なくとも事象を表す事象タグと事象に対する分析方法表す分析タグとを含む請求項1又は請求項2に記載のプログラム The program according to claim 1 or 2 , wherein the named entity and the tag include at least an event tag representing an event and an analysis tag representing an analysis method for an event. 前記固有表現抽出ステップは、固有表現抽出用のモデルを用いて、前記テキスト情報に対して機械学習を用いて固有表現を抽出し、前記タグを付与する請求項1~請求項の何れかに記載のプログラム。 The named entity extraction step is one of claims 1 to 3 , wherein the named entity is extracted from the text information by using machine learning using the model for extracting the named entity, and the tag is attached to the text information. The described program. 前記係り受け抽出ステップは、修飾語と被修飾語の関係を係り受けとして解析する請求項1~請求項の何れかに記載のプログラム。 The program according to any one of claims 1 to 4 , wherein the dependency extraction step analyzes the relationship between the modifier and the modified word as a dependency. 前記係り受け抽出ステップは、修飾語と被修飾語の関係に加え、予め定めた手がかり表現により解析された単語を係り受けとして解析する請求項に記載のプログラム。 The program according to claim 5 , wherein the dependency extraction step analyzes a word analyzed by a predetermined clue expression as a dependency in addition to the relationship between the modifier and the modified word. 前記係り受け抽出ステップは、名詞句が係り受けとして抽出されたときに、該名詞句のさらに先を探索して係り受け先を抽出する請求項1~請求項の何れかに記載のプログラム。 The program according to any one of claims 1 to 6 , wherein the dependency extraction step searches further ahead of the noun phrase and extracts the dependency when the noun phrase is extracted as the dependency. 前記共起度算出ステップは、係り受けの組合せ及び、係り受けと単語の組合せ、及び/又は単語と単語の組合せについて共起度を算出する請求項1~請求項の何れかに記載のプログラム。 The program according to any one of claims 1 to 7 , wherein the co-occurrence degree calculation step calculates the co-occurrence degree for the combination of the dependency, the combination of the dependency and the word, and / or the combination of the word and the word. .. 前記共起抽出ステップは、共起度が閾値を超える係り受けの組合せを抽出する請求項1~請求項の何れかに記載のプログラム The program according to any one of claims 1 to 8 , wherein the co-occurrence extraction step extracts a combination of dependencies whose co-occurrence degree exceeds a threshold value. 前記共起抽出ステップは、選択された係り受けとの共起度が高い方から、指定された数の係り受けの組合せを抽出する請求項1~請求項の何れかに記載のプログラム。 The program according to any one of claims 1 to 9 , wherein the co-occurrence extraction step extracts a specified number of dependency combinations from the one having the highest degree of co-occurrence with the selected dependency. 前記タグは、階層構造をもつタグを含み、前記共起抽出ステップは、選択された前記タグとの共起度に応じて係り受けの組合せを抽出する請求項1~請求項10の何れかに記載のプログラム。 The tag includes a tag having a hierarchical structure, and the co-occurrence extraction step is one of claims 1 to 10 for extracting a combination of dependencies according to the degree of co-occurrence with the selected tag. The program described. プロセッサを備えるコンピュータに処理を行わせるための方法であって、前記方法は、前記プロセッサが、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行し、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
方法。
A method for causing a computer equipped with a processor to perform processing, wherein the processor is capable of performing processing.
The text information acquisition step to acquire text information and
A named entity extraction step that extracts a named entity from the text information and assigns a tag to it.
A dependency extraction step of analyzing a dependency from the text information and extracting a dependency for which one or both of the dependency source and the dependency destination are unique expressions.
In the dependency extracted in the dependency extraction step from the text information, the co-occurrence degree calculation step for calculating the co-occurrence degree for the combination of the dependencies, and the co-occurrence degree calculation step.
A co-occurrence extraction step that extracts a combination of dependencies based on the degree of co-occurrence,
And run
In the dependency extraction step, in the extracted dependency, the first word, the second word, the third word, and the fourth word are unique expressions, and the first word is the dependency source. There is a dependency of the third word as a dependency, a dependency of the second word as a dependency source, and a dependency of the fourth word as a dependency, and the first word. When the compound word of the second word and the second word is a proper expression, the third dependency with the compound word as the dependency source and the third word as the dependency destination, and the compound word are involved. The fourth dependency, which is the receiver and the dependency destination is the fourth word, is expanded by adding it to the extracted dependency.
Method.
制御部を備える情報解析装置であって、前記制御部が、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行し、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
情報解析装置。
An information analysis device including a control unit, wherein the control unit
The text information acquisition step to acquire text information and
A named entity extraction step that extracts a named entity from the text information and assigns a tag to it.
A dependency extraction step of analyzing a dependency from the text information and extracting a dependency for which one or both of the dependency source and the dependency destination are unique expressions.
In the dependency extracted in the dependency extraction step from the text information, the co-occurrence degree calculation step for calculating the co-occurrence degree for the combination of the dependencies, and the co-occurrence degree calculation step.
A co-occurrence extraction step that extracts a combination of dependencies based on the degree of co-occurrence,
And run
In the dependency extraction step, in the extracted dependency, the first word, the second word, the third word, and the fourth word are unique expressions, and the first word is the dependency source. There is a dependency of the third word as a dependency, a dependency of the second word as a dependency source, and a dependency of the fourth word as a dependency, and the first word. When the compound word of the second word and the second word is a proper expression, the third dependency with the compound word as the dependency source and the third word as the dependency destination, and the compound word are involved. The fourth dependency, which is the receiver and the dependency destination is the fourth word, is expanded by adding it to the extracted dependency.
Information analysis device.
JP2021013489A 2021-01-29 2021-01-29 Information analysis program, information analysis method and information analysis device Active JP7032582B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021013489A JP7032582B1 (en) 2021-01-29 2021-01-29 Information analysis program, information analysis method and information analysis device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021013489A JP7032582B1 (en) 2021-01-29 2021-01-29 Information analysis program, information analysis method and information analysis device

Publications (2)

Publication Number Publication Date
JP7032582B1 true JP7032582B1 (en) 2022-03-08
JP2022117019A JP2022117019A (en) 2022-08-10

Family

ID=81212839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021013489A Active JP7032582B1 (en) 2021-01-29 2021-01-29 Information analysis program, information analysis method and information analysis device

Country Status (1)

Country Link
JP (1) JP7032582B1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133492A (en) * 2005-11-08 2007-05-31 Oki Electric Ind Co Ltd Modification extraction device, method and program
JP2008225560A (en) * 2007-03-08 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> Device and method for extracting set of interrelated unique expression
WO2009123260A1 (en) * 2008-04-01 2009-10-08 日本電気株式会社 Cooccurrence dictionary creating system and scoring system
JP2009282903A (en) * 2008-05-26 2009-12-03 Nippon Telegr & Teleph Corp <Ntt> Knowledge extraction/search apparatus and method thereof
JP2012068755A (en) * 2010-09-21 2012-04-05 Nomura Research Institute Ltd Retrieval system and retrieval program
JP2017078976A (en) * 2015-10-21 2017-04-27 ダイキン工業株式会社 Product retrieval device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133492A (en) * 2005-11-08 2007-05-31 Oki Electric Ind Co Ltd Modification extraction device, method and program
JP2008225560A (en) * 2007-03-08 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> Device and method for extracting set of interrelated unique expression
WO2009123260A1 (en) * 2008-04-01 2009-10-08 日本電気株式会社 Cooccurrence dictionary creating system and scoring system
JP2009282903A (en) * 2008-05-26 2009-12-03 Nippon Telegr & Teleph Corp <Ntt> Knowledge extraction/search apparatus and method thereof
JP2012068755A (en) * 2010-09-21 2012-04-05 Nomura Research Institute Ltd Retrieval system and retrieval program
JP2017078976A (en) * 2015-10-21 2017-04-27 ダイキン工業株式会社 Product retrieval device

Also Published As

Publication number Publication date
JP2022117019A (en) 2022-08-10

Similar Documents

Publication Publication Date Title
CN106649786B (en) Answer retrieval method and device based on deep question answering
US10089296B2 (en) System and method for sentiment lexicon expansion
EP3683695A1 (en) Synonym dictionary creation device, synonym dictionary creation program, and synonym dictionary creation method
KR20170134191A (en) Software domain topics extraction system using PageRank and topic modeling
Quasthoff et al. Building large resources for text mining: The Leipzig Corpora Collection
WO2014000764A1 (en) A system and method for automatic generation of a reference utility
CN110968664A (en) Document retrieval method, device, equipment and medium
JP4979637B2 (en) Compound word break estimation device, method, and program for estimating compound word break position
Zanuz et al. Fostering judiciary applications with new fine-tuned models for legal named entity recognition in portuguese
JP7032582B1 (en) Information analysis program, information analysis method and information analysis device
Pettersson et al. HistSearch-Implementation and Evaluation of a Web-based Tool for Automatic Information Extraction from Historical Text.
WO2014064777A1 (en) Document evaluation assistance system and document evaluation assistance method
Hashfi et al. Sentiment Analysis of An Internet Provider Company Based on Twitter Using Support Vector Machine and Naïve Bayes Method
CN110516157A (en) A kind of document retrieval method, equipment and storage medium
KR101983477B1 (en) Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification
US11182561B2 (en) Data analyzer and data analysis method
Teich et al. Scientific registers and disciplinary diversification: a comparable corpus approach
Marshman et al. Portability of cause–effect relation markers across specialised domains and text genres: a comparative evaluation
Roslan et al. Biodiversity Knowledge Retrieval Application Using Natural Language Processing Technique
JP2011070541A (en) Method and device for supporting internet marketing
CN112711695A (en) Content-based search suggestion generation method and device
JP5614687B2 (en) Information analysis device for analyzing time-series text data including time-series information and text information
Vo et al. VietSentiLex: a sentiment dictionary that considers the polarity of ambiguous sentiment words
US20200226219A1 (en) Text display with visual distinctions per class
JP5187187B2 (en) Experience information search system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210201

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210201

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220224

R150 Certificate of patent or registration of utility model

Ref document number: 7032582

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150