JP7032582B1 - Information analysis program, information analysis method and information analysis device - Google Patents
Information analysis program, information analysis method and information analysis device Download PDFInfo
- Publication number
- JP7032582B1 JP7032582B1 JP2021013489A JP2021013489A JP7032582B1 JP 7032582 B1 JP7032582 B1 JP 7032582B1 JP 2021013489 A JP2021013489 A JP 2021013489A JP 2021013489 A JP2021013489 A JP 2021013489A JP 7032582 B1 JP7032582 B1 JP 7032582B1
- Authority
- JP
- Japan
- Prior art keywords
- dependency
- word
- occurrence
- text information
- extraction step
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
【課題】
固有表現を抽出した上で、文章の因果関係を解析することで、専門用語などにも対応したキーワードの対応関係を解析する。
【解決手段】
情報解析プログラムは、テキスト情報を取得するテキスト情報取得ステップと、テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、テキスト情報から、係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、共起度に基づいて係り受けの組合せを抽出する共起抽出ステップを実行させるプログラムである。
【選択図】図2
【Task】
By extracting the named entity and then analyzing the causal relationship of the sentence, the correspondence relationship of the keywords corresponding to the technical terms is analyzed.
SOLUTION:
The information analysis program analyzes the dependency from the text information, the text information acquisition step for acquiring the text information, the named entity extraction step for extracting the named entity from the text information and adding a tag, and the dependency source or the dependency. In the dependency extraction step that extracts the dependency whose one or both of the recipients are named entities, and the dependency extracted in the dependency extraction step from the text information, the degree of co-occurrence is calculated for the combination of the dependencies. It is a program that executes a co-occurrence extraction step that extracts a combination of dependencies based on the co-occurrence degree calculation step and the co-occurrence degree.
[Selection diagram] Fig. 2
Description
本開示は、テキストデータから固有表現の関連性を解析する情報解析プログラム、情報解析方法及び情報解析装置に関する。 The present disclosure relates to an information analysis program, an information analysis method, and an information analysis device that analyze the relevance of a unique expression from text data.
近年の自然後処理技術及び機械学習技術の進歩に伴い、テキストデータをコンピュータが自動的に解析する方法が提案されている。例えば、テキストデータの因果関係を解析することができれば、大量の文献データの中から、当該文献の主要な主張点などを解析することで、効率的に知識を体系化することが可能となる。 With the progress of natural post-processing technology and machine learning technology in recent years, a method for automatically analyzing text data by a computer has been proposed. For example, if the causal relationship of text data can be analyzed, knowledge can be efficiently systematized by analyzing the main points of assertion of the document from a large amount of document data.
例えば、特許文献1では、自然言語処理を用いて、因果関係を幅広く解析するための方法を提案している。
For example,
しかし、特許文献1に開示された方法は、単に因果関係について解析するのみであって、目的と手段、あるいは、方法と効果など、その他の対応関係にまで適用することには触れられていない。
However, the method disclosed in
例えば、専門技術に関する文献を解析する場面などにおいては、原因・結果という因果関係の解析のみではなく、ある事象と、その事象を裏付けるための実験、試験、検査、根拠などの分析方法といった関係が解析できると、当該文献を体系化するに際して、より本質的な要素を抽出することが可能となる。 For example, in the scene of analyzing literature related to specialized technology, not only the analysis of the causal relationship between cause and effect, but also the relationship between a certain event and the analysis method such as experiments, tests, inspections, and grounds to support the event. If it can be analyzed, it will be possible to extract more essential elements when systematizing the document.
そこで、本開示では、因果関係の解析に際して、固有表現を抽出した上で、係り受けを抽出することで、キーワードを含んだ係り受けを抽出する。さらに、本開示では、係り受けの共起関係を抽出することにより、より精度の高い因果関係を解析し、また、因果関係の解析に留まらず、ある事象とその分析方法の関係など、様々な単語間の関係を解析することを目的とする。 Therefore, in the present disclosure, in the analysis of the causal relationship, the dependency including the keyword is extracted by extracting the named entity and then the dependency. Furthermore, in this disclosure, by extracting the co-occurrence relationship of the dependency, a more accurate causal relationship can be analyzed, and not only the analysis of the causal relationship but also the relationship between a certain event and its analysis method can be various. The purpose is to analyze the relationships between words.
プロセッサとメモリとを備えるコンピュータに実行させるためのプログラムである。プログラムは、プロセッサに、テキスト情報を取得するテキスト情報取得ステップと、テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、テキスト情報から、係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、共起度に基づいて係り受けの組合せを抽出する共起抽出ステップとを実行させるプログラムである。 It is a program to be executed by a computer equipped with a processor and a memory. The program analyzes the dependency from the text information, the text information acquisition step for acquiring the text information, the named entity extraction step for extracting the named entity from the text information and adding a tag, and the dependency source or the processor. The degree of co-occurrence is calculated for the combination of dependencies in the dependency extraction step that extracts the dependency whose one or both of the dependencies are named entities, and the dependency extracted in the dependency extraction step from the text information. It is a program that executes a co-occurrence degree calculation step and a co-occurrence extraction step that extracts a combination of dependencies based on the co-occurrence degree.
本開示によれば、自然言語処理を用いて、固有名詞、専門用語などを含むテキストデータに対しても、精度よく因果関係を解析することが可能となる。加えて、因果関係の解析に留まらず、ある事象とその分析方法の関係など、ユーザが所望する様々な単語間の関係を解析することが可能となる。 According to the present disclosure, it is possible to accurately analyze causal relationships even for text data including proper nouns, technical terms, etc. by using natural language processing. In addition, it is possible to analyze not only the causal relationship but also the relationship between various words desired by the user, such as the relationship between a certain event and the analysis method.
以下、本開示の実施形態に係る情報解析装置、情報解析方法及び情報解析プログラムを、図面を参照しながら説明する。なお、以下に説明する実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。また、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。 Hereinafter, the information analysis device, the information analysis method, and the information analysis program according to the embodiment of the present disclosure will be described with reference to the drawings. The embodiments described below do not unreasonably limit the contents of the present disclosure described in the claims. Moreover, not all of the configurations described in the embodiments are essential constituent requirements of the present disclosure. Further, in all the drawings illustrating the embodiments, the common components are designated by the same reference numerals, and the repeated description will be omitted.
<実施形態1>
実施形態1では、テキスト情報を取得して分析し、固有表現を抽出した上で、固有表現の係り受けと共起関係を分析し、任意の固有表現ごとに、共起度を算出する。
<
In the first embodiment, text information is acquired and analyzed, a named entity is extracted, then the dependency of the named entity and the co-occurrence relationship are analyzed, and the degree of co-occurrence is calculated for each arbitrary named entity.
<全体構成>
図1は、本実施形態のサーバ10の全体構成を示す図である。サーバ10は、汎用のコンピュータである。サーバ10は、例えば、据え置き型のPC(Personal Computer)、ラップトップPC等により実現される。また、サーバ10は、スマートフォン、又はタブレット端末などの携行性を備えたコンピュータであってもよい。
<Overall configuration>
FIG. 1 is a diagram showing an overall configuration of the
図1に示すように、サーバ10は、プロセッサ11、メモリ12、ストレージ13、通信IF14、入出力IF15とを備える。
As shown in FIG. 1, the
プロセッサ11は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。メモリ12は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリにより実現される。ストレージ13は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)により実現される。通信IF14は、サーバ10が外部の装置と通信するため、信号を送受信するためのインタフェースである。入出力IF15は、ユーザからの入力を受け付けるための入力装置、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。
The
<サーバの構成>
以下、サーバ10の構成を詳細に説明する。図2に示すように、本実施形態に係るサーバ10は、通信部101、記憶部102、制御部103とを備える。通信部101は、サーバ10が他の装置と通信するための処理を行う。通信部101は、制御部103で生成された信号に送信処理を施し、外部へ送信する。通信部101は、外部から受信した信号に受信処理を施し、制御部103へ出力する。
<Server configuration>
Hereinafter, the configuration of the
記憶部102は、例えばフラッシュメモリ等により構成され、サーバ10が使用するデータ、及びプログラムを記憶する。
The
制御部103は、プロセッサ11が記憶部102に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部103は、サーバ10の動作を制御する。具体的には、例えば、制御部103は、テキスト情報取得部1031と、固有表現抽出部1032と、係り受け抽出部1033と、共起度算出部1034と、共起抽出部1035としての機能を発揮する。
The
以下、サーバ10の制御部103における機能的な構成について説明する。
Hereinafter, the functional configuration of the
テキスト情報取得部1031は、解析対象とするテキストデータを取得する。解析対象とするテキストデータは、複数の文からなるテキストデータが想定される。また、テキスト情報取得部1031は、必ずしもテキストデータそのものを取得すること限られず、文書の画像データを取得した上で、OCR(Optical Character Recognition)などにより、テキスト化してもよい。
The text
テキスト情報取得部1031は、入出力インタフェース15を介して、USB(Universal Serial Bus)メモリ、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、HDD等のコンピュータ読み取り可能な記録媒体からテキストデータを取得してもよい。
The text
テキスト情報取得部1031は、有線通信又は無線通信を行うためのNIC(Network Interface Card controller)を備える通信IF15を介して、ネットワーク上からテキストデータを取得してもよい。
The text
固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する。
The named
固有表現とは、データから情報抽出を行う際にキー要素となる表現である。固有表現は、人名、地名、組織名、商品名などの固有名詞、数量、金額、パーセンテージなどの数値表現、日付、時間などの時間表現などを含む。また、固有表現は、特定の物質、構造、機能、処理方法、分析方法、専門用語などを含めてもよい。なお、固有表現は、あらゆる表現の中から、予めその範囲を定義してよい。 Named entity is an expression that is a key element when extracting information from data. Named entities include named entities such as personal names, place names, organization names, product names, numerical expressions such as quantities, amounts, and percentages, and time expressions such as dates and times. Named entities may also include specific substances, structures, functions, treatment methods, analytical methods, terminology, and the like. The range of the named entity may be defined in advance from all the expressions.
タグは、固有表現を分類するための識別情報を示すものである。タグは、例えば、「人名」、「地名」などの固有名詞を表すタグ、「数量」、「日付」、「時間」など数値表現を表すタグなどを用意し、固有表現に対して付与してもよい。 The tag indicates the identification information for classifying the named entity. For tags, for example, tags representing proper nouns such as "personal name" and "place name", tags representing numerical expressions such as "quantity", "date", and "time" are prepared and assigned to the proper expression. May be good.
また、タグは、専門的な文献、自然科学分野の文献の解析を行うことを目的として、「事象」を示す事象タグ、事象に対する「分析方法」を示す分析タグなどのタグを用意してもよい。タグは、予め複数のものを用意しておく。 In addition, for the purpose of analyzing specialized literature and literature in the field of natural science, tags such as an event tag indicating an "event" and an analysis tag indicating an "analysis method" for an event may be prepared. good. Prepare multiple tags in advance.
さらに、タグは、階層構造を持たせて定義してもよい。 Further, the tag may be defined with a hierarchical structure.
例えば、論文などの専門的な文献、特に自然科学分野の文献では、仮説、状態、結果などある「事象」に対して、その裏付けとなる実験、試験、検査、根拠などの「分析方法」が示されることが想定される。そして、「事象」では、「AがBである」というように、「対象が状態である」といった形で示されることが想定される。また、「分析方法」では、事象を裏付けるために、「AがBである」というように、「試験等により結果となった」といった形で示されることが想定される。 For example, in specialized literature such as papers, especially in the field of natural science, there are "analytical methods" such as experiments, tests, tests, and grounds that support certain "events" such as hypotheses, states, and results. Expected to be shown. Then, in the "event", it is assumed that it is shown in the form of "the object is a state" such as "A is B". Further, in the "analytical method", in order to support the event, it is assumed that it is indicated in the form of "A is B" or "the result is obtained by a test or the like".
上記を踏まえ、例えば、タグは、「事象:対象」、「事象:状態」、「分析:試験方法」、「分析:試験結果」などのように、階層構造を持たせて定義してもよい。なお、この場合、「事象」及び「分析」が上位概念であり、「対象」及び「試験方法」が下位概念として階層構造をもつタグとして定義される。 Based on the above, for example, the tag may be defined with a hierarchical structure such as "event: target", "event: state", "analysis: test method", "analysis: test result", and the like. .. In this case, "event" and "analysis" are superordinate concepts, and "object" and "test method" are defined as tags having a hierarchical structure as subordinate concepts.
固有表現抽出部1032は、固有表現抽出の方法として、固有表現を表す辞書を予め用意しておき、当該辞書を用いて、入力された文から固有表現を抽出し、タグ付けを行ってもよい。
As a method of extracting the named entity, the named
固有表現抽出部1032は、固有表現抽出の方法として、一般的に知られているNER(Named Entity Recognition)などの方法を用いてよい。また、固有表現抽出部1032は、学習用データを用いて、機械学習による固有表現抽出用のモデルを作成した上で、固有表現の抽出を行ってもよい。
The named
一般的なNERでは、抽出対象とする固有表現は、固有名詞及び数値表現などである。したがって、固有表現として、これ以外の表現、例えば、事象及び分析方法などを抽出したい場合には、抽出対象としたい表現を対象とした学習用のデータを用意した上で、固有表現抽出用のモデルを作成する。 In general NER, the named entity to be extracted is a named entity, a numerical expression, or the like. Therefore, when it is desired to extract other expressions such as events and analysis methods as named entities, a model for named named entity extraction is prepared after preparing learning data for the expressions to be extracted. To create.
例えば、固有表現抽出部1032は、予め用意したテキストデータに対し、予め定義したタグを付した学習用データを用意し、これらを用いて、固有表現抽出のための機械学習用のモデルを用意しておく。そして、テキスト情報取得部1031が取得した分析対象とするテキストデータを形態素解析した上で、作成したモデルを用いてNERの方法を用いる。これにより、固有表現抽出部1032は、固有表現を抽出した上で、抽出された固有表現に対して予め定義したタグのいずれかを付与する。
For example, the named
固有表現抽出部1032において、固有表現を抽出し、タグ付けしておくことで、テキスト情報取得部1031で取得したテキストデータの中から、特に意味をもつ可能性の高い単語をタグ付けし、予め抽出することが可能となる。
By extracting and tagging the named entity in the named
係り受け抽出部1033は、係り受けを抽出する。これには、一般的に用いられている係り受け解析器を用いてよい。
The
係り受けとは、構文解析を行った際に主語と述語、修飾語と被修飾語の関係等をもつ二つの単語のペアの関係をいう。そして、主語と述語であれば、主語が係り受け元、述語が係り受け先となり、修飾語と被修飾語であれば、修飾語が係り受け元、被修飾語が係り受け先となる。このように、係り受けは、係り受け元と係り受け先のペアからなる。 Dependency refers to the relationship between two word pairs that have a relationship between a subject and a predicate, and a modifier and a modifier when parsing is performed. In the case of a subject and a predicate, the subject is the dependency source and the predicate is the dependency destination, and in the case of the modifier and the modifier, the modifier is the dependency source and the modified word is the dependency destination. In this way, the dependency consists of a pair of the dependency source and the dependency destination.
一般的な係り受け解析器では、主語と述語の関係、修飾語と被修飾語の関係を係り受けとして抽出する。係り受け抽出部1033は、これらの双方又はどちらか一方を係り受けとして抽出してよい。
In a general dependency analyzer, the relationship between a subject and a predicate and the relationship between a modifier and a modifier are extracted as a dependency. The
また、一般的に用いられている係り受け解析の方法として、「~なので」「~によって」などの手がかり表現を解析し、その前後のキーワードに着目して係り受け抽出を行う方法もある。係り受け抽出部1033は、手がかり表現を用いて、及び/又は主語・述語の関係、修飾語・被修飾語の関係を用いて抽出を行ってもよい。
Further, as a commonly used method of dependency analysis, there is also a method of analyzing clue expressions such as "because" and "by", and performing dependency extraction by focusing on the keywords before and after that. The
また、一般的な係り受け抽出を行う場合において、W1、W2、W1W2(例えば、W1は「精密」、W2は「機械」、W1W2は「精密機械」など)が固有表現であるとき、W1-W2が係り受けとして抽出されることがある。このとき、名詞句が係り受けとして抽出された場合には、名詞句のさらに先を探索して係り受け先を解析し、W1-W3などの係り受けを抽出してもよい。なお、ここでいう名詞句とは、複数の語からなり、全体として一つの名詞と同じはらたきをするものをいう。 Further, in the case of performing general dependency extraction, when W1, W2, W1W2 (for example, W1 is "precision", W2 is "machine", W1W2 is "precision machine", etc.) are named entity, W1- W2 may be extracted as a dependency. At this time, when the noun phrase is extracted as a dependency, the dependency may be analyzed by searching further ahead of the noun phrase and extracting the dependency such as W1-W3. The noun phrase here is composed of a plurality of words and has the same fluttering as one noun as a whole.
係り受け抽出部1033は、テキスト情報取得部1031が取得したテキストデータに対して、係り受けを解析した上で、固有表現抽出部1032によりタグが付された固有表現を含む係り受けを抽出する。このとき、係り受け元と係り受け先の両方が固有表現である係り受けのみを抽出すると、より望ましい。
The
係り受け抽出部1033において、係り受けを抽出することにより、原因と結果、目的と手段、事象と分析方法などのように、何らかの意味をもつ単語間の関係を抽出することが可能となる。
By extracting the dependency in the
また、固有表現を含む係り受け、特に係り受け元と係り受け先の両方が固有表現である係り受けのみを抽出することにより、そのテキストにおいて特に重要な表現を抽出できる。 In addition, by extracting only the dependencies that include named entities, in particular the dependencies whose both the dependency source and the recipient are named entities, it is possible to extract particularly important expressions in the text.
係り受け抽出部1033は、抽出された固有表現を含む係り受けに対して、例えば、W1、W2、W3、W4がいずれも固有表現であるときに、第1の語W1を係り受け元とする第1の係り受けW1-W3と、第2の語W2を係り受け元とする第2の係り受けW2-W4との係り受けがあり、かつ、W1W2となる複合語も固有表現であるときに、W1W2-W3、W1W2-W4のように、W1W2となる複合語を係り受け元とし、第1の係り受けの係り受け先の語W3と第2の係り受けの係り受け先の語W4にも係り受けがあるものとして係り受けを追加して拡張してもよい。なお、複合語とは、本来独立した単語が二つ以上結合して新たに一つの単語としての意味、機能をもつようになった語をいう。
The
なお、係り受け抽出部1033における係り受けの拡張は、二語の複合語に限られず、三語以上の複合語において拡張してもよい。
The extension of the dependency in the
固有表現における係り受けについては、複合語において、それが分節された固有表現の係り受けを複合語に拡張することにより、そのテキストの中で表現したい内容を適切に把握可能となる。 Regarding the dependency in the named entity, in the compound word, by extending the dependency of the segmented named entity to the compound word, it becomes possible to appropriately grasp the content to be expressed in the text.
また、係り受け抽出部1033は、固有表現を用いて係り受けを拡張することにより、より上位概念の係り受けを生成することも可能となる。
Further, the
共起度算出部1034は、係り受け抽出部1033において抽出した係り受けについて、係り受けごとに、当該係り受けが文中に出現する共起関係を解析し、テキスト情報取得部1031で取得したテキストデータ内において、当該係り受けのいずれかが現れる文の数と、当該係り受けの共起が発生する文の数とを解析し、その割合を共起度として算出する。これには、一般的に用いられている例えば、Jaccard係数などの手法を用いてもよい。
The co-occurrence
共起度算出部1034は、例えば、係り受け抽出部1033において、係り受けW1-W2及びW3-W4が抽出されたときに、テキスト情報取得部1031で取得したテキストデータ内から、W1-W2又はW3-W4の係り受けを含む文の数と、W1-W2及びW3-W4の係り受けを含む文との割合を共起度として算出する。
The co-occurrence
共起度算出部1034により、係り受けに関する共起度の算出をすることで、共起度の高い係り受けの組合せを分析することが可能となる。
By calculating the degree of co-occurrence regarding the dependency by the co-occurrence
共起抽出部1035は、係り受けに関する共起度に基づいて係り受けの組合せを抽出する。
The
共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出してもよい。
The
例えば、共起抽出部1035は、閾値をTとして、係り受けKiとKjの共起度をVijとすると、Vij>Tとなる係り受けKiとKjの組合せを抽出してもよい
For example, if the
共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、選択されたある係り受けを起点として、共起度の高い方から順に指定された数、すなわち上位N個を抽出してもよい。
The
例えば、係り受けKiとKjの共起度をVijとすると、Kiを起点として、Vijが高いものから上位N件となるKjを抽出してもよい。 For example, assuming that the degree of co-occurrence between the dependent Ki and Kj is Vij, Kj that is the top N cases may be extracted from the one with the highest Vij, starting from Ki.
共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、階層関係も含めた特定のタグとの共起度に着目して抽出してもよい。
The
共起抽出部1035により、閾値を超える共起度を有し、又はある係り受けを起点とした上位N個の共起関係を抽出することにより、テキストデータにおいて特に意味のある共起関係の組合せを抽出することが可能となり、大量のテキストデータから特に意味があり重要と推測される関係を抽出することが可能となる。
A combination of co-occurrence relationships that is particularly meaningful in text data by extracting the top N co-occurrence relationships that have a co-occurrence degree exceeding the threshold value or that start from a certain dependency by the
(固有表現抽出部1032における処理の具体例)
以下、固有表現抽出部1032の固有表現抽出の具体例を示す。例えば、図3に示すように、「2006年6月29日、小泉首相は、ワシントンを訪問し、ブッシュ大統領と首脳会談に臨みました。」との一文があり、固有表現タグとして、「人名」、「地名」、「数量」、「日付」、「時間」があるものとする。
(Specific example of processing in named entity extraction unit 1032)
Hereinafter, a specific example of named entity extraction by the named
固有表現抽出部1032は、まず、形態素解析を実施し、形態素の列に分解する。その上で、固有表現抽出部1032は、予め定義した「人名」、「地名」、「数量」、「日付」、「時間」のタグを抽出するための学習モデルを用意する。そして、固有表現抽出部1032は、形態素の列に分解された文に対して、タグ付けをしていく。
First, the named
図3の例では、「2006年6月29日」は日付を表し、「小泉」は人名を、「ワシントン」は地名を、「ブッシュ」は人名を表すため、それぞれタグ付けがされる。 In the example of FIG. 3, "June 29, 2006" represents a date, "Koizumi" represents a person's name, "Washington" represents a place name, and "Bush" represents a person's name, so they are tagged respectively.
図3に示すように、固有表現抽出部1032は、固有表現となる単語を抽出した上で、タグ付けを行う。これによって、固有表現が予め定義されたタグに該当する単語を抽出し、分類することが可能となる。
As shown in FIG. 3, the named
(係り受け抽出部1033の処理の具体例)
係り受け抽出部1033の係り受けの抽出の具体例を示す。図4に示すように、例えば、「システムの停止が発生。」「電源異常の可能性を推察。」との二文があるとする。係り受け抽出部1033は、係り受けを抽出する。このとき、一般的な係り受け解析器を用いて係り受けを解析すると、「システム-停止」、「停止-発生」、「電源-異常」、「電源-可能性」、「異常-可能性」、「異常-推察」、「可能性-推察」の係り受けを抽出することができる。
(Specific example of processing of dependency extraction unit 1033)
A specific example of the dependency extraction of the
係り受け抽出部1033は、名詞句があるときは、その先の係り受け先を抽出するため、「電源-異常」の係り受けはスキップされて、「異常-可能性」のみを抽出する。
When the
係り受け抽出部1033は、固有表現抽出部1032によって、固有表現として、タグを付した係り受けのみを抽出する。
The
例えば、固有表現として「性能」「状態」の二種類のタグが存在するとき、図4の文は、図5に示すように、「システム」=性能、「停止」=状態、「発生」=状態、「電源」=性能、「異常」=状態、「可能性」=状態、「推察」=状態といったタグがつけられる。また、「電源異常」という複合語に対しても「電源異常」=状態といったタグがつけられる For example, when there are two types of tags, "performance" and "state", as named entities, the sentence in FIG. 4 is "system" = performance, "stop" = state, "occurrence" = as shown in FIG. Tags such as state, "power" = performance, "abnormal" = state, "possibility" = state, "guess" = state are attached. In addition, the compound word "power supply error" can also be tagged as "power supply error" = status.
係り受け抽出部1033において、係り受けの双方の単語にタグが付された係り受けのみを抽出すると、いずれも係り受け元、係り受け先ともに固有表現としてのタグが付されているため、「システム-停止」、「停止-発生」、「電源-可能性」、「異常-可能性」、「異常-推察」、「可能性-推察」を抽出する。
When the
さらに、係り受け抽出部1033は、W1-W3、W2-W4の関係があり、W1W2が固有表現であるとき、W1W2-W3、W1W2-W4の係り受けに拡張する。ここでは、W1=「電源」、W2=「異常」の関係があるから、「電源異常-可能性」、「電源異常-推察」が係り受けとして抽出する。
Further, the
(共起度算出部1034における具体的処理)
共起度算出部1034は、係り受け抽出部1033で抽出された係り受けに対して、共起度を算出する。例えば、係り受け抽出部1033で、W1-W2の係り受けと、W3-W4の係り受けが抽出されたとする。このとき、W1-W2又はW3-W4のいずれか又は両方の係り受けを含む文の数が全部で100文であり、W1-W2及びW3-W4の両方の係り受けを含む文の数が全部で10文あったとき、共起度は、(W1-W2又は/及びW3-W4の係り受けを含む文の数)/(W1―W2及びW3-W4の係り受けを含む文の数)=0.1として算出される。
(Specific processing in the co-occurrence degree calculation unit 1034)
The co-occurrence
(共起抽出部1035における具体的処理)
共起抽出部1035は、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出する。
(Specific processing in the co-occurrence extraction unit 1035)
The
例えば、係り受けK1,K2,K3があったとき、共起度算出部1034により、K1・K2の共起度は0.5、K1・K3は0.1、K2・K3は0.2と算出され、閾値を0.3として定めると、共起抽出部1035は、閾値を超える共起度を有するK1-K2の共起関係を抽出する。
For example, when there are dependencies K1, K2, and K3, the co-occurrence degree of K1 and K2 is 0.5, K1 and K3 are 0.1, and K2 and K3 are 0.2 by the co-occurrence
(変形例1:)
以下、係り受けの共起のみでなく、係り受けと単語の共起、又は単語の共起についても抽出を行う変形例を示す。
(Modification example 1:)
Hereinafter, a modified example of extracting not only the co-occurrence of the dependency but also the co-occurrence of the dependency and the word or the co-occurrence of the word will be shown.
共起度算出部1034は、係り受け抽出部1033で抽出した係り受けが共起する割合を共起度として算出することに加え、係り受け抽出部1033で抽出した係り受けと、固有表現抽出部1032で固有表現として抽出した単語との共起度、及び/又は、固有表現抽出部1032で固有表現として抽出した単語同士の共起度を算出する。
The co-occurrence
共起抽出部1035は、共起度算出部1034において算出された任意の係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せにおける共起度に対して、閾値を超える共起度を有する係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せを抽出する。このとき、閾値は、係り受けの組合せ、係り受けと単語の組合せ、単語同士の組合せにおいてそれぞれ別の値を設定してもよい。
The
共起抽出部1035は、係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せを抽出するに際して、固有表現抽出部1032で付与したタグについて、特定のタグを付与したものに限定して共起関係を抽出してもよい。
The
上記のように共起関係を抽出することで、係り受けの共起関係に加えて、係り受けと単語、及び/又は単語の共起も抽出し、分析に役立てることが可能となる。 By extracting the co-occurrence relationship as described above, in addition to the co-occurrence relationship of the dependency, the co-occurrence of the dependency and the word and / or the word can be extracted and used for analysis.
(変形例2:専門的な文献の解析例)
以下、特に専門的な文献の解析を行う際の変形例を示す。専門的な文献、特に科学技術の分野においては、論文などの文献において、その仮説、結論、主張、状態、性能、性質などの事象と、それを裏付けるための分析方法(実験方法、検査方法)が示されることが多い。したがって、事象と分析方法を抽出することにより、そのテキスト内で重要な点を抽出することができる。そこで、特に固有表現を示すタグとして、「事象」、「分析」の2種類のタグを用意する。なお、「事象」の下位分類として、例えば、「症例」、「部位」があり、「分析」の下位分類として、「検査項目」、「検査結果」があるものとして、「事象:症例」、「事象:部位」、「事象:状態」、「分析:検査項目」、「分析:検査結果」のタグを用意し、以下の説明をする。
(Variation example 2: Analysis example of specialized literature)
The following is an example of modification when analyzing a particularly specialized document. In specialized literature, especially in the field of science and technology, in literature such as papers, events such as hypotheses, conclusions, assertions, states, performances, and properties, and analytical methods (experimental methods, inspection methods) to support them. Is often shown. Therefore, by extracting the event and the analysis method, it is possible to extract important points in the text. Therefore, two types of tags, "event" and "analysis", are prepared as tags indicating unique expressions. In addition, as a subclass of "event", for example, there are "case" and "site", and as a subclass of "analysis", there are "test item" and "test result", "event: case", Prepare tags for "event: site", "event: state", "analysis: inspection item", and "analysis: inspection result", and explain the following.
テキスト情報取得部1031は、例えば、科学技術分野の論稿などをテキストデータとして取得する。そして、その中の例文として、図6に示すように、「眼球結膜に黄染が発生した。黄疸症状の可能性を推察し、血液検査でビリルビンの異常を確認した。」との例文が含まれるものとして具体的な処理を示す。
The text
固有表現抽出部1032は、固有表現を取得して、タグ付けを行う。例えば、図6に示す文は、図7に示すように、「眼球」=事象:部位、「結膜」=事象:部位、「黄染」=事象:状態、「発生」=事象:状態、「黄疸」=事象:症例、「症状」=事象:状態、「可能性」=事象:状態、「推察」=事象:状態、「血液」=事象、部位、「検査」=分析:検査項目、「ビリルビン」=分析:検査項目、「異常」=分析:検査結果、「確認」=事象:状態として固有表現を抽出し、タグ付けを行う。
The named
さらに、固有表現抽出部1032は、複合語に対しても、「眼球結膜」=事象:部位、「黄疸症状」=事象:症例、「血液検査」=分析:検査項目のようにタグ付けを行う。複合語に対してもタグ付けを行った具体例を示しているのが図8である。
Furthermore, the named
係り受け抽出部1033は、係り受けの抽出を行う。図7のように固有表現が抽出された文に対して、固有表現を含む係り受けを解析すると、図9左側のようになる。すなわち、「眼球-結膜」、「眼球-黄染」、「結膜-黄染」、「結膜-発生」、「黄染-発生」、「発生-した」、「黄疸-症状」、「黄疸-可能性」、「症状-可能性」、「症状-推察」、「可能性-推察」、「血液-検査」、「血液-異常」、「検査-異常」、「検査-確認」、「ビリルビン-異常」、「ビリルビン-確認」、「異常-確認」、「確認-した」を係り受けとして抽出する。
The
係り受け抽出部1033は、名詞句があるときは、さらにその先の係り受けを探索して抽出するため、「眼球-結膜」、「黄疸-症状」、「血液-検査」は抽出されず、図9の右側のような係り受けを抽出する。
When the
係り受け抽出部1033は、さらに、係り受け元及び係り受け先のいずれもが、固有表現抽出部1032によって、固有表現として、タグを付した係り受けのみを抽出する。すなわち、図9右側で丸が付されている「眼球-結膜」、「眼球-黄染」、「結膜-黄染」、「結膜-発生」、「黄染-発生」、「黄疸-症状」、「黄疸-可能性」、「症状-可能性」、「症状-推察」、「可能性-推察」、「血液-検査」、「血液-異常」、「検査-異常」、「検査-確認」、「ビリルビン-異常」、「ビリルビン-確認」、「異常-確認」を係り受けとして抽出する。
Further, the
係り受け抽出部1033は、W1-W3、W2-W4の関係があり、W1W2が固有表現であるとき、W1W2-W3、W1W2-W4の係り受けに拡張する。例えば、「眼球-黄染」「結膜-黄染」「結膜-発生」は、「眼球結膜-黄染」「眼球結膜-発生」となり、「黄疸-可能性」「症状-可能性」「症状-推察」は「黄疸症状-可能性」「黄疸症状-推察」となり、「血液-異常」「検査-異常」「検査-確認」は「血液検査-異常」「血液検査-確認」となる。すなわち、係り受け抽出部1033は、図7下部右側に示す係り受けを抽出する。
The
共起度算出部1034は、一般的に用いられている例えば、Jaccard係数などの手法を用いて、共起度を算出する。本変形例では、特に、事象に関する観点と、分析に関する観点の二つから共起度を算出する。
The co-occurrence
まず、事象に関する観点では、係り受け元を事象とし、係り受け先も事象とする係り受けについて共起度を抽出する。すなわち、事象に関するW1-W2という係り受けと、W3-W4という係り受けがあるときに、W1-W2及びW3-W4のいずれも含む文の数を、W1-W2及び/又はW3-W4の係り受けがある文の数で割る(除する)ことによって、共起度を算出する。 First, from the viewpoint of an event, the degree of co-occurrence is extracted for the dependency in which the dependency source is an event and the dependency destination is also an event. That is, when there is a dependency of W1-W2 and a dependency of W3-W4 regarding an event, the number of sentences including both W1-W2 and W3-W4 is determined by the dependency of W1-W2 and / or W3-W4. The degree of co-occurrence is calculated by dividing (dividing) by the number of sentences.
次に、分析に関する観点では、係り受け元と係り受け先のいずれも事象をタグとする係り受けに加え、分析をタグとする単語との組み合わせについて共起度を算出してもよい。つまり、W1-W2の事象タグが付された係り受けとB1の分析タグのワードがあるとき、W1-W2の係り受けとB1を含む文のいずれも含む文の数を、W1-W2の係り受け及び/又はB1のワードを含む文の数で割る(除する)ことによって、共起度を算出する。 Next, from the viewpoint of analysis, both the dependency source and the dependency destination may calculate the co-occurrence degree for the combination with the word whose tag is the analysis, in addition to the dependency whose tag is the event. That is, when there is a word of the dependency with the event tag of W1-W2 and the analysis tag of B1, the number of sentences including both the dependency of W1-W2 and the sentence including B1 is the dependency of W1-W2. The degree of co-occurrence is calculated by dividing (dividing) by the number of sentences containing the word of receiving and / or B1.
例えば、テキスト中に、W1-W2、W3-W4の事象に関する係り受けと、B1、B2の分析タグが付されたワードがあるとき、(W1-W2,B1)(W1-W2,B2)(W3-W4,B1)(W3-W4,B2)のいずれの組み合せについても共起度を算出する。 For example, when there is a word in the text with a dependency on the event of W1-W2, W3-W4 and an analysis tag of B1, B2, (W1-W2, B1) (W1-W2, B2) ( The degree of co-occurrence is calculated for any combination of W3-W4, B1) and (W3-W4, B2).
共起抽出部1035は、事象の観点、分析の観点それぞれにおいて、共起度が閾値を超える組合せを抽出する。
The
共起抽出部1035は、テキストが階層構造を有するタグが付されている場合、階層関係も含めた特定のタグとの共起度に着目して抽出してもよい。
When the text has a tag having a hierarchical structure, the
(処理の流れ)
図10は、本開示の実施形態1における情報解析装置の処理の流れを示す。
(Process flow)
FIG. 10 shows a flow of processing of the information analysis device according to the first embodiment of the present disclosure.
テキスト情報取得部1031は、解析対象とするテキストデータを取得する(ステップS1031)。
The text
固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する(ステップS1032)。なお、タグの種類は予め定めておいてよい。
The named
係り受け抽出部1033は、固有表現が抽出されたテキストデータに対して、係り受けを解析する(ステップS1033)。
The
係り受けの抽出に際しては、名詞句が係り受けとして抽出された場合に、さらに文の先を探索して、係り受けを抽出してもよい。また、固有表現抽出部1032によって固有表現としてタグ付けされたワードが係り受け元と係り受け先となる関係の係り受けのみを抽出してもよい。
In extracting the dependency, when the noun phrase is extracted as the dependency, the dependency may be extracted by further searching the tip of the sentence. Further, only the dependency of the relationship in which the word tagged as the named entity by the named
共起度算出部1034は、抽出された係り受けのワードに対して、共起度を算出する(ステップS1034)。
The co-occurrence
共起抽出部1035は、閾値を超える共起度を有する係り受けの組合せを抽出する(ステップS1035)。
The
(効果)
本実施形態によれば、係り受け解析をする前提として、固有表現を抽出し、固有表現に係る係り受けのみを抽出することにより、より重要な単語、特に科学技術分野においてはキーワードとなる単語の係り受けを抽出することが可能となる。
(effect)
According to the present embodiment, as a premise for the dependency analysis, by extracting the named entity and extracting only the named entity, the more important words, especially the words that are keywords in the field of science and technology, are extracted. It is possible to extract dependencies.
加えて、係り受け及び共起度を算出し、共起度の高い係り受けを抽出することが可能となることにより、取得した文献から、専門用語などを含む内容に対しても、因果関係、及び/又は事象と分析方法の関係などを解析することが可能となる。 In addition, by calculating the dependency and the degree of co-occurrence and extracting the dependency with a high degree of co-occurrence, a causal relationship can be obtained from the acquired literature even for contents including technical terms. And / or it becomes possible to analyze the relationship between the event and the analysis method.
<実施形態2>
実施形態2では、取得したテキスト情報に対して行った解析について、ユーザに対して視覚的に表示する機能をさらに備える。
<Embodiment 2>
The second embodiment further includes a function of visually displaying the analysis performed on the acquired text information to the user.
<情報解析装置の構成>
図11に本実施形態におけるサーバ20の構成を示す。サーバ20の制御部203は、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035、表示部2036を備える。なお、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035はサーバ10の制御部103と同様である。
<Configuration of information analysis device>
FIG. 11 shows the configuration of the
表示部2036は、共起抽出部1035において解析された係り受けの組合せについて、ユーザに対して視覚的に表現して表示する。具体的には、係り受けのある係り受け元の単語と係り受け先の単語を表示した上で、係り受けを線で結び、ネットワーク図の形で表現してもよい。
The
表示部2036は、事象タグでタグ付けされた単語の係り受け関係と、分析タグでタグ付けされた単語の組合せについて、ユーザに対して視覚的に表現して表示してもよい。
The
表示部2036は、テキスト階層構造を有するタグが付されたときに、階層構造も含めて係り受けの組合せを表示してもよい。
When a tag having a text hierarchical structure is attached, the
表示部2036は、共起度の大きさに応じて、ネットワーク図の線の太さを変えたり、色を変えたりすることで表現してもよい。また、表示部2036は、共起度を併せて示してもよい。
The
(具体例)
図12に表示部2036が表示する係り受けの視覚的表現の具体例を示す。表示部2036は、係り受け抽出部1033により解析された係り受けについて、例えばネットワーク図の表現を用いて係り受けを視覚的に表現して表示する。図12の例では、事象について、「システム-停止」「電源-可能性」「電源-異常」といった係り受けの組合せ、及び、これらの係り受けと、「部品目視確認」「コンデンサ」「冷却装置」「電圧測定」「テスター」といった分析方法の単語との組み合わせについて、閾値を超える共起度を有するものが線で結ばれて表示されている。なお、図12の例では、事象の係り受け関係を白背景、分析方法の単語を黒背景として表示している。
(Concrete example)
FIG. 12 shows a specific example of the visual expression of the dependency displayed by the
表示部2036は、共起抽出部1035がタグの階層構造を考慮して共起関係を抽出するとき、タグの階層構造を考慮して表示してもよい。
The
例えば、分析方法のタグについて、「分析:原因特定方法」のタグがあり、「部品目視確認」「電圧測定」に付されており、「分析:対象物」のタグがあり、「コンデンサ」「冷却装置」に付されており、「分析:測定機器」のタグがあり、「テスター」に付されているとする。ここで、「分析:原因特定方法」に着目して共起関係を抽出すると、事象における共起関係と、「分析:原因特定方法」の関係が抽出されて図示される。 For example, regarding the analysis method tag, there is a tag of "analysis: cause identification method", which is attached to "visual confirmation of parts" and "voltage measurement", and there is a tag of "analysis: object", and "capacitor" and "condenser". It is attached to "cooling device", has a tag of "analysis: measuring instrument", and is attached to "tester". Here, when the co-occurrence relationship is extracted by focusing on "analysis: cause identification method", the relationship between the co-occurrence relationship in the event and "analysis: cause identification method" is extracted and illustrated.
図13に表示部2036が表示する係り受けについて、「分析:原因特定方法」に着目して共起関係を抽出したときの視覚的表現の具体例を示す。図12と比較すると、着目している共起関係のみが抽出されるため、より関係性の把握がしやすくなる。
FIG. 13 shows a specific example of the visual expression of the dependency displayed by the
なお、図13では、「分析:原因特定方法」に着目しているため、係り受けと、かかるタグが付された単語との間の共起関係しか抽出されない。一方で、「コンデンサ」、「冷却装置」、「テスター」は、「部品目視確認」又は「電圧測定」の単語との間で共起関係があるため、それらと結びついて共起関係が抽出され、図示されている。 Since FIG. 13 focuses on "analysis: method for identifying the cause", only the co-occurrence relationship between the dependency and the word with such a tag is extracted. On the other hand, since "capacitor", "cooling device", and "tester" have a co-occurrence relationship with the words "visual confirmation of parts" or "voltage measurement", the co-occurrence relationship is extracted in connection with them. , Illustrated.
表示部2036は、共起度算出部1034で算出された共起度をネットワーク図と合わせて表示してもよい。
The
このように、視覚的な表現を用いることにより、係り受けのみならず、重要なワードの関係をユーザに視覚的に分かりやすく理解させることが可能となる。 In this way, by using the visual expression, it is possible to make the user understand not only the dependency but also the relationship of important words in a visually easy-to-understand manner.
(処理の流れ)
図14は、本開示の実施形態2における情報解析装置の処理の流れを示す。
(Process flow)
FIG. 14 shows a flow of processing of the information analysis apparatus according to the second embodiment of the present disclosure.
テキスト情報取得部1031は、解析対象とするテキストデータを取得する(ステップS1031)。
The text
固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する(ステップS1032)。なお、タグの種類は予め定めておいてよい。
The named
係り受け抽出部1033は、固有表現が抽出されたテキストデータに対して、係り受けを抽出する(ステップS1033)。
The
係り受けの抽出に際しては、名詞句が係り受けとして抽出された場合に、さらに文の先を探索して、係り受けを抽出してもよい。また、固有表現抽出部1032によって固有表現としてタグ付けされたワードが係り受け元と係り受け先となる関係の係り受けのみを抽出してもよい。
In extracting the dependency, when the noun phrase is extracted as the dependency, the dependency may be extracted by further searching the tip of the sentence. Further, only the dependency of the relationship in which the word tagged as the named entity by the named
共起度算出部1034は、抽出された係り受けのワードに対して、共起度を算出する(ステップS1034)。
The co-occurrence
共起抽出部1035は、閾値を超える共起度を有する係り受けの組合せを抽出する(ステップS1035)。
The
表示部2036は、係り受けについて、視覚的表現を用いてユーザに対して表示させる(ステップS2036)。このとき、表示部2036は、共起度を併せて表示し、また、共起度に応じて表示方法を変更させてもよい。
The
(効果)
本実施形態によれば、抽出された係り受けについて、共起度なども考慮に入れて表示を行うことが、ユーザが重要なワードを的確に把握するのに資する。
(effect)
According to the present embodiment, displaying the extracted dependencies in consideration of the degree of co-occurrence and the like helps the user to accurately grasp important words.
特に専門分野、科学技術などの文献では、専門用語が多いため、これまで一般的に用いられている自然言語の処理方法では重要あるいは意味のあるワードを抽出することが難しかったが、これを的確に抽出した上で表現することが可能となる。 Especially in specialized fields and literature such as science and technology, there are many technical terms, so it was difficult to extract important or meaningful words with the natural language processing methods that have been commonly used so far, but this is accurate. It is possible to express after extracting to.
以上で実施形態の説明を終了するが、上記実施形態は一例に過ぎない。そのため、サーバ10、20の具体的な構成、処理内容等は上記実施形態で説明したものに限られない。
This is the end of the description of the embodiment, but the above embodiment is only an example. Therefore, the specific configurations, processing contents, and the like of the
本開示に係る情報解析装置は、例えば、スタンドアロンで動作するコンピュータ上に実現されることに留まらず、例えばサーバ型コンピュータとして動作させてもよい。 The information analysis device according to the present disclosure is not limited to being realized on a computer that operates standalone, for example, and may be operated as, for example, a server-type computer.
例えば、図15に示すように、サーバ10と、ユーザが操作するユーザ端末30とをネットワークを介して接続させ、ユーザ端末30から操作させて、サーバ10に文献を解析させ、その結果をユーザ端末30に表示させてもよい。
For example, as shown in FIG. 15, the
また、本開示に係る情報解析装置は、上記装置によらず、例えば、コンピュータがプログラムを実行することで、その機能を実現してもよい。情報解析装置の機能を実現するためのプログラムは、USB(Universal Serial Bus)メモリ、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、HDD(Hard Disc Drive)等のコンピュータ読み取り可能な記録媒体に記憶されてもよいし、ネットワークを介してコンピュータにダウンロードされてもよい。 Further, the information analysis device according to the present disclosure may realize its function by, for example, a computer executing a program, regardless of the above device. The program to realize the function of the information analysis device is computer reading of USB (Universal Serial Bus) memory, CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), HDD (Hard Disc Drive), etc. It may be stored on a possible recording medium or downloaded to a computer via a network.
以上、本開示の好ましい実施形態について説明したが、本開示は係る特定の実施形態に限定されるものではなく、本開示には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。また、上記実施形態及び変形例で説明した装置の構成は、技術的な矛盾が生じない限り、適宜組み合わせ可能である。 Although the preferred embodiments of the present disclosure have been described above, the present disclosure is not limited to such specific embodiments, and the present disclosure includes the inventions described in the claims and the equivalent scope thereof. Is done. Further, the configurations of the devices described in the above-described embodiments and modifications can be appropriately combined as long as there is no technical contradiction.
10,20…サーバ、11…プロセッサ、12…メモリ、13…ストレージ、14…通信IF、15…入出力IF、30…ユーザ端末、101…通信部、102…記憶部、103…制御部、1031…テキスト情報取得部、1032…固有表現抽出部、1033…係り受け抽出部、1034…共起度算出部、1035…共起抽出部、2036…表示部、211…表示部が表示させる具体例
10, 20 ... server, 11 ... processor, 12 ... memory, 13 ... storage, 14 ... communication IF, 15 ... input / output IF, 30 ... user terminal, 101 ... communication unit, 102 ... storage unit, 103 ... control unit, 1031 ... Text information acquisition unit, 1032 ... Unique expression extraction unit, 1033 ... Dependency extraction unit, 1034 ... Co-occurrence extraction unit, 1035 ... Co-occurrence extraction unit, 2036 ... Display unit, 211 ... Specific example to be displayed by the display unit
Claims (13)
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行させ、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
プログラム。 A program that causes a computer equipped with a processor to perform processing, and the processor
The text information acquisition step to acquire text information and
A named entity extraction step that extracts a named entity from the text information and assigns a tag to it.
A dependency extraction step of analyzing a dependency from the text information and extracting a dependency for which one or both of the dependency source and the dependency destination are unique expressions.
In the dependency extracted in the dependency extraction step from the text information, the co-occurrence degree calculation step for calculating the co-occurrence degree for the combination of the dependencies, and the co-occurrence degree calculation step.
A co-occurrence extraction step that extracts a combination of dependencies based on the degree of co-occurrence,
To execute,
In the dependency extraction step, in the extracted dependency, the first word, the second word, the third word, and the fourth word are unique expressions, and the first word is the dependency source. There is a dependency of the third word as a dependency, a dependency of the second word as a dependency source, and a dependency of the fourth word as a dependency, and the first word. When the compound word of the second word and the second word is a proper expression, the third dependency with the compound word as the dependency source and the third word as the dependency destination, and the compound word are involved. A program that adds and extends the fourth dependency, which is the receiver and the dependency destination is the fourth word , to the extracted dependency .
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行し、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
方法。 A method for causing a computer equipped with a processor to perform processing, wherein the processor is capable of performing processing.
The text information acquisition step to acquire text information and
A named entity extraction step that extracts a named entity from the text information and assigns a tag to it.
A dependency extraction step of analyzing a dependency from the text information and extracting a dependency for which one or both of the dependency source and the dependency destination are unique expressions.
In the dependency extracted in the dependency extraction step from the text information, the co-occurrence degree calculation step for calculating the co-occurrence degree for the combination of the dependencies, and the co-occurrence degree calculation step.
A co-occurrence extraction step that extracts a combination of dependencies based on the degree of co-occurrence,
And run
In the dependency extraction step, in the extracted dependency, the first word, the second word, the third word, and the fourth word are unique expressions, and the first word is the dependency source. There is a dependency of the third word as a dependency, a dependency of the second word as a dependency source, and a dependency of the fourth word as a dependency, and the first word. When the compound word of the second word and the second word is a proper expression, the third dependency with the compound word as the dependency source and the third word as the dependency destination, and the compound word are involved. The fourth dependency, which is the receiver and the dependency destination is the fourth word, is expanded by adding it to the extracted dependency.
Method.
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行し、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
情報解析装置。
An information analysis device including a control unit, wherein the control unit
The text information acquisition step to acquire text information and
A named entity extraction step that extracts a named entity from the text information and assigns a tag to it.
A dependency extraction step of analyzing a dependency from the text information and extracting a dependency for which one or both of the dependency source and the dependency destination are unique expressions.
In the dependency extracted in the dependency extraction step from the text information, the co-occurrence degree calculation step for calculating the co-occurrence degree for the combination of the dependencies, and the co-occurrence degree calculation step.
A co-occurrence extraction step that extracts a combination of dependencies based on the degree of co-occurrence,
And run
In the dependency extraction step, in the extracted dependency, the first word, the second word, the third word, and the fourth word are unique expressions, and the first word is the dependency source. There is a dependency of the third word as a dependency, a dependency of the second word as a dependency source, and a dependency of the fourth word as a dependency, and the first word. When the compound word of the second word and the second word is a proper expression, the third dependency with the compound word as the dependency source and the third word as the dependency destination, and the compound word are involved. The fourth dependency, which is the receiver and the dependency destination is the fourth word, is expanded by adding it to the extracted dependency.
Information analysis device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021013489A JP7032582B1 (en) | 2021-01-29 | 2021-01-29 | Information analysis program, information analysis method and information analysis device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021013489A JP7032582B1 (en) | 2021-01-29 | 2021-01-29 | Information analysis program, information analysis method and information analysis device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7032582B1 true JP7032582B1 (en) | 2022-03-08 |
JP2022117019A JP2022117019A (en) | 2022-08-10 |
Family
ID=81212839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021013489A Active JP7032582B1 (en) | 2021-01-29 | 2021-01-29 | Information analysis program, information analysis method and information analysis device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7032582B1 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133492A (en) * | 2005-11-08 | 2007-05-31 | Oki Electric Ind Co Ltd | Modification extraction device, method and program |
JP2008225560A (en) * | 2007-03-08 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Device and method for extracting set of interrelated unique expression |
WO2009123260A1 (en) * | 2008-04-01 | 2009-10-08 | 日本電気株式会社 | Cooccurrence dictionary creating system and scoring system |
JP2009282903A (en) * | 2008-05-26 | 2009-12-03 | Nippon Telegr & Teleph Corp <Ntt> | Knowledge extraction/search apparatus and method thereof |
JP2012068755A (en) * | 2010-09-21 | 2012-04-05 | Nomura Research Institute Ltd | Retrieval system and retrieval program |
JP2017078976A (en) * | 2015-10-21 | 2017-04-27 | ダイキン工業株式会社 | Product retrieval device |
-
2021
- 2021-01-29 JP JP2021013489A patent/JP7032582B1/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133492A (en) * | 2005-11-08 | 2007-05-31 | Oki Electric Ind Co Ltd | Modification extraction device, method and program |
JP2008225560A (en) * | 2007-03-08 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Device and method for extracting set of interrelated unique expression |
WO2009123260A1 (en) * | 2008-04-01 | 2009-10-08 | 日本電気株式会社 | Cooccurrence dictionary creating system and scoring system |
JP2009282903A (en) * | 2008-05-26 | 2009-12-03 | Nippon Telegr & Teleph Corp <Ntt> | Knowledge extraction/search apparatus and method thereof |
JP2012068755A (en) * | 2010-09-21 | 2012-04-05 | Nomura Research Institute Ltd | Retrieval system and retrieval program |
JP2017078976A (en) * | 2015-10-21 | 2017-04-27 | ダイキン工業株式会社 | Product retrieval device |
Also Published As
Publication number | Publication date |
---|---|
JP2022117019A (en) | 2022-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649786B (en) | Answer retrieval method and device based on deep question answering | |
US10089296B2 (en) | System and method for sentiment lexicon expansion | |
EP3683695A1 (en) | Synonym dictionary creation device, synonym dictionary creation program, and synonym dictionary creation method | |
KR20170134191A (en) | Software domain topics extraction system using PageRank and topic modeling | |
Quasthoff et al. | Building large resources for text mining: The Leipzig Corpora Collection | |
WO2014000764A1 (en) | A system and method for automatic generation of a reference utility | |
CN110968664A (en) | Document retrieval method, device, equipment and medium | |
JP4979637B2 (en) | Compound word break estimation device, method, and program for estimating compound word break position | |
Zanuz et al. | Fostering judiciary applications with new fine-tuned models for legal named entity recognition in portuguese | |
JP7032582B1 (en) | Information analysis program, information analysis method and information analysis device | |
Pettersson et al. | HistSearch-Implementation and Evaluation of a Web-based Tool for Automatic Information Extraction from Historical Text. | |
WO2014064777A1 (en) | Document evaluation assistance system and document evaluation assistance method | |
Hashfi et al. | Sentiment Analysis of An Internet Provider Company Based on Twitter Using Support Vector Machine and Naïve Bayes Method | |
CN110516157A (en) | A kind of document retrieval method, equipment and storage medium | |
KR101983477B1 (en) | Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification | |
US11182561B2 (en) | Data analyzer and data analysis method | |
Teich et al. | Scientific registers and disciplinary diversification: a comparable corpus approach | |
Marshman et al. | Portability of cause–effect relation markers across specialised domains and text genres: a comparative evaluation | |
Roslan et al. | Biodiversity Knowledge Retrieval Application Using Natural Language Processing Technique | |
JP2011070541A (en) | Method and device for supporting internet marketing | |
CN112711695A (en) | Content-based search suggestion generation method and device | |
JP5614687B2 (en) | Information analysis device for analyzing time-series text data including time-series information and text information | |
Vo et al. | VietSentiLex: a sentiment dictionary that considers the polarity of ambiguous sentiment words | |
US20200226219A1 (en) | Text display with visual distinctions per class | |
JP5187187B2 (en) | Experience information search system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210201 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210201 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7032582 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |