JP2022117019A - Information analysis program, information analysis method, and information analysis device - Google Patents

Information analysis program, information analysis method, and information analysis device Download PDF

Info

Publication number
JP2022117019A
JP2022117019A JP2021013489A JP2021013489A JP2022117019A JP 2022117019 A JP2022117019 A JP 2022117019A JP 2021013489 A JP2021013489 A JP 2021013489A JP 2021013489 A JP2021013489 A JP 2021013489A JP 2022117019 A JP2022117019 A JP 2022117019A
Authority
JP
Japan
Prior art keywords
dependency
occurrence
dependencies
extracting
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021013489A
Other languages
Japanese (ja)
Other versions
JP7032582B1 (en
Inventor
智大 磯
Tomohiro Iso
春樹 横山
Haruki Yokoyama
昌也 近藤
Masaya Kondo
耕也 大橋
Koya Ohashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kpmg Consulting Co Ltd
Original Assignee
Kpmg Consulting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kpmg Consulting Co Ltd filed Critical Kpmg Consulting Co Ltd
Priority to JP2021013489A priority Critical patent/JP7032582B1/en
Application granted granted Critical
Publication of JP7032582B1 publication Critical patent/JP7032582B1/en
Publication of JP2022117019A publication Critical patent/JP2022117019A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To analyze the correspondence of keywords corresponding to technical words or the like by analyzing a causal relation of sentences after extracting unique expressions.SOLUTION: An information analysis program is a program that causes a processor to execute: a text information acquisition step of acquiring text information; a unique expression extraction step of extracting unique expressions from the text information and giving tags; a dependency extracting step of analyzing dependencies from the text information and extracting dependencies in which one or both of a dependency source or a dependency destination are unique expressions; a co-occurrence degree calculation step of calculating degree of co-occurrence for combinations of dependencies in the dependencies extracted from the text information in the dependency extraction step; and a co-occurrence extraction step of extracting a combination of dependencies based on the degree of co-occurrence.SELECTED DRAWING: Figure 2

Description

本開示は、テキストデータから固有表現の関連性を解析する情報解析プログラム、情報解析方法及び情報解析装置に関する。 The present disclosure relates to an information analysis program, an information analysis method, and an information analysis apparatus for analyzing relationships between named entities from text data.

近年の自然後処理技術及び機械学習技術の進歩に伴い、テキストデータをコンピュータが自動的に解析する方法が提案されている。例えば、テキストデータの因果関係を解析することができれば、大量の文献データの中から、当該文献の主要な主張点などを解析することで、効率的に知識を体系化することが可能となる。 With recent advances in natural post-processing technology and machine learning technology, methods for automatically analyzing text data by computers have been proposed. For example, if it is possible to analyze the causal relationship of text data, it will be possible to efficiently systematize knowledge by analyzing the main points of contention of the literature from among a large amount of literature data.

例えば、特許文献1では、自然言語処理を用いて、因果関係を幅広く解析するための方法を提案している。 For example, Patent Literature 1 proposes a method for broadly analyzing causal relationships using natural language processing.

特開平8-221415号JP-A-8-221415

しかし、特許文献1に開示された方法は、単に因果関係について解析するのみであって、目的と手段、あるいは、方法と効果など、その他の対応関係にまで適用することには触れられていない。 However, the method disclosed in Patent Document 1 merely analyzes the causal relationship, and does not mention the application to other corresponding relationships such as purpose and means or method and effect.

例えば、専門技術に関する文献を解析する場面などにおいては、原因・結果という因果関係の解析のみではなく、ある事象と、その事象を裏付けるための実験、試験、検査、根拠などの分析方法といった関係が解析できると、当該文献を体系化するに際して、より本質的な要素を抽出することが可能となる。 For example, in the case of analyzing documents related to specialized technology, not only the analysis of causal relationships such as cause and effect, but also the relationship between a certain event and the analysis method of experiments, tests, inspections, grounds, etc. to support the event. If it can be analyzed, it becomes possible to extract more essential elements when systematizing the literature.

そこで、本開示では、因果関係の解析に際して、固有表現を抽出した上で、係り受けを抽出することで、キーワードを含んだ係り受けを抽出する。さらに、本開示では、係り受けの共起関係を抽出することにより、より精度の高い因果関係を解析し、また、因果関係の解析に留まらず、ある事象とその分析方法の関係など、様々な単語間の関係を解析することを目的とする。 Therefore, in the present disclosure, when analyzing the causal relationship, the named entity is extracted and then the dependency is extracted, thereby extracting the dependency including the keyword. Furthermore, in the present disclosure, by extracting co-occurrence relationships of dependencies, more accurate causal relationships can be analyzed. The purpose is to analyze the relationship between words.

プロセッサとメモリとを備えるコンピュータに実行させるためのプログラムである。プログラムは、プロセッサに、テキスト情報を取得するテキスト情報取得ステップと、テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、テキスト情報から、係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、共起度に基づいて係り受けの組合せを抽出する共起抽出ステップとを実行させるプログラムである。 A program to be executed by a computer having a processor and memory. The program provides the processor with a text information acquisition step of acquiring text information, a named entity extraction step of extracting a named entity from the text information and adding a tag, analyzing a dependency from the text information, A dependency extracting step of extracting a dependency in which one or both of the dependency destinations are unique expressions, and calculating the co-occurrence degree for a combination of dependencies in the dependency extracted in the dependency extracting step from the text information. A program for executing a co-occurrence degree calculation step and a co-occurrence extraction step of extracting a combination of dependencies based on the co-occurrence degree.

本開示によれば、自然言語処理を用いて、固有名詞、専門用語などを含むテキストデータに対しても、精度よく因果関係を解析することが可能となる。加えて、因果関係の解析に留まらず、ある事象とその分析方法の関係など、ユーザが所望する様々な単語間の関係を解析することが可能となる。 According to the present disclosure, using natural language processing, it is possible to accurately analyze causality even for text data including proper nouns, technical terms, and the like. In addition, it is possible to analyze not only the causal relationship but also the relationship between various words desired by the user, such as the relationship between a certain event and its analysis method.

本開示の実施形態1のサーバの全体構成を示す図である。1 is a diagram showing the overall configuration of a server according to Embodiment 1 of the present disclosure; FIG. 本開示の実施形態1に係るサーバ構成の一例を示す図である。1 is a diagram illustrating an example of a server configuration according to Embodiment 1 of the present disclosure; FIG. 固有表現抽出の具体例を示す図である。It is a figure which shows the specific example of named-entity extraction. 係り受けを解析する具体例を示す図である。It is a figure which shows the specific example which analyzes a dependency. 固有表現の情報を用いた係り受け解析の具体例を示す図である。FIG. 10 is a diagram showing a specific example of dependency analysis using information on named entities; 科学技術用語を含む文の具体例を示す図である。It is a figure which shows the specific example of the sentence containing a technical term. 固有表現抽出の具体例を示す図である。It is a figure which shows the specific example of named-entity extraction. 係り受けを解析する具体例を示す図である。It is a figure which shows the specific example which analyzes a dependency. 係り受けとして最終的に抽出された具体例を示す図である。It is a figure which shows the specific example finally extracted as a dependency. 情報解析装置における実施形態1の処理の流れの一例を示すフローチャートである。4 is a flow chart showing an example of the flow of processing according to the first embodiment in the information analysis device; 本開示の実施形態2に係る情報解析装置の構成の一例を示す図であるャートである。FIG. 11 is a chart showing an example of a configuration of an information analysis device according to Embodiment 2 of the present disclosure; FIG. 表示部において係り受けを表示した具体例を示す図である。It is a figure which shows the specific example which displayed the modification in the display part. 表示部において階層構造に着目して係り受けを表示した具体例を示す図である。It is a figure which shows the specific example which paid its attention to the hierarchical structure and displayed the dependency on the display part. 情報解析装置における実施形態2の処理の流れの一例を示すフローチャートである。10 is a flow chart showing an example of the flow of processing in the information analysis device according to the second embodiment; ネットワークを介した情報解析装置の具体例を示す図である。It is a figure which shows the specific example of the information-analysis apparatus via a network.

以下、本開示の実施形態に係る情報解析装置、情報解析方法及び情報解析プログラムを、図面を参照しながら説明する。なお、以下に説明する実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。また、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。 Hereinafter, an information analysis device, an information analysis method, and an information analysis program according to embodiments of the present disclosure will be described with reference to the drawings. It should be noted that the embodiments described below do not unduly limit the content of the present disclosure described in the claims. Moreover, not all the configurations described in the embodiments are essential constituent elements of the present disclosure. Further, in all the drawings for explaining the embodiments, common constituent elements are given the same reference numerals, and repeated explanations are omitted.

<実施形態1>
実施形態1では、テキスト情報を取得して分析し、固有表現を抽出した上で、固有表現の係り受けと共起関係を分析し、任意の固有表現ごとに、共起度を算出する。
<Embodiment 1>
In the first embodiment, after acquiring and analyzing text information and extracting named entities, the dependencies and co-occurrence relationships of named entities are analyzed, and the degree of co-occurrence is calculated for each named entity.

<全体構成>
図1は、本実施形態のサーバ10の全体構成を示す図である。サーバ10は、汎用のコンピュータである。サーバ10は、例えば、据え置き型のPC(Personal Computer)、ラップトップPC等により実現される。また、サーバ10は、スマートフォン、又はタブレット端末などの携行性を備えたコンピュータであってもよい。
<Overall composition>
FIG. 1 is a diagram showing the overall configuration of a server 10 of this embodiment. Server 10 is a general-purpose computer. The server 10 is implemented by, for example, a stationary PC (Personal Computer), a laptop PC, or the like. Also, the server 10 may be a portable computer such as a smart phone or a tablet terminal.

図1に示すように、サーバ10は、プロセッサ11、メモリ12、ストレージ13、通信IF14、入出力IF15とを備える。 As shown in FIG. 1, the server 10 includes a processor 11, a memory 12, a storage 13, a communication IF 14, and an input/output IF 15.

プロセッサ11は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。メモリ12は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリにより実現される。ストレージ13は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)により実現される。通信IF14は、サーバ10が外部の装置と通信するため、信号を送受信するためのインタフェースである。入出力IF15は、ユーザからの入力を受け付けるための入力装置、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。 The processor 11 is hardware for executing an instruction set described in a program, and is composed of an arithmetic unit, registers, peripheral circuits, and the like. The memory 12 is for temporarily storing programs, data processed by the programs, etc., and is realized by a volatile memory such as a DRAM (Dynamic Random Access Memory). The storage 13 is a storage device for storing data, and is implemented by, for example, flash memory or HDD (Hard Disc Drive). The communication IF 14 is an interface for transmitting and receiving signals so that the server 10 communicates with an external device. The input/output IF 15 functions as an interface with an input device for receiving input from the user and an output device for presenting information to the user.

<サーバの構成>
以下、サーバ10の構成を詳細に説明する。図2に示すように、本実施形態に係るサーバ10は、通信部101、記憶部102、制御部103とを備える。通信部101は、サーバ10が他の装置と通信するための処理を行う。通信部101は、制御部103で生成された信号に送信処理を施し、外部へ送信する。通信部101は、外部から受信した信号に受信処理を施し、制御部103へ出力する。
<Server configuration>
The configuration of the server 10 will be described in detail below. As shown in FIG. 2 , the server 10 according to this embodiment includes a communication section 101 , a storage section 102 and a control section 103 . The communication unit 101 performs processing for the server 10 to communicate with other devices. The communication unit 101 performs transmission processing on the signal generated by the control unit 103 and transmits the signal to the outside. The communication unit 101 performs reception processing on a signal received from the outside and outputs the signal to the control unit 103 .

記憶部102は、例えばフラッシュメモリ等により構成され、サーバ10が使用するデータ、及びプログラムを記憶する。 The storage unit 102 is configured by, for example, a flash memory or the like, and stores data and programs used by the server 10 .

制御部103は、プロセッサ11が記憶部102に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部103は、サーバ10の動作を制御する。具体的には、例えば、制御部103は、テキスト情報取得部1031と、固有表現抽出部1032と、係り受け抽出部1033と、共起度算出部1034と、共起抽出部1035としての機能を発揮する。 The control unit 103 is implemented by the processor 11 reading a program stored in the storage unit 102 and executing instructions included in the program. The control unit 103 controls operations of the server 10 . Specifically, for example, the control unit 103 functions as a text information acquisition unit 1031, a named entity extraction unit 1032, a dependency extraction unit 1033, a co-occurrence calculation unit 1034, and a co-occurrence extraction unit 1035. Demonstrate.

以下、サーバ10の制御部103における機能的な構成について説明する。 A functional configuration of the control unit 103 of the server 10 will be described below.

テキスト情報取得部1031は、解析対象とするテキストデータを取得する。解析対象とするテキストデータは、複数の文からなるテキストデータが想定される。また、テキスト情報取得部1031は、必ずしもテキストデータそのものを取得すること限られず、文書の画像データを取得した上で、OCR(Optical Character Recognition)などにより、テキスト化してもよい。 The text information acquisition unit 1031 acquires text data to be analyzed. The text data to be analyzed is assumed to be text data consisting of a plurality of sentences. Further, the text information acquisition unit 1031 does not necessarily acquire the text data itself, and may acquire the image data of the document and convert it into text by OCR (Optical Character Recognition) or the like.

テキスト情報取得部1031は、入出力インタフェース15を介して、USB(Universal Serial Bus)メモリ、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、HDD等のコンピュータ読み取り可能な記録媒体からテキストデータを取得してもよい。 The text information acquisition unit 1031 is connected via the input/output interface 15 to computer-readable recording such as USB (Universal Serial Bus) memory, CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), and HDD. Text data may be obtained from the medium.

テキスト情報取得部1031は、有線通信又は無線通信を行うためのNIC(Network Interface Card controller)を備える通信IF15を介して、ネットワーク上からテキストデータを取得してもよい。 The text information acquisition unit 1031 may acquire text data from the network via the communication IF 15 including a NIC (Network Interface Card controller) for performing wired or wireless communication.

固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する。 The named entity extracting unit 1032 extracts named entities from the text data acquired by the text information acquiring unit 1031 and attaches tags to them.

固有表現とは、データから情報抽出を行う際にキー要素となる表現である。固有表現は、人名、地名、組織名、商品名などの固有名詞、数量、金額、パーセンテージなどの数値表現、日付、時間などの時間表現などを含む。また、固有表現は、特定の物質、構造、機能、処理方法、分析方法、専門用語などを含めてもよい。なお、固有表現は、あらゆる表現の中から、予めその範囲を定義してよい。 A named entity is a key element in extracting information from data. The named entity includes proper nouns such as personal names, place names, organization names, and product names, numerical expressions such as quantities, amounts, and percentages, and time expressions such as dates and times. A named entity may also include a particular substance, structure, function, processing method, analytical method, terminology, and the like. Note that the range of specific expressions may be defined in advance from all expressions.

タグは、固有表現を分類するための識別情報を示すものである。タグは、例えば、「人名」、「地名」などの固有名詞を表すタグ、「数量」、「日付」、「時間」など数値表現を表すタグなどを用意し、固有表現に対して付与してもよい。 A tag indicates identification information for classifying a named entity. For example, tags representing proper nouns such as "person's name" and "place name", and tags representing numerical expressions such as "quantity", "date" and "time" are prepared and attached to specific expressions. good too.

また、タグは、専門的な文献、自然科学分野の文献の解析を行うことを目的として、「事象」を示す事象タグ、事象に対する「分析方法」を示す分析タグなどのタグを用意してもよい。タグは、予め複数のものを用意しておく。 In addition, for the purpose of analyzing technical documents and documents in the natural science field, tags such as event tags that indicate "events" and analysis tags that indicate "analysis methods" for events may be prepared. good. Prepare a plurality of tags in advance.

さらに、タグは、階層構造を持たせて定義してもよい。 Furthermore, tags may be defined with a hierarchical structure.

例えば、論文などの専門的な文献、特に自然科学分野の文献では、仮説、状態、結果などある「事象」に対して、その裏付けとなる実験、試験、検査、根拠などの「分析方法」が示されることが想定される。そして、「事象」では、「AがBである」というように、「対象が状態である」といった形で示されることが想定される。また、「分析方法」では、事象を裏付けるために、「AがBである」というように、「試験等により結果となった」といった形で示されることが想定される。 For example, in professional literature such as papers, especially in the field of natural science, there are “analytical methods” such as experiments, tests, inspections, and grounds that support certain “events” such as hypotheses, states, and results. is assumed to be shown. It is assumed that the "event" is indicated in the form of "the object is the state", such as "A is B". In addition, it is assumed that the "analytical method" is indicated in the form of "results obtained by tests, etc.", such as "A is B" in order to support the event.

上記を踏まえ、例えば、タグは、「事象:対象」、「事象:状態」、「分析:試験方法」、「分析:試験結果」などのように、階層構造を持たせて定義してもよい。なお、この場合、「事象」及び「分析」が上位概念であり、「対象」及び「試験方法」が下位概念として階層構造をもつタグとして定義される。 Based on the above, for example, tags may be defined with a hierarchical structure such as "event: target", "event: state", "analysis: test method", "analysis: test result", etc. . In this case, "event" and "analysis" are defined as superordinate concepts, and "object" and "test method" are defined as tags having a hierarchical structure as subordinate concepts.

固有表現抽出部1032は、固有表現抽出の方法として、固有表現を表す辞書を予め用意しておき、当該辞書を用いて、入力された文から固有表現を抽出し、タグ付けを行ってもよい。 As a method of extracting named entities, the named entity extraction unit 1032 may prepare a dictionary representing named entities in advance, use the dictionary to extract named entities from an input sentence, and tag them. .

固有表現抽出部1032は、固有表現抽出の方法として、一般的に知られているNER(Named Entity Recognition)などの方法を用いてよい。また、固有表現抽出部1032は、学習用データを用いて、機械学習による固有表現抽出用のモデルを作成した上で、固有表現の抽出を行ってもよい。 The named entity extraction unit 1032 may use a commonly known method such as NER (Named Entity Recognition) as a named entity extraction method. Also, the named entity extraction unit 1032 may extract named entities after creating a model for named entity extraction by machine learning using learning data.

一般的なNERでは、抽出対象とする固有表現は、固有名詞及び数値表現などである。したがって、固有表現として、これ以外の表現、例えば、事象及び分析方法などを抽出したい場合には、抽出対象としたい表現を対象とした学習用のデータを用意した上で、固有表現抽出用のモデルを作成する。 In a general NER, proper nouns, numerical expressions, and the like are the named entities to be extracted. Therefore, if you want to extract expressions other than this as named entities, such as events and analysis methods, prepare training data for the expressions you want to extract, and then create a model for extracting named entities. to create

例えば、固有表現抽出部1032は、予め用意したテキストデータに対し、予め定義したタグを付した学習用データを用意し、これらを用いて、固有表現抽出のための機械学習用のモデルを用意しておく。そして、テキスト情報取得部1031が取得した分析対象とするテキストデータを形態素解析した上で、作成したモデルを用いてNERの方法を用いる。これにより、固有表現抽出部1032は、固有表現を抽出した上で、抽出された固有表現に対して予め定義したタグのいずれかを付与する。 For example, the named entity extraction unit 1032 prepares learning data with predefined tags attached to text data prepared in advance, and uses these data to prepare a model for machine learning for named entity extraction. Keep After morphologically analyzing the text data to be analyzed acquired by the text information acquiring unit 1031, the NER method is used using the created model. As a result, the named entity extracting unit 1032 extracts the named entity and attaches one of the predefined tags to the extracted named entity.

固有表現抽出部1032において、固有表現を抽出し、タグ付けしておくことで、テキスト情報取得部1031で取得したテキストデータの中から、特に意味をもつ可能性の高い単語をタグ付けし、予め抽出することが可能となる。 The named entity extracting unit 1032 extracts and tags named entities, so that the text data acquired by the text information acquiring unit 1031 is tagged with words that are highly likely to have a particular meaning. It is possible to extract

係り受け抽出部1033は、係り受けを抽出する。これには、一般的に用いられている係り受け解析器を用いてよい。 The dependency extraction unit 1033 extracts dependencies. For this, a commonly used dependency analyzer may be used.

係り受けとは、構文解析を行った際に主語と述語、修飾語と被修飾語の関係等をもつ二つの単語のペアの関係をいう。そして、主語と述語であれば、主語が係り受け元、述語が係り受け先となり、修飾語と被修飾語であれば、修飾語が係り受け元、被修飾語が係り受け先となる。このように、係り受けは、係り受け元と係り受け先のペアからなる。 Dependency refers to a relationship between a pair of two words that has a relationship between a subject and a predicate, a modifier and a modified word, etc. when syntactic analysis is performed. In the case of a subject and a predicate, the subject is the source of the dependency and the predicate is the destination of the dependency. Thus, a dependency consists of a dependency source and dependency target pair.

一般的な係り受け解析器では、主語と述語の関係、修飾語と被修飾語の関係を係り受けとして抽出する。係り受け抽出部1033は、これらの双方又はどちらか一方を係り受けとして抽出してよい。 A general dependency analyzer extracts relationships between subjects and predicates and relationships between modifiers and modified words as dependencies. The dependency extracting unit 1033 may extract both or either one of them as a dependency.

また、一般的に用いられている係り受け解析の方法として、「~なので」「~によって」などの手がかり表現を解析し、その前後のキーワードに着目して係り受け抽出を行う方法もある。係り受け抽出部1033は、手がかり表現を用いて、及び/又は主語・述語の関係、修飾語・被修飾語の関係を用いて抽出を行ってもよい。 In addition, as a method of dependency analysis that is generally used, there is also a method of analyzing clue expressions such as "because of" and "because of" and extracting dependencies by focusing on the keywords before and after it. The dependency extracting unit 1033 may perform extraction using clue expressions and/or using subject/predicate relationships and modifier/modified word relationships.

また、一般的な係り受け抽出を行う場合において、W1、W2、W1W2(例えば、W1は「精密」、W2は「機械」、W1W2は「精密機械」など)が固有表現であるとき、W1-W2が係り受けとして抽出されることがある。このとき、名詞句が係り受けとして抽出された場合には、名詞句のさらに先を探索して係り受け先を解析し、W1-W3などの係り受けを抽出してもよい。なお、ここでいう名詞句とは、複数の語からなり、全体として一つの名詞と同じはらたきをするものをいう。 Also, in the case of general dependency extraction, when W1, W2, W1W2 (for example, W1 is "precision", W2 is "machine", W1W2 is "precision machine", etc.) are named entities, W1- W2 may be extracted as a dependency. At this time, if a noun phrase is extracted as a dependency, the noun phrase may be searched further to analyze the dependency destination, and a dependency such as W1-W3 may be extracted. The term "noun phrase" as used herein refers to a phrase consisting of a plurality of words and having the same function as a single noun as a whole.

係り受け抽出部1033は、テキスト情報取得部1031が取得したテキストデータに対して、係り受けを解析した上で、固有表現抽出部1032によりタグが付された固有表現を含む係り受けを抽出する。このとき、係り受け元と係り受け先の両方が固有表現である係り受けのみを抽出すると、より望ましい。 The dependency extracting unit 1033 analyzes the dependency of the text data acquired by the text information acquiring unit 1031, and then extracts the dependency including the named entity tagged by the named entity extracting unit 1032. FIG. At this time, it is more desirable to extract only dependencies in which both the dependency source and the dependency destination are named entities.

係り受け抽出部1033において、係り受けを抽出することにより、原因と結果、目的と手段、事象と分析方法などのように、何らかの意味をもつ単語間の関係を抽出することが可能となる。 By extracting dependencies in the dependency extracting unit 1033, it is possible to extract relationships between words having some meaning, such as cause and effect, purpose and means, event and analysis method, and the like.

また、固有表現を含む係り受け、特に係り受け元と係り受け先の両方が固有表現である係り受けのみを抽出することにより、そのテキストにおいて特に重要な表現を抽出できる。 Moreover, by extracting only dependencies that include named entities, especially dependencies in which both the source and destination of the dependency are named entities, it is possible to extract particularly important expressions in the text.

係り受け抽出部1033は、抽出された固有表現を含む係り受けに対して、例えば、W1、W2、W3、W4がいずれも固有表現であるときに、第1の語W1を係り受け元とする第1の係り受けW1-W3と、第2の語W2を係り受け元とする第2の係り受けW2-W4との係り受けがあり、かつ、W1W2となる複合語も固有表現であるときに、W1W2-W3、W1W2-W4のように、W1W2となる複合語を係り受け元とし、第1の係り受けの係り受け先の語W3と第2の係り受けの係り受け先の語W4にも係り受けがあるものとして係り受けを追加して拡張してもよい。なお、複合語とは、本来独立した単語が二つ以上結合して新たに一つの単語としての意味、機能をもつようになった語をいう。 For example, when all of W1, W2, W3, and W4 are named entities, the dependency extracting unit 1033 takes the first word W1 as the source of the entity. When there is a dependency between the first dependency W1-W3 and the second dependency W2-W4 whose dependency is the second word W2, and the compound word W1W2 is also a named entity , W1W2-W3, and W1W2-W4, the compound word W1W2 is used as the dependency source, and the first dependency target word W3 and the second dependency target word W4 It may be extended by adding dependencies assuming that there are dependencies. A compound word is a word formed by combining two or more originally independent words to have a new meaning and function as a single word.

なお、係り受け抽出部1033における係り受けの拡張は、二語の複合語に限られず、三語以上の複合語において拡張してもよい。 Note that the expansion of the dependency in the dependency extracting unit 1033 is not limited to compound words of two words, and compound words of three or more words may be expanded.

固有表現における係り受けについては、複合語において、それが分節された固有表現の係り受けを複合語に拡張することにより、そのテキストの中で表現したい内容を適切に把握可能となる。 As for the dependency in the named entity, by expanding the dependency of the named entity into which it is segmented in the compound term, it is possible to appropriately grasp the content to be expressed in the text.

また、係り受け抽出部1033は、固有表現を用いて係り受けを拡張することにより、より上位概念の係り受けを生成することも可能となる。 In addition, the dependency extracting unit 1033 can generate a higher-level dependency by extending the dependency using the named entity.

共起度算出部1034は、係り受け抽出部1033において抽出した係り受けについて、係り受けごとに、当該係り受けが文中に出現する共起関係を解析し、テキスト情報取得部1031で取得したテキストデータ内において、当該係り受けのいずれかが現れる文の数と、当該係り受けの共起が発生する文の数とを解析し、その割合を共起度として算出する。これには、一般的に用いられている例えば、Jaccard係数などの手法を用いてもよい。 The co-occurrence degree calculation unit 1034 analyzes the co-occurrence relation in which the dependency appears in the sentence for each dependency extracted by the dependency extraction unit 1033, and extracts the text data acquired by the text information acquisition unit 1031. The number of sentences in which any of the dependencies appears and the number of sentences in which the co-occurrence of the dependencies is analyzed, and the ratio is calculated as the degree of co-occurrence. For this, a generally used technique such as the Jaccard coefficient may be used.

共起度算出部1034は、例えば、係り受け抽出部1033において、係り受けW1-W2及びW3-W4が抽出されたときに、テキスト情報取得部1031で取得したテキストデータ内から、W1-W2又はW3-W4の係り受けを含む文の数と、W1-W2及びW3-W4の係り受けを含む文との割合を共起度として算出する。 For example, when the dependency extraction unit 1033 extracts dependencies W1-W2 and W3-W4, the co-occurrence calculation unit 1034 extracts W1-W2 or The ratio of the number of sentences including W3-W4 dependencies and the sentences including W1-W2 and W3-W4 dependencies is calculated as the degree of co-occurrence.

共起度算出部1034により、係り受けに関する共起度の算出をすることで、共起度の高い係り受けの組合せを分析することが可能となる。 The co-occurrence calculation unit 1034 calculates the degree of co-occurrence of the dependencies, thereby making it possible to analyze combinations of dependencies with a high degree of co-occurrence.

共起抽出部1035は、係り受けに関する共起度に基づいて係り受けの組合せを抽出する。 The co-occurrence extraction unit 1035 extracts combinations of dependencies based on the degree of co-occurrence of dependencies.

共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出してもよい。 For example, the co-occurrence extraction unit 1035 may extract a combination of dependencies having a degree of co-occurrence exceeding a threshold with respect to the degree of co-occurrence for any combination of dependencies calculated by the degree-of-co-occurrence calculation unit 1034. good.

例えば、共起抽出部1035は、閾値をTとして、係り受けKiとKjの共起度をVijとすると、Vij>Tとなる係り受けKiとKjの組合せを抽出してもよい For example, the co-occurrence extraction unit 1035 may extract a combination of dependencies Ki and Kj where Vij>T, where T is the threshold and Vij is the degree of co-occurrence of dependencies Ki and Kj.

共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、選択されたある係り受けを起点として、共起度の高い方から順に指定された数、すなわち上位N個を抽出してもよい。 For example, the co-occurrence extraction unit 1035 extracts the degree of co-occurrence for an arbitrary combination of dependencies calculated by the co-occurrence degree calculation unit 1034, starting from the selected dependency, starting with the highest degree of co-occurrence. The numbers specified in order, that is, the top N items may be extracted.

例えば、係り受けKiとKjの共起度をVijとすると、Kiを起点として、Vijが高いものから上位N件となるKjを抽出してもよい。 For example, if Vij is the degree of co-occurrence of dependencies Ki and Kj, the top N Kj may be extracted from Ki as a starting point in descending order of Vij.

共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、階層関係も含めた特定のタグとの共起度に着目して抽出してもよい。 For example, the co-occurrence extracting unit 1035 focuses on the degree of co-occurrence with a specific tag including hierarchical relationships with respect to the degree of co-occurrence with respect to any combination of dependencies calculated by the co-occurrence calculating unit 1034. may be extracted.

共起抽出部1035により、閾値を超える共起度を有し、又はある係り受けを起点とした上位N個の共起関係を抽出することにより、テキストデータにおいて特に意味のある共起関係の組合せを抽出することが可能となり、大量のテキストデータから特に意味があり重要と推測される関係を抽出することが可能となる。 The co-occurrence extraction unit 1035 extracts the top N co-occurrence relationships that have a degree of co-occurrence exceeding a threshold value or that have a certain dependency as a starting point, thereby extracting combinations of co-occurrence relationships that are particularly meaningful in text data. can be extracted, and it is possible to extract relationships that are particularly meaningful and important from a large amount of text data.

(固有表現抽出部1032における処理の具体例)
以下、固有表現抽出部1032の固有表現抽出の具体例を示す。例えば、図3に示すように、「2006年6月29日、小泉首相は、ワシントンを訪問し、ブッシュ大統領と首脳会談に臨みました。」との一文があり、固有表現タグとして、「人名」、「地名」、「数量」、「日付」、「時間」があるものとする。
(Specific example of processing in named entity extraction unit 1032)
A specific example of named entity extraction by the named entity extraction unit 1032 is shown below. For example, as shown in Figure 3, there is a sentence "On June 29, 2006, Prime Minister Koizumi visited Washington and had a summit meeting with President Bush." , 'place name', 'quantity', 'date', and 'time'.

固有表現抽出部1032は、まず、形態素解析を実施し、形態素の列に分解する。その上で、固有表現抽出部1032は、予め定義した「人名」、「地名」、「数量」、「日付」、「時間」のタグを抽出するための学習モデルを用意する。そして、固有表現抽出部1032は、形態素の列に分解された文に対して、タグ付けをしていく。 The named entity extraction unit 1032 first performs morphological analysis and decomposes into strings of morphemes. In addition, the named entity extraction unit 1032 prepares a learning model for extracting predefined tags of "person's name", "place name", "quantity", "date", and "time". Then, the named entity extraction unit 1032 tags the sentences decomposed into morpheme sequences.

図3の例では、「2006年6月29日」は日付を表し、「小泉」は人名を、「ワシントン」は地名を、「ブッシュ」は人名を表すため、それぞれタグ付けがされる。 In the example of FIG. 3, "June 29, 2006" represents a date, "Koizumi" represents a person's name, "Washington" represents a place name, and "Bush" represents a person's name.

図3に示すように、固有表現抽出部1032は、固有表現となる単語を抽出した上で、タグ付けを行う。これによって、固有表現が予め定義されたタグに該当する単語を抽出し、分類することが可能となる。 As shown in FIG. 3, the named entity extraction unit 1032 performs tagging after extracting words to be named named entities. This makes it possible to extract and classify words corresponding to tags whose unique expressions are defined in advance.

(係り受け抽出部1033の処理の具体例)
係り受け抽出部1033の係り受けの抽出の具体例を示す。図4に示すように、例えば、「システムの停止が発生。」「電源異常の可能性を推察。」との二文があるとする。係り受け抽出部1033は、係り受けを抽出する。このとき、一般的な係り受け解析器を用いて係り受けを解析すると、「システム-停止」、「停止-発生」、「電源-異常」、「電源-可能性」、「異常-可能性」、「異常-推察」、「可能性-推察」の係り受けを抽出することができる。
(Specific example of processing of the dependency extraction unit 1033)
A specific example of dependency extraction by the dependency extraction unit 1033 will be shown. As shown in FIG. 4, for example, assume that there are two sentences, "System shutdown has occurred" and "Possibility of power failure is suspected." The dependency extraction unit 1033 extracts dependencies. At this time, if the dependencies are analyzed using a general dependency analyzer, "system - stop", "stop - occur", "power supply - failure", "power supply - possibility", "abnormality - possibility" , “anomaly-guessed”, and “possible-guessed” dependencies can be extracted.

係り受け抽出部1033は、名詞句があるときは、その先の係り受け先を抽出するため、「電源-異常」の係り受けはスキップされて、「異常-可能性」のみを抽出する。 If there is a noun phrase, the dependency extracting unit 1033 extracts the destination of the previous dependency, skipping the dependency of "power supply-abnormality" and extracting only "abnormality-possibility".

係り受け抽出部1033は、固有表現抽出部1032によって、固有表現として、タグを付した係り受けのみを抽出する。 The dependency extracting unit 1033 extracts only the tagged dependency as a named entity by the named entity extracting unit 1032 .

例えば、固有表現として「性能」「状態」の二種類のタグが存在するとき、図4の文は、図5に示すように、「システム」=性能、「停止」=状態、「発生」=状態、「電源」=性能、「異常」=状態、「可能性」=状態、「推察」=状態といったタグがつけられる。また、「電源異常」という複合語に対しても「電源異常」=状態といったタグがつけられる For example, when there are two types of tags "performance" and "state" as specific expressions, the sentences in FIG. 4 are as shown in FIG. Tags such as status, "power supply"=performance, "abnormality"=status, "possibility"=status, and "speculation"=status are attached. Also, the compound word "power failure" can be tagged as "power failure" = state.

係り受け抽出部1033において、係り受けの双方の単語にタグが付された係り受けのみを抽出すると、いずれも係り受け元、係り受け先ともに固有表現としてのタグが付されているため、「システム-停止」、「停止-発生」、「電源-可能性」、「異常-可能性」、「異常-推察」、「可能性-推察」を抽出する。 When the dependency extracting unit 1033 extracts only the dependency in which both the words of the dependency are tagged, both the source and destination of the dependency are tagged as unique expressions. -Stop", "Stop-Occurrence", "Power Source-Possibility", "Abnormality-Possibility", "Abnormality-Inference", and "Possibility-Inference" are extracted.

さらに、係り受け抽出部1033は、W1-W3、W2-W4の関係があり、W1W2が固有表現であるとき、W1W2-W3、W1W2-W4の係り受けに拡張する。ここでは、W1=「電源」、W2=「異常」の関係があるから、「電源異常-可能性」、「電源異常-推察」が係り受けとして抽出する。 Furthermore, when there are relationships of W1-W3 and W2-W4 and W1W2 is a named entity, the dependency extracting unit 1033 expands the relationships to W1W2-W3 and W1W2-W4. Here, since there is a relationship of W1=“power supply” and W2=“abnormality”, “power supply abnormality-possible” and “power supply abnormality-guess” are extracted as dependencies.

(共起度算出部1034における具体的処理)
共起度算出部1034は、係り受け抽出部1033で抽出された係り受けに対して、共起度を算出する。例えば、係り受け抽出部1033で、W1-W2の係り受けと、W3-W4の係り受けが抽出されたとする。このとき、W1-W2又はW3-W4のいずれか又は両方の係り受けを含む文の数が全部で100文であり、W1-W2及びW3-W4の両方の係り受けを含む文の数が全部で10文あったとき、共起度は、(W1-W2又は/及びW3-W4の係り受けを含む文の数)/(W1―W2及びW3-W4の係り受けを含む文の数)=0.1として算出される。
(Specific processing in co-occurrence calculation unit 1034)
The co-occurrence calculation unit 1034 calculates the co-occurrence degree for the dependencies extracted by the dependency extraction unit 1033 . For example, assume that the dependency extracting unit 1033 has extracted W1-W2 and W3-W4 dependencies. At this time, the total number of sentences including either or both of W1-W2 and W3-W4 dependencies is 100, and the total number of sentences including both W1-W2 and W3-W4 dependencies is 100. , the degree of co-occurrence is (number of sentences including W1-W2 or/and W3-W4 dependencies)/(number of sentences including W1-W2 and W3-W4 dependencies) = Calculated as 0.1.

(共起抽出部1035における具体的処理)
共起抽出部1035は、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出する。
(Specific processing in co-occurrence extraction unit 1035)
The co-occurrence extraction unit 1035 extracts a combination of dependencies having a degree of co-occurrence exceeding a threshold with respect to the co-occurrence degree for any combination of dependencies calculated by the co-occurrence calculation unit 1034 .

例えば、係り受けK1,K2,K3があったとき、共起度算出部1034により、K1・K2の共起度は0.5、K1・K3は0.1、K2・K3は0.2と算出され、閾値を0.3として定めると、共起抽出部1035は、閾値を超える共起度を有するK1-K2の共起関係を抽出する。 For example, when there are dependencies K1, K2, and K3, the degree of co-occurrence calculator 1034 determines that the degree of co-occurrence of K1 and K2 is 0.5, that of K1 and K3 is 0.1, and that of K2 and K3 is 0.2. After the calculation and setting the threshold as 0.3, the co-occurrence extracting unit 1035 extracts the co-occurrence relation of K1-K2 having a degree of co-occurrence exceeding the threshold.

(変形例1:)
以下、係り受けの共起のみでなく、係り受けと単語の共起、又は単語の共起についても抽出を行う変形例を示す。
(Modification 1:)
Hereinafter, a modified example in which not only the co-occurrence of dependencies but also the co-occurrence of dependencies and words or the co-occurrence of words is extracted will be described.

共起度算出部1034は、係り受け抽出部1033で抽出した係り受けが共起する割合を共起度として算出することに加え、係り受け抽出部1033で抽出した係り受けと、固有表現抽出部1032で固有表現として抽出した単語との共起度、及び/又は、固有表現抽出部1032で固有表現として抽出した単語同士の共起度を算出する。 The co-occurrence calculation unit 1034 calculates, as a degree of co-occurrence, the rate of co-occurrence of the dependencies extracted by the dependency extraction unit 1033. The degree of co-occurrence with the word extracted as the named entity in 1032 and/or the degree of co-occurrence between the words extracted as named entity by the named entity extraction unit 1032 is calculated.

共起抽出部1035は、共起度算出部1034において算出された任意の係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せにおける共起度に対して、閾値を超える共起度を有する係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せを抽出する。このとき、閾値は、係り受けの組合せ、係り受けと単語の組合せ、単語同士の組合せにおいてそれぞれ別の値を設定してもよい。 The co-occurrence extracting unit 1035 extracts the degree of co-occurrence exceeding a threshold for any combination of dependencies, a combination of a dependency and a word, and/or a combination of words calculated by the co-occurrence calculation unit 1034. Dependency combinations with origins, dependency-word combinations, and/or word-word combinations are extracted. At this time, different threshold values may be set for combinations of dependencies, combinations of dependencies and words, and combinations of words.

共起抽出部1035は、係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せを抽出するに際して、固有表現抽出部1032で付与したタグについて、特定のタグを付与したものに限定して共起関係を抽出してもよい。 When extracting combinations of dependencies, combinations of dependencies and words, and/or combinations of words, the co-occurrence extraction unit 1035 extracts the tags given by the named entity extraction unit 1032 to those given specific tags. A limited co-occurrence relationship may be extracted.

上記のように共起関係を抽出することで、係り受けの共起関係に加えて、係り受けと単語、及び/又は単語の共起も抽出し、分析に役立てることが可能となる。 By extracting co-occurrence relationships as described above, it is possible to extract not only co-occurrence relationships of dependencies but also co-occurrences of dependencies and words and/or words, and use them for analysis.

(変形例2:専門的な文献の解析例)
以下、特に専門的な文献の解析を行う際の変形例を示す。専門的な文献、特に科学技術の分野においては、論文などの文献において、その仮説、結論、主張、状態、性能、性質などの事象と、それを裏付けるための分析方法(実験方法、検査方法)が示されることが多い。したがって、事象と分析方法を抽出することにより、そのテキスト内で重要な点を抽出することができる。そこで、特に固有表現を示すタグとして、「事象」、「分析」の2種類のタグを用意する。なお、「事象」の下位分類として、例えば、「症例」、「部位」があり、「分析」の下位分類として、「検査項目」、「検査結果」があるものとして、「事象:症例」、「事象:部位」、「事象:状態」、「分析:検査項目」、「分析:検査結果」のタグを用意し、以下の説明をする。
(Modification 2: Analysis example of specialized literature)
A modified example for analyzing specialized documents will be shown below. In technical literature, especially in the field of science and technology, phenomena such as hypotheses, conclusions, assertions, states, performances, properties, etc., and analytical methods (experimental methods, inspection methods) to support them in literature such as papers. is often shown. Therefore, by extracting events and analytical methods, important points can be extracted within the text. Therefore, two types of tags, "event" and "analysis", are prepared as tags that particularly indicate specific expressions. Assuming that subclassifications of "event" include, for example, "case" and "site", and subclassifications of "analysis" include "test item" and "test result", "event: case", Prepare tags for "event: site", "event: state", "analysis: inspection item", and "analysis: inspection result" and explain the following.

テキスト情報取得部1031は、例えば、科学技術分野の論稿などをテキストデータとして取得する。そして、その中の例文として、図6に示すように、「眼球結膜に黄染が発生した。黄疸症状の可能性を推察し、血液検査でビリルビンの異常を確認した。」との例文が含まれるものとして具体的な処理を示す。 The text information acquisition unit 1031 acquires, for example, papers in the field of science and technology as text data. As shown in FIG. 6, it includes an example sentence of "yellowing occurred in the bulbar conjunctiva. The possibility of jaundice was suspected, and abnormal bilirubin was confirmed by a blood test." Specific processing is shown as what can be done.

固有表現抽出部1032は、固有表現を取得して、タグ付けを行う。例えば、図6に示す文は、図7に示すように、「眼球」=事象:部位、「結膜」=事象:部位、「黄染」=事象:状態、「発生」=事象:状態、「黄疸」=事象:症例、「症状」=事象:状態、「可能性」=事象:状態、「推察」=事象:状態、「血液」=事象、部位、「検査」=分析:検査項目、「ビリルビン」=分析:検査項目、「異常」=分析:検査結果、「確認」=事象:状態として固有表現を抽出し、タグ付けを行う。 The named entity extraction unit 1032 acquires named entities and tags them. For example, the sentence shown in FIG. 6 is, as shown in FIG. Jaundice" = Event: Case, "Symptom" = Event: State, "Possibility" = Event: State, "Inference" = Event: State, "Blood" = Event, Site, "Test" = Analysis: Test item, " Bilirubin” = analysis: test item, “abnormality” = analysis: test result, “confirmation” = event: state, and the named entity is extracted and tagged.

さらに、固有表現抽出部1032は、複合語に対しても、「眼球結膜」=事象:部位、「黄疸症状」=事象:症例、「血液検査」=分析:検査項目のようにタグ付けを行う。複合語に対してもタグ付けを行った具体例を示しているのが図8である。 Furthermore, the named entity extracting unit 1032 tags compound words as follows: “bulbar conjunctiva” = event: site, “jaundice symptom” = event: case, “blood test” = analysis: inspection item. . FIG. 8 shows a specific example in which compound words are also tagged.

係り受け抽出部1033は、係り受けの抽出を行う。図7のように固有表現が抽出された文に対して、固有表現を含む係り受けを解析すると、図9左側のようになる。すなわち、「眼球-結膜」、「眼球-黄染」、「結膜-黄染」、「結膜-発生」、「黄染-発生」、「発生-した」、「黄疸-症状」、「黄疸-可能性」、「症状-可能性」、「症状-推察」、「可能性-推察」、「血液-検査」、「血液-異常」、「検査-異常」、「検査-確認」、「ビリルビン-異常」、「ビリルビン-確認」、「異常-確認」、「確認-した」を係り受けとして抽出する。 The dependency extraction unit 1033 extracts dependencies. Analyzing the dependency including the named entity for the sentence from which the named entity is extracted as shown in FIG. 7 results in the left side of FIG. That is, "eye-conjunctiva", "eye-yellowing", "conjunctiva-yellowing", "conjunctiva-occurrence", "yellowing-occurrence", "occurrence-occurred", "jaundice-symptom", "jaundice- Possible", "Symptom-Possible", "Symptom-Inferred", "Possible-Inferred", "Blood-Test", "Blood-Abnormal", "Test-Abnormal", "Test-Confirm", "Bilirubin -abnormal", "bilirubin-confirmed", "abnormal-confirmed", and "confirmed-had" are extracted as dependencies.

係り受け抽出部1033は、名詞句があるときは、さらにその先の係り受けを探索して抽出するため、「眼球-結膜」、「黄疸-症状」、「血液-検査」は抽出されず、図9の右側のような係り受けを抽出する。 If there is a noun phrase, the dependency extracting unit 1033 searches for and extracts further dependencies, so that "eyeball-conjunctiva", "jaundice-symptoms", and "blood-examination" are not extracted. Dependencies such as those on the right side of FIG. 9 are extracted.

係り受け抽出部1033は、さらに、係り受け元及び係り受け先のいずれもが、固有表現抽出部1032によって、固有表現として、タグを付した係り受けのみを抽出する。すなわち、図9右側で丸が付されている「眼球-結膜」、「眼球-黄染」、「結膜-黄染」、「結膜-発生」、「黄染-発生」、「黄疸-症状」、「黄疸-可能性」、「症状-可能性」、「症状-推察」、「可能性-推察」、「血液-検査」、「血液-異常」、「検査-異常」、「検査-確認」、「ビリルビン-異常」、「ビリルビン-確認」、「異常-確認」を係り受けとして抽出する。 Further, the dependency extracting unit 1033 extracts only dependencies tagged as named entities by the named entity extracting unit 1032 for both the dependency source and the dependency destination. That is, "eyeball-conjunctiva", "eyeball-yellowing", "conjunctiva-yellowing", "conjunctiva-occurrence", "yellowing-occurrence", and "jaundice-symptom" circled on the right side of FIG. , "jaundice - probable", "symptom - probable", "symptom - probable", "possible - presumed", "blood - test", "blood - abnormal", "test - abnormal", "test - confirmed , ``bilirubin-abnormal'', ``bilirubin-confirmed'', and ``abnormal-confirmed'' are extracted as dependencies.

係り受け抽出部1033は、W1-W3、W2-W4の関係があり、W1W2が固有表現であるとき、W1W2-W3、W1W2-W4の係り受けに拡張する。例えば、「眼球-黄染」「結膜-黄染」「結膜-発生」は、「眼球結膜-黄染」「眼球結膜-発生」となり、「黄疸-可能性」「症状-可能性」「症状-推察」は「黄疸症状-可能性」「黄疸症状-推察」となり、「血液-異常」「検査-異常」「検査-確認」は「血液検査-異常」「血液検査-確認」となる。すなわち、係り受け抽出部1033は、図7下部右側に示す係り受けを抽出する。 The dependency extracting unit 1033 expands the relationships of W1-W3 and W2-W4 to W1W2-W3 and W1W2-W4 when W1W2 is a named entity. For example, "ocular-yellowing", "conjunctiva-yellowing", "conjunctiva-occurrence" becomes "bulbar conjunctiva-yellowing", "bulbar conjunctiva-occurrence", and "jaundice-probable", "symptom-probable", "symptom - guess" becomes "jaundice-probable" and "jaundice-speculation", and "blood-abnormal", "test-abnormal" and "test-confirm" become "blood test-abnormal" and "blood test-confirm". That is, the dependency extracting unit 1033 extracts the dependency shown on the lower right side of FIG.

共起度算出部1034は、一般的に用いられている例えば、Jaccard係数などの手法を用いて、共起度を算出する。本変形例では、特に、事象に関する観点と、分析に関する観点の二つから共起度を算出する。 The co-occurrence degree calculation unit 1034 calculates the co-occurrence degree using a generally used technique such as the Jaccard coefficient. In this modification, the degree of co-occurrence is calculated particularly from two viewpoints, one regarding events and one regarding analysis.

まず、事象に関する観点では、係り受け元を事象とし、係り受け先も事象とする係り受けについて共起度を抽出する。すなわち、事象に関するW1-W2という係り受けと、W3-W4という係り受けがあるときに、W1-W2及びW3-W4のいずれも含む文の数を、W1-W2及び/又はW3-W4の係り受けがある文の数で割る(除する)ことによって、共起度を算出する。 First, from the viewpoint of events, the degree of co-occurrence is extracted for a dependency whose source is an event and whose destination is also an event. That is, when there is a dependency W1-W2 and a dependency W3-W4 related to an event, the number of sentences containing both W1-W2 and W3-W4 is The degree of co-occurrence is calculated by dividing (dividing) by the number of sentences with uke.

次に、分析に関する観点では、係り受け元と係り受け先のいずれも事象をタグとする係り受けに加え、分析をタグとする単語との組み合わせについて共起度を算出してもよい。つまり、W1-W2の事象タグが付された係り受けとB1の分析タグのワードがあるとき、W1-W2の係り受けとB1を含む文のいずれも含む文の数を、W1-W2の係り受け及び/又はB1のワードを含む文の数で割る(除する)ことによって、共起度を算出する。 Next, from the viewpoint of analysis, the degree of co-occurrence may be calculated for a combination of a word with analysis as a tag, in addition to a dependency with an event as a tag for both the dependency source and the dependency receiver. In other words, when there is a dependency with an event tag of W1-W2 and a word with an analysis tag of B1, the number of sentences containing both the dependency of W1-W2 and the sentence containing B1 is Calculate the degree of co-occurrence by dividing (dividing) by the number of sentences that contain the words of Received and/or B1.

例えば、テキスト中に、W1-W2、W3-W4の事象に関する係り受けと、B1、B2の分析タグが付されたワードがあるとき、(W1-W2,B1)(W1-W2,B2)(W3-W4,B1)(W3-W4,B2)のいずれの組み合せについても共起度を算出する。 For example, if the text has dependencies on events W1-W2 and W3-W4 and words with analysis tags B1 and B2, (W1-W2, B1) (W1-W2, B2) ( The degree of co-occurrence is calculated for any combination of W3-W4, B1) (W3-W4, B2).

共起抽出部1035は、事象の観点、分析の観点それぞれにおいて、共起度が閾値を超える組合せを抽出する。 The co-occurrence extraction unit 1035 extracts combinations whose degree of co-occurrence exceeds a threshold in each of the event viewpoint and analysis viewpoint.

共起抽出部1035は、テキストが階層構造を有するタグが付されている場合、階層関係も含めた特定のタグとの共起度に着目して抽出してもよい。 If the text is tagged with a hierarchical structure, the co-occurrence extracting unit 1035 may extract the text by focusing on the degree of co-occurrence with a specific tag including the hierarchical relationship.

(処理の流れ)
図10は、本開示の実施形態1における情報解析装置の処理の流れを示す。
(Processing flow)
FIG. 10 shows the flow of processing of the information analysis device according to Embodiment 1 of the present disclosure.

テキスト情報取得部1031は、解析対象とするテキストデータを取得する(ステップS1031)。 The text information acquisition unit 1031 acquires text data to be analyzed (step S1031).

固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する(ステップS1032)。なお、タグの種類は予め定めておいてよい。 The named entity extraction unit 1032 extracts named entities from the text data acquired by the text information acquisition unit 1031, and adds tags (step S1032). Note that the type of tag may be determined in advance.

係り受け抽出部1033は、固有表現が抽出されたテキストデータに対して、係り受けを解析する(ステップS1033)。 The dependency extracting unit 1033 analyzes the dependency of the text data from which the named entity has been extracted (step S1033).

係り受けの抽出に際しては、名詞句が係り受けとして抽出された場合に、さらに文の先を探索して、係り受けを抽出してもよい。また、固有表現抽出部1032によって固有表現としてタグ付けされたワードが係り受け元と係り受け先となる関係の係り受けのみを抽出してもよい。 When extracting a dependency, if a noun phrase is extracted as a dependency, the sentence may be further searched to extract the dependency. Alternatively, the named entity extracting unit 1032 may extract only dependencies in which a word tagged as a named entity is a dependency source and a dependency destination.

共起度算出部1034は、抽出された係り受けのワードに対して、共起度を算出する(ステップS1034)。 The co-occurrence degree calculation unit 1034 calculates the degree of co-occurrence for the extracted dependency words (step S1034).

共起抽出部1035は、閾値を超える共起度を有する係り受けの組合せを抽出する(ステップS1035)。 The co-occurrence extraction unit 1035 extracts a combination of dependencies having a degree of co-occurrence exceeding the threshold (step S1035).

(効果)
本実施形態によれば、係り受け解析をする前提として、固有表現を抽出し、固有表現に係る係り受けのみを抽出することにより、より重要な単語、特に科学技術分野においてはキーワードとなる単語の係り受けを抽出することが可能となる。
(effect)
According to this embodiment, as a premise for dependency analysis, named entities are extracted, and only the dependencies related to named entities are extracted. It becomes possible to extract dependencies.

加えて、係り受け及び共起度を算出し、共起度の高い係り受けを抽出することが可能となることにより、取得した文献から、専門用語などを含む内容に対しても、因果関係、及び/又は事象と分析方法の関係などを解析することが可能となる。 In addition, by calculating dependencies and co-occurrence degrees and extracting dependencies with a high degree of co-occurrence, it is possible to extract causal relationships, And/or it becomes possible to analyze the relationship between the event and the analysis method.

<実施形態2>
実施形態2では、取得したテキスト情報に対して行った解析について、ユーザに対して視覚的に表示する機能をさらに備える。
<Embodiment 2>
Embodiment 2 further includes a function of visually displaying to the user the analysis performed on the acquired text information.

<情報解析装置の構成>
図11に本実施形態におけるサーバ20の構成を示す。サーバ20の制御部203は、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035、表示部2036を備える。なお、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035はサーバ10の制御部103と同様である。
<Configuration of information analysis device>
FIG. 11 shows the configuration of the server 20 in this embodiment. The control unit 203 of the server 20 includes a text information acquisition unit 1031 , a named entity extraction unit 1032 , a dependency extraction unit 1033 , a co-occurrence calculation unit 1034 , a co-occurrence extraction unit 1035 and a display unit 2036 . The text information acquisition unit 1031 , named entity extraction unit 1032 , dependency extraction unit 1033 , co-occurrence calculation unit 1034 , and co-occurrence extraction unit 1035 are the same as the control unit 103 of the server 10 .

表示部2036は、共起抽出部1035において解析された係り受けの組合せについて、ユーザに対して視覚的に表現して表示する。具体的には、係り受けのある係り受け元の単語と係り受け先の単語を表示した上で、係り受けを線で結び、ネットワーク図の形で表現してもよい。 The display unit 2036 visually expresses and displays the combination of dependencies analyzed by the co-occurrence extraction unit 1035 to the user. Specifically, after displaying the word of the source of the dependency and the word of the destination of the dependency, the dependencies may be connected by a line and represented in the form of a network diagram.

表示部2036は、事象タグでタグ付けされた単語の係り受け関係と、分析タグでタグ付けされた単語の組合せについて、ユーザに対して視覚的に表現して表示してもよい。 The display unit 2036 may visually represent and display to the user the dependency relationships of the words tagged with the event tags and the combinations of the words tagged with the analysis tags.

表示部2036は、テキスト階層構造を有するタグが付されたときに、階層構造も含めて係り受けの組合せを表示してもよい。 The display unit 2036 may display a combination of dependencies including the hierarchical structure when a tag having a text hierarchical structure is attached.

表示部2036は、共起度の大きさに応じて、ネットワーク図の線の太さを変えたり、色を変えたりすることで表現してもよい。また、表示部2036は、共起度を併せて示してもよい。 The display unit 2036 may express the degree of co-occurrence by changing the line thickness or color of the network diagram. In addition, the display unit 2036 may also display the degree of co-occurrence.

(具体例)
図12に表示部2036が表示する係り受けの視覚的表現の具体例を示す。表示部2036は、係り受け抽出部1033により解析された係り受けについて、例えばネットワーク図の表現を用いて係り受けを視覚的に表現して表示する。図12の例では、事象について、「システム-停止」「電源-可能性」「電源-異常」といった係り受けの組合せ、及び、これらの係り受けと、「部品目視確認」「コンデンサ」「冷却装置」「電圧測定」「テスター」といった分析方法の単語との組み合わせについて、閾値を超える共起度を有するものが線で結ばれて表示されている。なお、図12の例では、事象の係り受け関係を白背景、分析方法の単語を黒背景として表示している。
(Concrete example)
FIG. 12 shows a specific example of a visual representation of the dependency displayed by the display unit 2036. As shown in FIG. The display unit 2036 visually expresses and displays the dependencies analyzed by the dependency extraction unit 1033 using, for example, a network diagram representation. In the example of FIG. 12, for events, combinations of dependencies such as "system-stop", "power supply-possibility", and "power supply-abnormality", and these dependencies, "visual confirmation of parts", "capacitor", "cooling device""","Voltagemeasurement", and "Tester" that have a degree of co-occurrence exceeding the threshold are connected by a line and displayed. In the example of FIG. 12, the dependency relation of the event is displayed with a white background, and the words of the analysis method are displayed with a black background.

表示部2036は、共起抽出部1035がタグの階層構造を考慮して共起関係を抽出するとき、タグの階層構造を考慮して表示してもよい。 When the co-occurrence extracting unit 1035 extracts the co-occurrence relationship in consideration of the hierarchical structure of the tags, the display unit 2036 may display the hierarchical structure of the tags.

例えば、分析方法のタグについて、「分析:原因特定方法」のタグがあり、「部品目視確認」「電圧測定」に付されており、「分析:対象物」のタグがあり、「コンデンサ」「冷却装置」に付されており、「分析:測定機器」のタグがあり、「テスター」に付されているとする。ここで、「分析:原因特定方法」に着目して共起関係を抽出すると、事象における共起関係と、「分析:原因特定方法」の関係が抽出されて図示される。 For example, with regard to analysis method tags, there are tags for "analysis: cause identification method" attached to "visual confirmation of parts" and "voltage measurement", and there are tags for "analysis: object" and tags for "capacitor" and " cooling device", a tag of "analysis: measuring equipment", and a tag of "tester". Here, when the co-occurrence relationship is extracted by focusing on "analysis: cause identification method", the co-occurrence relationship in the event and the relationship between "analysis: cause identification method" are extracted and illustrated.

図13に表示部2036が表示する係り受けについて、「分析:原因特定方法」に着目して共起関係を抽出したときの視覚的表現の具体例を示す。図12と比較すると、着目している共起関係のみが抽出されるため、より関係性の把握がしやすくなる。 FIG. 13 shows a specific example of visual expression when co-occurrence relations are extracted by paying attention to "analysis: method of specifying cause" for the dependency displayed by the display unit 2036. In FIG. Compared to FIG. 12, only the co-occurrence relationship of interest is extracted, making it easier to grasp the relationship.

なお、図13では、「分析:原因特定方法」に着目しているため、係り受けと、かかるタグが付された単語との間の共起関係しか抽出されない。一方で、「コンデンサ」、「冷却装置」、「テスター」は、「部品目視確認」又は「電圧測定」の単語との間で共起関係があるため、それらと結びついて共起関係が抽出され、図示されている。 Note that FIG. 13 focuses on "analysis: cause identification method", so only co-occurrence relationships between dependencies and words tagged with such tags are extracted. On the other hand, since "capacitor", "cooling device", and "tester" have a co-occurrence relationship with the words "visual confirmation of parts" or "voltage measurement", the co-occurrence relationship is extracted by connecting them. , are shown.

表示部2036は、共起度算出部1034で算出された共起度をネットワーク図と合わせて表示してもよい。 The display unit 2036 may display the co-occurrence degree calculated by the co-occurrence degree calculation unit 1034 together with the network diagram.

このように、視覚的な表現を用いることにより、係り受けのみならず、重要なワードの関係をユーザに視覚的に分かりやすく理解させることが可能となる。 In this way, by using visual expressions, it becomes possible for the user to visually understand not only the relationships between dependencies but also the relationships between important words.

(処理の流れ)
図14は、本開示の実施形態2における情報解析装置の処理の流れを示す。
(Processing flow)
FIG. 14 shows the flow of processing of the information analysis device according to the second embodiment of the present disclosure.

テキスト情報取得部1031は、解析対象とするテキストデータを取得する(ステップS1031)。 The text information acquisition unit 1031 acquires text data to be analyzed (step S1031).

固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する(ステップS1032)。なお、タグの種類は予め定めておいてよい。 The named entity extraction unit 1032 extracts named entities from the text data acquired by the text information acquisition unit 1031, and adds tags (step S1032). Note that the type of tag may be determined in advance.

係り受け抽出部1033は、固有表現が抽出されたテキストデータに対して、係り受けを抽出する(ステップS1033)。 The dependency extraction unit 1033 extracts dependencies from the text data from which the named entity has been extracted (step S1033).

係り受けの抽出に際しては、名詞句が係り受けとして抽出された場合に、さらに文の先を探索して、係り受けを抽出してもよい。また、固有表現抽出部1032によって固有表現としてタグ付けされたワードが係り受け元と係り受け先となる関係の係り受けのみを抽出してもよい。 When extracting a dependency, if a noun phrase is extracted as a dependency, the sentence may be further searched to extract the dependency. Alternatively, the named entity extracting unit 1032 may extract only dependencies in which a word tagged as a named entity is a dependency source and a dependency destination.

共起度算出部1034は、抽出された係り受けのワードに対して、共起度を算出する(ステップS1034)。 The co-occurrence degree calculation unit 1034 calculates the degree of co-occurrence for the extracted dependency words (step S1034).

共起抽出部1035は、閾値を超える共起度を有する係り受けの組合せを抽出する(ステップS1035)。 The co-occurrence extraction unit 1035 extracts a combination of dependencies having a degree of co-occurrence exceeding the threshold (step S1035).

表示部2036は、係り受けについて、視覚的表現を用いてユーザに対して表示させる(ステップS2036)。このとき、表示部2036は、共起度を併せて表示し、また、共起度に応じて表示方法を変更させてもよい。 The display unit 2036 displays the dependency to the user using a visual representation (step S2036). At this time, the display unit 2036 may also display the degree of co-occurrence and change the display method according to the degree of co-occurrence.

(効果)
本実施形態によれば、抽出された係り受けについて、共起度なども考慮に入れて表示を行うことが、ユーザが重要なワードを的確に把握するのに資する。
(effect)
According to the present embodiment, displaying extracted dependencies in consideration of the degree of co-occurrence helps the user to accurately grasp important words.

特に専門分野、科学技術などの文献では、専門用語が多いため、これまで一般的に用いられている自然言語の処理方法では重要あるいは意味のあるワードを抽出することが難しかったが、これを的確に抽出した上で表現することが可能となる。 Especially in specialized fields and science and technology literature, there are many technical terms, so it has been difficult to extract important or meaningful words using the natural language processing methods that have been generally used so far. It is possible to express it after extracting it to

以上で実施形態の説明を終了するが、上記実施形態は一例に過ぎない。そのため、サーバ10、20の具体的な構成、処理内容等は上記実施形態で説明したものに限られない。 Although the description of the embodiment is finished above, the above embodiment is merely an example. Therefore, the specific configurations and processing contents of the servers 10 and 20 are not limited to those described in the above embodiment.

本開示に係る情報解析装置は、例えば、スタンドアロンで動作するコンピュータ上に実現されることに留まらず、例えばサーバ型コンピュータとして動作させてもよい。 The information analysis apparatus according to the present disclosure may not only be implemented on a stand-alone computer, but may also operate as a server computer, for example.

例えば、図15に示すように、サーバ10と、ユーザが操作するユーザ端末30とをネットワークを介して接続させ、ユーザ端末30から操作させて、サーバ10に文献を解析させ、その結果をユーザ端末30に表示させてもよい。 For example, as shown in FIG. 15, a server 10 and a user terminal 30 operated by a user are connected via a network, the user terminal 30 is operated to cause the server 10 to analyze the document, and the result is transmitted to the user terminal. 30 may be displayed.

また、本開示に係る情報解析装置は、上記装置によらず、例えば、コンピュータがプログラムを実行することで、その機能を実現してもよい。情報解析装置の機能を実現するためのプログラムは、USB(Universal Serial Bus)メモリ、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、HDD(Hard Disc Drive)等のコンピュータ読み取り可能な記録媒体に記憶されてもよいし、ネットワークを介してコンピュータにダウンロードされてもよい。 Also, the information analysis apparatus according to the present disclosure may realize its functions by executing a program by a computer, for example, without using the above apparatus. The program for realizing the function of the information analysis device can be read from a computer such as USB (Universal Serial Bus) memory, CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), HDD (Hard Disc Drive), etc. It may be stored in a possible recording medium, or may be downloaded to a computer via a network.

以上、本開示の好ましい実施形態について説明したが、本開示は係る特定の実施形態に限定されるものではなく、本開示には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。また、上記実施形態及び変形例で説明した装置の構成は、技術的な矛盾が生じない限り、適宜組み合わせ可能である。 Although the preferred embodiments of the present disclosure have been described above, the present disclosure is not limited to such specific embodiments, and the present disclosure includes the invention described in the claims and their equivalents. be Further, the configurations of the apparatuses described in the above embodiments and modified examples can be appropriately combined as long as there is no technical contradiction.

10,20…サーバ、11…プロセッサ、12…メモリ、13…ストレージ、14…通信IF、15…入出力IF、30…ユーザ端末、101…通信部、102…記憶部、103…制御部、1031…テキスト情報取得部、1032…固有表現抽出部、1033…係り受け抽出部、1034…共起度算出部、1035…共起抽出部、2036…表示部、211…表示部が表示させる具体例

Reference Signs List 10, 20 Server 11 Processor 12 Memory 13 Storage 14 Communication IF 15 Input/output IF 30 User terminal 101 Communication unit 102 Storage unit 103 Control unit 1031 1032 Named entity extraction unit 1033 Dependency extraction unit 1034 Co-occurrence degree calculation unit 1035 Co-occurrence extraction unit 2036 Display unit 211 Specific examples displayed by the display unit

Claims (16)

プロセッサを備えるコンピュータに処理を行わせるプログラムであって、前記プロセッサに、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップとを実行させるプログラム。
A program for causing a computer having a processor to perform processing, the processor comprising:
a text information acquisition step for acquiring text information;
a named entity extraction step of extracting a named entity from the text information and attaching a tag;
a dependency extracting step of analyzing dependencies from the text information and extracting dependencies in which one or both of the dependency source and the dependency receiver are unique expressions;
a co-occurrence degree calculating step of calculating a co-occurrence degree for a combination of dependencies in the dependencies extracted in the dependency extracting step from the text information;
a co-occurrence extracting step of extracting a combination of dependencies based on the degree of co-occurrence.
前記タグは、階層構造をもつタグを含む請求項1に記載のプログラム 2. The program according to claim 1, wherein said tags include tags having a hierarchical structure. 前記固有表現及び前記タグは、少なくとも事象を表す事象タグと事象に対する分析方法表す分析タグとを含む請求項1又は請求項2に記載のプログラム 3. The program according to claim 1, wherein said unique expression and said tag include at least an event tag representing an event and an analysis tag representing an analysis method for the event. 前記固有表現抽出ステップは、固有表現抽出用のモデルを用いて、前記テキスト情報に対して機械学習を用いて固有表現を抽出し、前記タグを付与する請求項1から請求項3のいずれか一項に記載のプログラム。 4. The named entity extraction step extracts a named entity from the text information using a model for entity extraction using machine learning, and attaches the tag to the text information. The program described in Section. 前記係り受け抽出ステップは、修飾語と被修飾語の関係を係り受けとして解析する請求項1から請求項4のいずれか一項に記載のプログラム。 5. The program according to any one of claims 1 to 4, wherein the dependency extraction step analyzes a relationship between a modifier and a modified word as a dependency. 前記係り受け抽出ステップは、修飾語と被修飾語の関係に加え、予め定めた手がかり表現により解析された単語を係り受けとして解析する請求項5に記載のプログラム。 6. The program according to claim 5, wherein said dependency extracting step analyzes a word analyzed by a predetermined clue expression as a dependency in addition to the relationship between modifiers and modified words. 前記係り受け抽出ステップは、名詞句が係り受けとして抽出されたときに、該名詞句のさらに先を探索して係り受け先を抽出する請求項1から請求項6のいずれか一項に記載のプログラム。 7. The dependency extracting step according to any one of claims 1 to 6, wherein when a noun phrase is extracted as a dependency, the noun phrase is further searched to extract a dependency destination. program. 前記係り受け抽出ステップは、第1の語を係り受け元とする第1の係り受けと、第2の語を係り受け元とする第2の係り受けがあり、第1の語と第2の語が複合語を構成するときに、該複合語を係り受け元とし第1の係り受け及び第2の係り受けの係り受け先を係り受け先とする係り受けのそれぞれの係り受けを追加して拡張する請求項1から請求項7のいずれか一項に記載のプログラム。 In the dependency extraction step, there are a first dependency having a first word as a dependency and a second dependency having a second word as a dependency, and the first word and the second word are included. When a word constitutes a compound word, add each of the dependencies whose dependency is the compound word and whose dependencies are the first and second dependencies. A program according to any one of claims 1 to 7, extended. 前記共起度算出ステップは、係り受けの組合せ及び、係り受けと単語の組合せ、及び/又は単語と単語の組合せについて共起度を算出する請求項1から請求項8のいずれか一項に記載のプログラム。 9. The co-occurrence degree calculating step according to any one of claims 1 to 8, wherein the degree of co-occurrence is calculated for combinations of dependencies, combinations of dependencies and words, and/or combinations of words and words. program. 前記共起抽出ステップは、共起度が閾値を超える係り受けの組合せを抽出する請求項1から請求項9のいずれか一項に記載のプログラム 10. The program according to any one of claims 1 to 9, wherein said co-occurrence extracting step extracts a combination of dependencies whose degree of co-occurrence exceeds a threshold. 前記共起抽出ステップは、選択された係り受けとの共起度が高い方から、指定された数の係り受けの組合せを抽出する請求項1から請求項10のいずれか一項に記載のプログラム。 11. The program according to any one of claims 1 to 10, wherein said co-occurrence extracting step extracts a specified number of combinations of dependencies in descending order of degree of co-occurrence with the selected dependency. . 前記タグは、階層構造をもつタグを含み、前記共起抽出ステップは、選択された前記タグとの共起度に応じて係り受けの組合せを抽出する請求項1から請求項11のいずれか一項に記載のプログラム。 12. The tag according to any one of claims 1 to 11, wherein the tags include tags having a hierarchical structure, and the co-occurrence extracting step extracts a combination of dependencies according to the degree of co-occurrence with the selected tag. The program described in Section. 前記共起抽出ステップにより抽出された係り受けの組合せを表示する表示ステップをさらに備える請求項1から請求項12のいずれか一項に記載のプログラム。 13. The program according to any one of claims 1 to 12, further comprising a display step of displaying combinations of dependencies extracted by said co-occurrence extraction step. 前記表示ステップは、前記共起度とともに係り受けの組合せを表示する請求項13に記載のプログラム。 14. The program according to claim 13, wherein said displaying step displays combinations of dependencies together with said degrees of co-occurrence. プロセッサを備えるコンピュータに処理を行わせるための方法であって、前記方法は、前記プロセッサが、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップとを実行する方法。
A method for causing a computer comprising a processor to perform processing, the method comprising:
a text information acquisition step for acquiring text information;
a named entity extraction step of extracting a named entity from the text information and attaching a tag;
a dependency extracting step of analyzing dependencies from the text information and extracting dependencies in which one or both of the dependency source and the dependency receiver are unique expressions;
a co-occurrence degree calculating step of calculating a co-occurrence degree for a combination of dependencies in the dependencies extracted in the dependency extracting step from the text information;
a co-occurrence extraction step of extracting a combination of dependencies based on the degree of co-occurrence.
制御部を備える情報解析装置であって、前記制御部が、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップとを実行する情報解析装置。

An information analysis device comprising a control unit, wherein the control unit
a text information acquisition step for acquiring text information;
a named entity extraction step of extracting a named entity from the text information and attaching a tag;
a dependency extracting step of analyzing dependencies from the text information and extracting dependencies in which one or both of the dependency source and the dependency receiver are unique expressions;
a co-occurrence degree calculating step of calculating a co-occurrence degree for a combination of dependencies in the dependencies extracted in the dependency extracting step from the text information;
and a co-occurrence extracting step of extracting a combination of dependencies based on the degree of co-occurrence.

JP2021013489A 2021-01-29 2021-01-29 Information analysis program, information analysis method and information analysis device Active JP7032582B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021013489A JP7032582B1 (en) 2021-01-29 2021-01-29 Information analysis program, information analysis method and information analysis device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021013489A JP7032582B1 (en) 2021-01-29 2021-01-29 Information analysis program, information analysis method and information analysis device

Publications (2)

Publication Number Publication Date
JP7032582B1 JP7032582B1 (en) 2022-03-08
JP2022117019A true JP2022117019A (en) 2022-08-10

Family

ID=81212839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021013489A Active JP7032582B1 (en) 2021-01-29 2021-01-29 Information analysis program, information analysis method and information analysis device

Country Status (1)

Country Link
JP (1) JP7032582B1 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133492A (en) * 2005-11-08 2007-05-31 Oki Electric Ind Co Ltd Modification extraction device, method and program
JP4793931B2 (en) * 2007-03-08 2011-10-12 日本電信電話株式会社 Apparatus and method for extracting sets of interrelated specific expressions
JP5321583B2 (en) * 2008-04-01 2013-10-23 日本電気株式会社 Co-occurrence dictionary generation system, scoring system, co-occurrence dictionary generation method, scoring method, and program
JP2009282903A (en) * 2008-05-26 2009-12-03 Nippon Telegr & Teleph Corp <Ntt> Knowledge extraction/search apparatus and method thereof
JP2012068755A (en) * 2010-09-21 2012-04-05 Nomura Research Institute Ltd Retrieval system and retrieval program
JP2017078976A (en) * 2015-10-21 2017-04-27 ダイキン工業株式会社 Product retrieval device

Also Published As

Publication number Publication date
JP7032582B1 (en) 2022-03-08

Similar Documents

Publication Publication Date Title
CN106649786B (en) Answer retrieval method and device based on deep question answering
US10102254B2 (en) Confidence ranking of answers based on temporal semantics
US9715531B2 (en) Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system
US10089296B2 (en) System and method for sentiment lexicon expansion
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
US9760828B2 (en) Utilizing temporal indicators to weight semantic values
Borsje et al. Semi-automatic financial events discovery based on lexico-semantic patterns
Quasthoff et al. Building large resources for text mining: The Leipzig Corpora Collection
Dami et al. News events prediction using Markov logic networks
Eichler et al. LINSPECTOR WEB: A multilingual probing suite for word representations
WO2014000764A1 (en) A system and method for automatic generation of a reference utility
Soto et al. Similarity-based support for text reuse in technical writing
Li et al. Automatic related work generation: A meta study
Chen et al. An automatic method for extracting innovative ideas based on the scopus® database
Zanuz et al. Fostering judiciary applications with new fine-tuned models for legal named entity recognition in portuguese
KR101983477B1 (en) Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification
JP7032582B1 (en) Information analysis program, information analysis method and information analysis device
US11188716B2 (en) Text display with visual distinctions per class
TW201822031A (en) Method of creating chart index with text information and its computer program product capable of generating a virtual chart message catalog and schema index information to facilitate data searching
Malak Text Preprocessing: A Tool of Information Visualization and Digital Humanities
Höffner et al. User interface for a template based question answering system
Abedissa et al. Amharic Question Answering for Biography, Definition, and Description Questions
Jia et al. Learning natural ordering of tags in domain-specific Q&A sites
US20180012127A1 (en) Claim generation
JP2018206135A (en) Information generating program, information processing apparatus, and information generating method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210201

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210201

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220224

R150 Certificate of patent or registration of utility model

Ref document number: 7032582

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150