JP2022002034A - Extraction method, extraction program, and extraction device - Google Patents

Extraction method, extraction program, and extraction device Download PDF

Info

Publication number
JP2022002034A
JP2022002034A JP2020107032A JP2020107032A JP2022002034A JP 2022002034 A JP2022002034 A JP 2022002034A JP 2020107032 A JP2020107032 A JP 2020107032A JP 2020107032 A JP2020107032 A JP 2020107032A JP 2022002034 A JP2022002034 A JP 2022002034A
Authority
JP
Japan
Prior art keywords
elements
order
knowledge
text
order information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020107032A
Other languages
Japanese (ja)
Inventor
文人 西野
Fumito Nishino
裕章 森川
Hiroaki Morikawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020107032A priority Critical patent/JP2022002034A/en
Publication of JP2022002034A publication Critical patent/JP2022002034A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide an extraction method, an extraction program, and an extraction device that appropriately recognize correspondence between sets detected from text.SOLUTION: When detecting a first set and a second set from text, a server 2 of a knowledge extraction system refers to first order information, specifies a plurality of first elements included in the first set having at least one part not described in the text, and extracts correspondence in which each of the plurality of first elements is associated with each of a plurality of second elements included in the second set, according to the order in the plurality of first elements.SELECTED DRAWING: Figure 3

Description

本発明は、抽出方法、抽出プログラム、及び、抽出装置に関する。 The present invention relates to an extraction method, an extraction program, and an extraction device.

テキストから知識を抽出する知識抽出処理において、コンピュータ、例えばサーバ等の抽出装置は、並列句等の複数の要素を持つテキストから知識を抽出することがある。 Extracting Knowledge from Text In a knowledge extraction process, an extraction device such as a computer, for example, a server, may extract knowledge from a text having a plurality of elements such as parallel phrases.

例えば、「国内又は国外 それぞれ所得税法第二条第一項第一号又は第二号に規定する国内又は国外をいう。」というテキスト(文章)では、定義されている「国内」及び「国外」が並列句である。 For example, in the text (text) "domestic or foreign, as stipulated in Article 2, Paragraph 1, Item 1 or 2 of the Income Tax Act, respectively", "domestic" and "foreign" are defined. Is a parallel clause.

この文章から正しく知識抽出を行なうには、並列句の構造の認識、並列の対応付け、展開する際には不要となる並列表現としてのメタ表現の認識、等が行なわれる。 In order to correctly extract knowledge from this sentence, recognition of the structure of parallel phrases, parallel mapping, recognition of meta expressions as parallel expressions that are unnecessary when expanding, etc. are performed.

例えば、抽出装置は、知識抽出処理において、上記の文章を以下の2文に展開し、その後に適切な知識表現化の処理を行なう。
「国内 所得税法第二条第一項第一号に規定する国内をいう。」
「国外 所得税法第二条第一項第二号に規定する国外をいう。」
For example, in the knowledge extraction process, the extraction device expands the above sentence into the following two sentences, and then performs an appropriate knowledge representation process.
"The country specified in Article 2, Paragraph 1, Item 1 of the Domestic Income Tax Act."
"Foreign countries referred to in Article 2, Paragraph 1, Item 2 of the Foreign Income Tax Act."

特開2019−079321号公報Japanese Unexamined Patent Publication No. 2019-079321 特開2001−084250号公報Japanese Unexamined Patent Publication No. 2001-084250 特開2009−093503号公報JP-A-2009-09503

松山宏樹,白井清昭,島津明、“法令文書を対象にした並列構造解析”、言語処理学会第18回年次大会発表論文集、pp. 975-978、2012年Hiroki Matsuyama, Kiyoaki Shirai, Akira Shimazu, "Parallel Structure Analysis for Legal Documents", Proceedings of the 18th Annual Meeting of the Association for Natural Language Processing, pp. 975-978, 2012

しかし、テキストに範囲表現が含まれると、上述した項目の展開によって対応関係を認識することが困難になる場合がある。 However, if the text contains a range expression, it may be difficult to recognize the correspondence due to the expansion of the above-mentioned items.

例えば、以下の例文では、下記の「法人課税信託、・・・有価証券」のように14個の並列要素が存在する。一方、これらに対応する条文は、範囲表現によって「所得税法第二条第一項第八号の三から第十三号まで、第十五号から第十五号の五まで又は第十七号」のように3個の並列要素となっている。
「法人課税信託、恒久的施設、公社債、預貯金、合同運用信託、貸付信託、投資信託、証券投資信託、公社債投資信託、公社債等運用投資信託、公募公社債等運用投資信託、特定目的信託、特定受益証券発行信託又は有価証券 それぞれ所得税法第二条第一項第八号の三から第十三号まで、第十五号から第十五号の五まで又は第十七号に規定する法人課税信託、恒久的施設、公社債、預貯金、合同運用信託、貸付信託、投資信託、証券投資信託、公社債投資信託、公社債等運用投資信託、公募公社債等運用投資信託、特定目的信託、特定受益証券発行信託又は有価証券をいう。」
For example, in the following example sentence, there are 14 parallel elements as in the following "corporate taxation trust, ... securities". On the other hand, the articles corresponding to these are "Income Tax Law, Article 2, Paragraph 1, Items 8-3 to 13, 15 to 15-5, or 17" depending on the scope expression. There are three parallel elements.
"Corporate taxation trusts, permanent facilities, public and corporate bonds, deposits and savings, joint investment trusts, loan trusts, investment trusts, securities investment trusts, public and corporate bond investment trusts, public and corporate bond investment trusts, publicly offered public and corporate bond investment trusts, special purpose trusts, specific beneficiaries Securities issuance trust or securities Corporate taxation trust prescribed in Article 2, Paragraph 1, Items 8-3 to 13, 15-5-5 or 17 of the Income Tax Law, respectively. , Permanent facilities, public and corporate bonds, deposits and savings, joint investment trusts, loan trusts, investment trusts, securities investment trusts, public and corporate bond investment trusts, public and corporate bond investment trusts, publicly offered public and corporate bonds, investment trusts, special purpose trusts, specified beneficiary certificate issuance trusts Refers to securities. "

このように、抽出装置がテキストから検出した集合間の対応関係を認識する際に、少なくとも一方の集合内の要素が範囲表現等によりテキストに記載されていない場合、集合間の要素数が一致せず、対応関係を認識することが困難になる場合がある。 In this way, when the extraction device recognizes the correspondence between the sets detected from the text, if at least one of the elements in the set is not described in the text by a range expression or the like, the number of elements between the sets matches. However, it may be difficult to recognize the correspondence.

1つの側面では、本発明は、テキストから検出した集合間の対応関係を適切に認識できるようにすることを目的の1つとする。 In one aspect, one of the objects of the present invention is to be able to appropriately recognize the correspondence between the sets detected from the text.

1つの側面では、抽出方法は、コンピュータが、以下の処理を実行してよい。前記処理は、テキストから第1の集合と第2の集合とを検知すると、第1の順序情報を参照し、少なくとも1部分が前記テキストには記載されていない前記第1の集合に含まれる第1の複数の要素を特定してよい。また、前記処理は、前記第1の複数の要素内の順序に応じて、前記第1の複数の要素のそれぞれと前記第2の集合に含まれる第2の複数の要素のそれぞれとを対応付けた対応関係を抽出してよい。 In one aspect, in the extraction method, the computer may perform the following processing. When the process detects the first set and the second set from the text, the process refers to the first order information, and at least one part is included in the first set not described in the text. A plurality of elements of 1 may be specified. Further, in the process, each of the first plurality of elements is associated with each of the second plurality of elements included in the second set according to the order in the first plurality of elements. The correspondence may be extracted.

1つの側面では、本発明は、テキストから検出した集合間の対応関係を適切に認識することができる。 In one aspect, the invention can adequately recognize the correspondence between sets detected from the text.

一実施形態に係る知識抽出システムの機能構成例を示すブロック図である。It is a block diagram which shows the functional structure example of the knowledge extraction system which concerns on one Embodiment. サーバの機能を実現するコンピュータのハードウェア構成例を示すブロック図である。It is a block diagram which shows the hardware configuration example of the computer which realizes the function of a server. サーバの処理の一例を説明するための図である。It is a figure for demonstrating an example of a server process. 要素展開処理制御部の動作例を説明するフローチャートである。It is a flowchart explaining the operation example of the element expansion processing control part. 順序知識DBの一例を示す図である。It is a figure which shows an example of the order knowledge DB. 順序知識に基づく範囲要素の展開処理の一例を説明するための図である。It is a figure for demonstrating an example of expansion processing of a range element based on order knowledge. 方向指示語を含む順序知識の一例を示す図である。It is a figure which shows an example of the order knowledge including a demonstrative word.

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形又は技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. However, the embodiments described below are merely examples, and there is no intention of excluding the application of various modifications or techniques not specified below. For example, the present embodiment can be variously modified and implemented without departing from the spirit of the present embodiment. In the drawings used in the following description, the parts with the same reference numerals represent the same or similar parts unless otherwise specified.

〔1〕一実施形態
〔1−1〕知識抽出システムの説明
まず、知識抽出システムについて簡単に説明する。知識抽出システムは、例えば、文章を解析して解析結果から知識を抽出するシステムである。文章の解析には、上述した並列構造解析が含まれてよい。なお、抽出された知識は、例えば、ナレッジグラフ(KG;Knowledge Graph)等の知識ベース(KB;Knowledge Base)に蓄積されてよい。
[1] Embodiment [1-1] Description of Knowledge Extraction System First, the knowledge extraction system will be briefly described. The knowledge extraction system is, for example, a system that analyzes sentences and extracts knowledge from the analysis results. The text analysis may include the parallel structure analysis described above. The extracted knowledge may be accumulated in a knowledge base (KB) such as a knowledge graph (KG).

(比較例)
ここで、法令文を対象にした並列構造解析の比較例を説明する。比較例においては、並列関係にある句が互いに類似しているという性質を手がかりとし、文節列の類似性の利用や、確率モデルを利用する。比較例としては、例えば、上述した非特許文献1に記載の手法が採用されてもよい。
(Comparative example)
Here, a comparative example of parallel structural analysis for legal texts will be described. In the comparative example, the property that the phrases in parallel relation are similar to each other is used as a clue, and the similarity of the phrase sequence and the probability model are used. As a comparative example, for example, the method described in Non-Patent Document 1 described above may be adopted.

比較例では、階層的並列構造に関し、抽出装置は、並列キーに上位の並列構造より下位の並列構造を優先する優先順位を付け、優先順位の順に並列構造を逐次検出する。また、抽出装置は、並列構造の範囲を決定する際に、優先的に解析した並列構造の内部を境界としない、並列構造の境界は後方句及び前方句の候補の境界とする、句の類似度を計算する際に解析した並列構造を利用して計算する、というヒューリスティックを使用する。 In the comparative example, regarding the hierarchical parallel structure, the extraction device prioritizes the parallel structure lower than the upper parallel structure to the parallel key, and sequentially detects the parallel structure in the order of priority. Further, when the extraction device determines the range of the parallel structure, the boundary of the parallel structure is not the boundary of the parallel structure analyzed preferentially, and the boundary of the parallel structure is the boundary of the candidate of the posterior phrase and the anterior phrase. We use the heuristic that the parallel structure analyzed when calculating the degree is used.

上述した比較例では、並列文の言語処理(解析)が主であり、知識抽出は行なっていない。また、上述した比較例では、範囲表現の認識手法として、数字やアルファベット等の典型的な順序の知識をハードコーディングしている。 In the above-mentioned comparative example, language processing (analysis) of parallel sentences is mainly performed, and knowledge extraction is not performed. Further, in the above-mentioned comparative example, knowledge of typical order such as numbers and alphabets is hard-coded as a recognition method of range expression.

次に、比較例に係る抽出装置が、「国内又は国外 それぞれ所得税法第二条第一項第一号又は第二号に規定する国内又は国外をいう。」というテキスト(文章)に対して、並列構造解析を行なう場合を説明する。 Next, the extraction device according to the comparative example responds to the text (sentence) that "means domestic or foreign as stipulated in Article 2, Paragraph 1, Item 1 or 2 of the Income Tax Act, respectively, domestically or internationally." A case of performing parallel structure analysis will be described.

例えば、抽出装置は、個々の並列句を独立に認識する。上記の例では、以下の2つの定義規定のように、「国内」及び「国外」のそれぞれの定義本文が、「それぞれ所得税法第二条第一項第一号又は第二号に規定する国内又は国外をいう。」となる。
「国内 それぞれ所得税法第二条第一項第一号又は第二号に規定する国内又は国外をいう。」
「国外 それぞれ所得税法第二条第一項第一号又は第二号に規定する国内又は国外をいう。」
For example, the extractor independently recognizes each parallel phrase. In the above example, as in the following two definition provisions, the definition texts of "domestic" and "overseas" are "domestic as stipulated in Article 2, Paragraph 1, Item 1 or 2 of the Income Tax Act, respectively. Or it means foreign countries. "
"Domestic or foreign countries as stipulated in Article 2, Paragraph 1, Item 1 or 2 of the Income Tax Act, respectively."
"Foreign countries means domestic or foreign countries as stipulated in Article 2, Paragraph 1, Item 1 or 2 of the Income Tax Act, respectively."

次いで、抽出装置は、個々の並列句の構成要素を順に対応させる。例えば、抽出装置は、以下のように、並列句のn番目(nは1以上且つN以下の整数。Nは並列句の数;この場合、N=2)の要素を取り出す。
1番目:「国内 それぞれ所得税法第二条第一項第一号に規定する国内をいう。」
2番目:「国外 それぞれ所得税法第二条第一項第二号に規定する国外をいう。」
The extractor then associates the components of the individual parallel phrases in sequence. For example, the extraction device extracts the nth element of the parallel phrase (n is an integer of 1 or more and N or less. N is the number of parallel phrases; in this case, N = 2) as follows.
1st: "Domestic, respectively, refers to the domestic stipulated in Article 2, Paragraph 1, Item 1 of the Income Tax Act."
Second: "Foreign countries refer to the foreign countries stipulated in Article 2, Paragraph 1, Item 2 of the Income Tax Act."

そして、抽出装置は、順序集合をハードコーディングにより展開する。このような展開の一例として、抽出装置は、「AからDはそれぞれ3,5,7,8である」という順序集合の場合、「AからD」を展開して「A,B,C,Dはそれぞれ3,5,7,8である」とする。このような展開の手法により、上記例では、以下のような2文が展開される。
「国内 所得税法第二条第一項第一号に規定する国内をいう。」
「国外 所得税法第二条第一項第二号に規定する国外をいう。」
Then, the extraction device expands the ordered set by hard coding. As an example of such expansion, in the case of an ordered set in which "A to D are 3, 5, 7, 8 respectively", the extraction device expands "A to D" to "A, B, C,". D is 3, 5, 7, 8 respectively. " By such an expansion method, the following two sentences are expanded in the above example.
"The country specified in Article 2, Paragraph 1, Item 1 of the Domestic Income Tax Act."
"Foreign countries referred to in Article 2, Paragraph 1, Item 2 of the Foreign Income Tax Act."

しかしながら、上述した並列構造解析では、表層的な言語処理を行なっているだけで、構成要素の内容に踏み込んでおらず、例えば、「イからニまでの各号」や、「10月から3月までの各月」のような複数要素を含む範囲表現には対応できない。このように、集合内の要素が範囲表現等によりテキストに記載されていない場合、集合間の要素数が一致せず、対応関係を認識することが困難になる場合がある。 However, in the parallel structure analysis described above, only superficial language processing is performed, and the contents of the components are not taken into consideration. For example, "each issue from a to d" or "October to March". It is not possible to support range expressions that include multiple elements, such as "each month up to". As described above, when the elements in the set are not described in the text by the range expression or the like, the number of elements between the sets may not match and it may be difficult to recognize the correspondence.

そこで、一実施形態では、抽出装置がテキストから検出した集合間の対応関係を認識する際に、少なくとも一方の集合内の要素が範囲表現等によりテキストに記載されていない場合であっても、集合間の対応関係を適切に認識できるようにする手法を説明する。 Therefore, in one embodiment, when the extraction device recognizes the correspondence between the sets detected from the text, even if at least one of the elements in the set is not described in the text by a range expression or the like, the set is set. A method for appropriately recognizing the correspondence between them will be explained.

例えば、後述する一実施形態に係る手法では、複数要素表現に対して、順序知識を利用して実体を割り当てることで、複数表現間の対応関係を抽出する。 For example, in the method according to one embodiment described later, a correspondence relationship between a plurality of expressions is extracted by allocating an entity to a plurality of element expressions using order knowledge.

〔1−2〕知識抽出システムの構成例
図1は、一実施形態に係る知識抽出システム1の機能構成例を示すブロック図である。知識抽出システム1は、テキストから知識を抽出するシステムの一例であり、図1に示すように、例示的に、サーバ2と1以上(図1の例では1台)の端末3とを備えてよい。なお、サーバ2には、ナレッジグラフ(KG)等の知識ベースが接続されてもよい。
[1-2] Configuration Example of Knowledge Extraction System FIG. 1 is a block diagram showing a functional configuration example of the knowledge extraction system 1 according to an embodiment. The knowledge extraction system 1 is an example of a system for extracting knowledge from text, and as shown in FIG. 1, an example includes a server 2 and one or more terminals 3 (one in the example of FIG. 1). good. A knowledge base such as a knowledge graph (KG) may be connected to the server 2.

端末3は、知識抽出システム1の管理者又は利用者が使用する情報処理端末の一例であり、PC(Personal Computer)又はサーバ等のコンピュータである。端末3は、例えば、サーバ2に対して、知識抽出を行なう対象のテキスト、例えば文書等を送信してよく、また、サーバ2から、テキストから抽出された知識を受信してもよい。 The terminal 3 is an example of an information processing terminal used by the administrator or user of the knowledge extraction system 1, and is a computer such as a PC (Personal Computer) or a server. The terminal 3 may send, for example, a text to be extracted for knowledge, such as a document, to the server 2, or may receive the knowledge extracted from the text from the server 2.

端末3とサーバ2との間、及び、図示しないKGとサーバ2との間、のそれぞれは、図示しないネットワークを介して相互に通信可能に接続されてよい。ネットワークは、WAN(Wide Area Network)、LAN(Local Area Network)、又はこれらの組み合わせを含んでよい。WANにはインターネットが含まれてよく、LANにはVPN(Virtual Private Network)が含まれてよい。 Each of the terminal 3 and the server 2 and between the KG and the server 2 (not shown) may be communicably connected to each other via a network (not shown). The network may include a WAN (Wide Area Network), a LAN (Local Area Network), or a combination thereof. The WAN may include the Internet, and the LAN may include a VPN (Virtual Private Network).

サーバ2は、抽出装置、情報処理装置、又は、コンピュータの一例である。例えば、サーバ2は、知識抽出システム1において、端末3からのテキストの受信に応じて、受信したテキストからの知識の抽出、及び、抽出した知識の保存(端末3への送信を含む)等の種々の処理を行なう。 The server 2 is an example of an extraction device, an information processing device, or a computer. For example, in the knowledge extraction system 1, the server 2 extracts the knowledge from the received text and saves the extracted knowledge (including transmission to the terminal 3) in response to the reception of the text from the terminal 3. Perform various processes.

サーバ2は、仮想サーバ(VM;Virtual Machine)であってもよいし、物理サーバであってもよい。また、サーバ2の機能は、1台のコンピュータにより実現されてもよいし、2台以上のコンピュータにより実現されてもよい。さらに、サーバ2の機能のうちの少なくとも一部は、クラウド環境により提供されるHW(Hardware)リソース及びNW(Network)リソースを用いて実現されてもよい。 The server 2 may be a virtual server (VM; Virtual Machine) or a physical server. Further, the function of the server 2 may be realized by one computer or may be realized by two or more computers. Further, at least a part of the functions of the server 2 may be realized by using the HW (Hardware) resource and the NW (Network) resource provided by the cloud environment.

(ハードウェア構成例)
図2は、サーバ2の機能を実現するコンピュータ10のハードウェア(HW)構成例を示すブロック図である。サーバ2の機能を実現するHWリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図2に例示するHW構成を備えてよい。
(Hardware configuration example)
FIG. 2 is a block diagram showing a hardware (HW) configuration example of the computer 10 that realizes the function of the server 2. When a plurality of computers are used as the HW resource that realizes the function of the server 2, each computer may have the HW configuration illustrated in FIG.

図2に示すように、コンピュータ10は、HW構成として、例示的に、プロセッサ10a、メモリ10b、記憶部10c、IF(Interface)部10d、I/O(Input / Output)部10e、及び読取部10fを備えてよい。 As shown in FIG. 2, as an HW configuration, the computer 10 is exemplified by a processor 10a, a memory 10b, a storage unit 10c, an IF (Interface) unit 10d, an I / O (Input / Output) unit 10e, and a reading unit. It may be provided with 10f.

プロセッサ10aは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ10aは、コンピュータ10内の各ブロックとバス10iで相互に通信可能に接続されてよい。なお、プロセッサ10aは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。 The processor 10a is an example of an arithmetic processing unit that performs various controls and operations. The processor 10a may be connected to each block in the computer 10 so as to be able to communicate with each other by the bus 10i. The processor 10a may be a multi-processor including a plurality of processors, a multi-core processor having a plurality of processor cores, or a configuration having a plurality of multi-core processors.

プロセッサ10aとしては、例えば、CPU、MPU、GPU、APU、DSP、ASIC、FPGA等の集積回路(IC;Integrated Circuit)が挙げられる。なお、プロセッサ10aとして、これらの集積回路の2以上の組み合わせが用いられてもよい。CPUはCentral Processing Unitの略称であり、MPUはMicro Processing Unitの略称である。GPUはGraphics Processing Unitの略称であり、APUはAccelerated Processing Unitの略称である。DSPはDigital Signal Processorの略称であり、ASICはApplication Specific ICの略称であり、FPGAはField-Programmable Gate Arrayの略称である。 Examples of the processor 10a include integrated circuits (ICs) such as CPUs, MPUs, GPUs, APUs, DSPs, ASICs, and FPGAs. As the processor 10a, two or more combinations of these integrated circuits may be used. CPU is an abbreviation for Central Processing Unit, and MPU is an abbreviation for Micro Processing Unit. GPU is an abbreviation for Graphics Processing Unit, and APU is an abbreviation for Accelerated Processing Unit. DSP is an abbreviation for Digital Signal Processor, ASIC is an abbreviation for Application Specific IC, and FPGA is an abbreviation for Field-Programmable Gate Array.

メモリ10bは、種々のデータやプログラム等の情報を格納するHWの一例である。メモリ10bとしては、例えばDRAM(Dynamic Random Access Memory)等の揮発性メモリ、及び、PM(Persistent Memory)等の不揮発性メモリ、の一方又は双方が挙げられる。 The memory 10b is an example of HW that stores information such as various data and programs. Examples of the memory 10b include one or both of a volatile memory such as DRAM (Dynamic Random Access Memory) and a non-volatile memory such as PM (Persistent Memory).

記憶部10cは、種々のデータやプログラム等の情報を格納するHWの一例である。記憶部10cとしては、HDD(Hard Disk Drive)等の磁気ディスク装置、SSD(Solid State Drive)等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、SCM(Storage Class Memory)、ROM(Read Only Memory)等が挙げられる。 The storage unit 10c is an example of HW that stores information such as various data and programs. Examples of the storage unit 10c include a magnetic disk device such as an HDD (Hard Disk Drive), a semiconductor drive device such as an SSD (Solid State Drive), and various storage devices such as a non-volatile memory. Examples of the non-volatile memory include flash memory, SCM (Storage Class Memory), ROM (Read Only Memory) and the like.

また、記憶部10cは、コンピュータ10の各種機能の全部若しくは一部を実現するプログラム10g(抽出プログラム)を格納してよい。例えば、サーバ2のプロセッサ10aは、記憶部10cに格納されたプログラム10gをメモリ10bに展開して実行することにより、図1に例示するサーバ2としての機能を実現できる。 Further, the storage unit 10c may store a program 10g (extraction program) that realizes all or a part of various functions of the computer 10. For example, the processor 10a of the server 2 can realize the function as the server 2 illustrated in FIG. 1 by expanding and executing the program 10g stored in the storage unit 10c in the memory 10b.

IF部10dは、ネットワークとの間の接続及び通信の制御等を行なう通信IFの一例である。例えば、IF部10dは、イーサネット(登録商標)等のLAN、或いは、FC(Fibre Channel)等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。例えば、サーバ2は、IF部10dを介して、端末3及び図示しないKGのそれぞれと相互に通信可能に接続されてよい。また、例えば、プログラム10gは、当該通信IFを介して、ネットワークからコンピュータ10にダウンロードされ、記憶部10cに格納されてもよい。 The IF unit 10d is an example of a communication IF that controls connection and communication with a network. For example, the IF unit 10d may include a LAN such as Ethernet (registered trademark) or an adapter compliant with optical communication such as FC (Fibre Channel). The adapter may support one or both wireless and wired communication methods. For example, the server 2 may be communicably connected to each of the terminal 3 and the KG (not shown) via the IF unit 10d. Further, for example, the program 10g may be downloaded from the network to the computer 10 via the communication IF and stored in the storage unit 10c.

I/O部10eは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。 The I / O unit 10e may include one or both of an input device and an output device. Examples of the input device include a keyboard, a mouse, a touch panel, and the like. Examples of the output device include a monitor, a projector, a printer and the like.

読取部10fは、記録媒体10hに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部10fは、記録媒体10hを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部10fとしては、例えば、USB(Universal Serial Bus)等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、SDカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体10hにはプログラム10gが格納されてもよく、読取部10fが記録媒体10hからプログラム10gを読み出して記憶部10cに格納してもよい。 The reading unit 10f is an example of a reader that reads data and program information recorded on the recording medium 10h. The reading unit 10f may include a connection terminal or device to which the recording medium 10h can be connected or inserted. Examples of the reading unit 10f include an adapter compliant with USB (Universal Serial Bus), a drive device for accessing a recording disk, a card reader for accessing a flash memory such as an SD card, and the like. The program 10g may be stored in the recording medium 10h, or the reading unit 10f may read the program 10g from the recording medium 10h and store it in the storage unit 10c.

記録媒体10hとしては、例示的に、磁気/光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気/光ディスクとしては、例示的に、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)、ブルーレイディスク、HVD(Holographic Versatile Disc)等が挙げられる。フラッシュメモリとしては、例示的に、USBメモリやSDカード等の半導体メモリが挙げられる。 Examples of the recording medium 10h include a non-temporary computer-readable recording medium such as a magnetic / optical disk or a flash memory. Examples of the magnetic / optical disk include flexible discs, CDs (Compact Discs), DVDs (Digital Versatile Discs), Blu-ray discs, HVDs (Holographic Versatile Discs), and the like. Examples of the flash memory include semiconductor memories such as USB memory and SD card.

上述したコンピュータ10のHW構成は例示である。従って、コンピュータ10内でのHWの増減(例えば任意のブロックの追加や削除)、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、サーバ2において、I/O部10e及び読取部10fの少なくとも一方は、省略されてもよい。 The HW configuration of the computer 10 described above is an example. Therefore, the increase / decrease of HW (for example, addition or deletion of arbitrary blocks), division, integration in any combination, addition or deletion of buses, etc. may be appropriately performed in the computer 10. For example, in the server 2, at least one of the I / O unit 10e and the reading unit 10f may be omitted.

なお、情報処理端末の一例である端末3は、上述したコンピュータ10と同様のHW構成により実現されてよい。例えば、端末3のプロセッサ10aは、記憶部10cに格納されたプログラム10gをメモリ10bに展開して実行することにより、図1に示す端末3としての機能を実現できる。 The terminal 3, which is an example of the information processing terminal, may be realized by the same HW configuration as the computer 10 described above. For example, the processor 10a of the terminal 3 can realize the function as the terminal 3 shown in FIG. 1 by expanding and executing the program 10g stored in the storage unit 10c in the memory 10b.

(機能構成例)
次に、図1を参照して、サーバ2の機能構成例を説明する。一実施形態に係るサーバ2は、テキストから知識を抽出する処理を行なう。例えば、サーバ2は、テキストから第1の集合と第2の集合とを検知し、第1の集合に含まれる第1の複数の要素のそれぞれと、第2の集合に含まれる第2の複数の要素のそれぞれとを対応付けた対応関係を抽出する。
(Functional configuration example)
Next, an example of the functional configuration of the server 2 will be described with reference to FIG. The server 2 according to the embodiment performs a process of extracting knowledge from the text. For example, the server 2 detects the first set and the second set from the text, and each of the first plurality of elements included in the first set and the second plurality contained in the second set. Extract the correspondence relationship with each of the elements of.

図3は、サーバ2の処理の一例を説明するための図である。図3に示す例では、サーバ2には、テキストとして、「法人課税信託、・・・、又は有価証券 それぞれ所得税法第二条第一項第八号の三・・又は第十七号に規定する法人課税信託、・・・、又は有価証券をいう。」が入力される。 FIG. 3 is a diagram for explaining an example of processing of the server 2. In the example shown in FIG. 3, the text on the server 2 is "corporate taxation trust, ..., or securities, respectively, as stipulated in Article 2, Paragraph 1, Item 8-3 ... or Item 17 of the Income Tax Act. Corporate taxation trust, ..., or securities. ”Is entered.

サーバ2は、このようなテキストについて、図3に例示するように、複数の要素(並列句)の集合である「法人課税信託、・・・、又は有価証券」内の各要素と、複数の要素の集合である「所得税法第二条第一項第八号の三・・又は第十七号」内の各要素との対応関係を抽出する。なお、これら2つの集合のうち、いずれか一方が第1の集合であり、他方が第2の集合である。 As illustrated in FIG. 3, the server 2 has a plurality of elements in "corporate taxation trust, ..., Or securities" which are a set of a plurality of elements (parallel phrases) for such a text. Extract the correspondence with each element in "Income Tax Law Article 2, Paragraph 1, Item 8-3 ... or Item 17", which is a set of elements. Of these two sets, one is the first set and the other is the second set.

このために、サーバ2は、図1に例示するように、通信部21、要素展開処理制御部22、及び、順序知識DB(Database)23を備えてよい。 For this purpose, the server 2 may include a communication unit 21, an element expansion processing control unit 22, and an order knowledge DB (Database) 23, as illustrated in FIG.

通信部21は、端末3及び図示しないKG等との間で通信を行なう。例えば、端末3は、端末3から、知識抽出の対象となるテキストを受信してよい。通信部21は、受信したテキストを、例えば、図2に示すメモリ10b及び記憶部10cの少なくとも1つが有する記憶領域に格納してよい。 The communication unit 21 communicates with the terminal 3 and a KG (not shown). For example, the terminal 3 may receive a text to be extracted from the terminal 3 from the terminal 3. The communication unit 21 may store the received text in, for example, a storage area included in at least one of the memory 10b and the storage unit 10c shown in FIG.

順序知識DB23は、順序を持つ集合に関する複数の順序知識23a(図5参照)を、予め記憶するDBである。複数の順序知識23aは、実世界の知識(ナレッジ)であり、複数の集合のそれぞれに含まれる複数の要素内の順序を示す複数の順序情報の一例である。例えば、順序知識DB23は、記号順序の順序知識23a、常識の順序知識23a、各分野の順序知識23a、等の複数の順序知識23aを記憶してよい。 The order knowledge DB 23 is a DB that stores a plurality of order knowledge 23a (see FIG. 5) regarding a set having an order in advance. The plurality of order knowledge 23a is knowledge in the real world, and is an example of a plurality of order information indicating the order in the plurality of elements included in each of the plurality of sets. For example, the order knowledge DB 23 may store a plurality of order knowledge 23a such as the order knowledge 23a of the symbol order, the order knowledge 23a of common sense, and the order knowledge 23a of each field.

記号順序の順序知識23aには、アルファベット順(A、B、C、・・・)及びいろは順(イ、ロ、ハ、・・・)等が含まれてよい。常識の順序知識23aには、週(日、月、・・・、土)及び月(1月、2月、・・・、12月)等が含まれてよい。各分野の順序知識23aには、路線の駅及び法令の条項等が含まれてよい。 The order knowledge 23a of the symbol order may include alphabetical order (A, B, C, ...), Iroha order (a, b, c, ...) and the like. The common sense order knowledge 23a may include a week (Sunday, Monday, ..., Sat) and a month (January, February, ..., December) and the like. The order knowledge 23a in each field may include railway stations, statutory provisions, and the like.

要素展開処理制御部22は、制御部の一例であり、サーバ2の管理、及び、後述する各機能ブロック(モジュール)の呼び出し等の実行制御を行なう。 The element expansion processing control unit 22 is an example of a control unit, and manages the server 2 and controls execution such as calling each functional block (module) described later.

例えば、要素展開処理制御部22は、機能ブロックとして、知識化範囲認定部22a、複数要素表現解析部22b、構成要素解決部22c、順序知識選定部22d、順序認識部22e、対応関係認定部22f、メタ表現認識部22g、及び、知識化部22hを備えてよい。 For example, the element expansion processing control unit 22 has, as a functional block, a knowledge range certification unit 22a, a multi-element expression analysis unit 22b, a component resolution unit 22c, an order knowledge selection unit 22d, an order recognition unit 22e, and a correspondence authentication unit 22f. , A meta-expression recognition unit 22g, and a knowledge conversion unit 22h may be provided.

図4は、要素展開処理制御部22の動作例を説明するフローチャートである。以下、図4を参照して、機能ブロック22a〜22hの動作例を説明する。 FIG. 4 is a flowchart illustrating an operation example of the element expansion processing control unit 22. Hereinafter, an operation example of the functional blocks 22a to 22h will be described with reference to FIG.

知識化範囲認定部22aは、テキスト上の知識化する範囲を認定(決定)する(ステップS1)。例えば、知識化範囲認定部22aは、上述した集合である複数要素表現を含むテキストパターンを特定する。 The knowledge conversion range certification unit 22a certifies (determines) the knowledge conversion range on the text (step S1). For example, the knowledge acquisition range recognition unit 22a specifies a text pattern including a multi-element expression which is the above-mentioned set.

複数要素表現解析部22bは、知識化範囲認定部22aが認定した範囲から、並列句及び範囲表現を検知して解析する(ステップS2)。 The multi-element expression analysis unit 22b detects and analyzes parallel phrases and range expressions from the range certified by the knowledgeable range certification unit 22a (step S2).

構成要素解決部22cは、解析結果の複数要素表現が示す実体を認定する(ステップS3)。例えば、構成要素解決部22cは、「所得税法第二条第一項」や「同項」のような表現に対して、当該表現が具体的に示す要素(何を示すのか)と、当該要素の実体(当該要素がどのような内容なのか)を認定する。 The component solving unit 22c recognizes the entity indicated by the multi-element representation of the analysis result (step S3). For example, the component solving unit 22c has an element (what is indicated) specifically indicated by the expression and the element concerned with respect to expressions such as "Income Tax Law Article 2, Paragraph 1" and "the same paragraph". The substance of (what kind of content the element is) is recognized.

知識化範囲認定部22a、複数要素表現解析部22b及び構成要素解決部22cの処理のそれぞれは、既知の種々の手法により実現されてよい。 Each of the processes of the knowledge acquisition range recognition unit 22a, the multi-element expression analysis unit 22b, and the component resolution unit 22c may be realized by various known methods.

順序知識選定部22dは、順序知識DB23から利用する順序知識23aを選定する(ステップS4)。 The order knowledge selection unit 22d selects the order knowledge 23a to be used from the order knowledge DB 23 (step S4).

順序認識部22eは、順序知識選定部22dが選定した順序知識23aを用いて、範囲表現を個々の要素に分解する(ステップS5)。 The order recognition unit 22e decomposes the range representation into individual elements by using the order knowledge 23a selected by the order knowledge selection unit 22d (step S5).

対応関係認定部22fは、知識化範囲認定部22aが複数の複数要素表現を特定した場合に、構成要素解決部22c及び順序認識部22eにより認定(分解)した個々の要素の対応付けを行なう(ステップS6)。 When the knowledgeable range certification unit 22a specifies a plurality of multiple element representations, the correspondence certification unit 22f associates the individual elements certified (disassembled) by the component resolution unit 22c and the order recognition unit 22e (the correspondence certification unit 22f). Step S6).

メタ表現認識部22gは、知識化に不要な情報、例えば「それぞれ」等のメタ表現を認定する(ステップS7)。 The meta expression recognition unit 22g recognizes information unnecessary for knowledge conversion, for example, meta expressions such as “each” (step S7).

知識化部22hは、対応関係認定部22fにより認定された並列要素のそれぞれに対して知識化を行ない(ステップS8)、処理が終了する。知識化部22hの処理は、既知の種々の手法により実現されてよい。 The knowledge conversion unit 22h performs knowledge conversion for each of the parallel elements certified by the correspondence certification unit 22f (step S8), and the process is completed. The processing of the knowledge-making unit 22h may be realized by various known methods.

なお、知識化部22hによる知識化により対応関係が抽出されると、通信部21は、当該対応関係の情報を例えば図示しないKGに送信(蓄積)してもよい。或いは、サーバ2が、当該対応関係の情報を蓄積することで、自身がKGとして振る舞い、ユーザや他のシステム等に当該対応関係の情報を提供してもよい。 When the correspondence is extracted by the knowledge conversion by the knowledge conversion unit 22h, the communication unit 21 may transmit (store) the information of the correspondence to, for example, a KG (not shown). Alternatively, the server 2 may act as a KG by accumulating the correspondence-related information and provide the correspondence-related information to the user, another system, or the like.

〔1−3〕要素展開処理制御部の説明
次に、要素展開処理制御部22の各機能ブロックの処理の一例を説明する。
[1-3] Description of Element Expansion Processing Control Unit Next, an example of processing of each functional block of the element expansion processing control unit 22 will be described.

(知識化範囲認定部22a)
知識化範囲認定部22aは、知識化の対象に応じて、複数要素表現の有無に関係なく、テキストから知識化を行なう範囲を認定する。例えば、知識化範囲認定部22aは、テキスト(或いは形態素)等のパターンに基づき、パターン記述にマッチする表現をテキストから検索し、当該表現を、知識化を行なう部分(知識化範囲)として特定する。
(Knowledge scope certification unit 22a)
The knowledge conversion range certification unit 22a certifies the range of knowledge conversion from the text, regardless of the presence or absence of the multi-element expression, according to the target of knowledge conversion. For example, the knowledge-making range certification unit 22a searches the text for an expression that matches the pattern description based on a pattern such as a text (or a morpheme), and specifies the expression as a part (knowledge-making range) for knowledge-making. ..

以下にパターン記述例を記載する。
・定義規定=<定義語>空白<定義本文>をいう。
・定義規定=<定義本文>(<定義有効範囲>において「<定義語>」という。)
・定義規定=<定義語>(<定義本文>をいう。)
An example of pattern description is described below.
-Definition rule = <definition word> blank <definition body>.
-Definition rule = <definition body> (referred to as "<definition word>" in <definition valid range>)
-Definition rule = <definition word> (meaning <definition text>)

例えば、知識化範囲認定部22aは、パターン記述を読み込み、適切な処理(例えば定義本文又は定義語には記号を含まない等のルールに応じた処理)を加えて、正規表現に変換する。一例として、知識化範囲認定部22aは、上記の1つ目のパターン記述を以下の正規表現に変換する。下記の正規表現中、「一」はunicodeの最初の漢字(unicode:4e00)であり、「\u9fa5」はunicodeの最後の漢字(unicode:9fa5)である。これによって「一-\u9fa5」は任意の漢字とマッチする正規表現になっている。なお、解析する対象のテキストに応じて、第3水準漢字、第4水準漢字、及び、踊り字等のうちの少なくとも1つを正規表現に含めてもよい。
r’[一-\u9fa5あ-んァ-ンー・A-Za-z]+\s+[一-\u9fa5あ-んァ-ンー・A-Za-z]+をいう。’
For example, the knowledge conversion range certification unit 22a reads the pattern description, performs appropriate processing (for example, processing according to a rule such as not including a symbol in the definition text or the definition word), and converts it into a regular expression. As an example, the knowledge conversion range certification unit 22a converts the above first pattern description into the following regular expression. In the regular expressions below, "one" is the first Chinese character in unicode (unicode: 4e00) and "\ u9fa5" is the last Chinese character in unicode (unicode: 9fa5). This makes "1- \ u9fa5" a regular expression that matches any Chinese character. In addition, at least one of the third level kanji, the fourth level kanji, the dance character, and the like may be included in the regular expression depending on the text to be analyzed.
r'[I-\ u9fa5 A-N-A-Za-z] + \ s + [I-\ u9fa5 A-N-A-Za-z] +. '

そして、知識化範囲認定部22aは、処理対象となるテキストに対して、各パターンの正規表現にマッチする部分を検索し、マッチする部分を知識化する部分として特定する。 Then, the knowledge conversion range certification unit 22a searches for a portion that matches the regular expression of each pattern with respect to the text to be processed, and specifies the matching portion as a knowledge conversion portion.

(複数要素表現解析部22b)
複数要素表現解析部22bは、知識化範囲認定部22aが認定した知識化範囲から個々の複数要素表現を独立に解析する。なお、複数要素表現解析部22bによる処理が行なわれる時点では、複数要素表現は、当該複数要素表現が示す実体とは対応付けられていない。例えば、複数要素表現解析部22bは、テキスト(或いは形態素)等のパターンに基づき、パターン記述にマッチする表現を知識化範囲から検索し、当該表現を、複数要素表現の要素として検出する。
(Multi-element expression analysis unit 22b)
The multi-element expression analysis unit 22b independently analyzes each multi-element expression from the knowledge conversion range certified by the knowledge conversion range certification unit 22a. At the time when the processing by the multi-element expression analysis unit 22b is performed, the multi-element expression is not associated with the entity indicated by the multi-element expression. For example, the multi-element expression analysis unit 22b searches the knowledgeable range for an expression that matches the pattern description based on a pattern such as text (or morpheme), and detects the expression as an element of the multi-element expression.

以下に複数要素表現のパターン記述例を記載する。
・複数要素表現=(<句>、)*<句>(及び|並びに|又は|若しくは|その他の?|(等|など)の)<句>
・複数要素表現=<句>から<句>まで
An example of pattern description of multi-element expression is described below.
-Multiple element representation = (<phrase>,) * <phrase> (and | and | or | or | other? | (Etc. | etc.)) <Phrase>
・ Multi-element expression = from <phrase> to <phrase>

例えば、複数要素表現解析部22bは、パターン記述を読み込み、適切な処理を加えて、正規表現に変換する。 For example, the multi-element expression analysis unit 22b reads the pattern description, performs appropriate processing, and converts it into a regular expression.

そして、複数要素表現解析部22bは、処理対象となるテキストに対して、各パターンの正規表現にマッチする部分を検索し、マッチする部分を複数要素表現の要素として認定(特定)する。 Then, the multi-element expression analysis unit 22b searches for a portion that matches the regular expression of each pattern for the text to be processed, and certifies (identifies) the matching portion as an element of the multi-element expression.

なお、複数要素表現の中に複数要素表現が含まれる(入れ子構造である)場合、及び、パターン上は複数要素表現の形式であるが並列要素ではない場合(例えば副詞句である場合)等が存在する。このため、複数要素表現解析部22bは、検索によりマッチした要素が、特定対象となる複数要素表現の要素であるのかを判定してもよい。 In addition, there are cases where a multi-element expression is included in the multi-element expression (nested structure), and a case where the pattern is in the form of a multi-element expression but not a parallel element (for example, when it is an adverbial phrase). exist. Therefore, the multi-element expression analysis unit 22b may determine whether the element matched by the search is an element of the multi-element expression to be specified.

また、複数要素表現解析部22bは、上述したパターン記述を複数の部分に分割し、分割したパターン記述別に解析を行なってもよい。 Further, the multi-element expression analysis unit 22b may divide the above-mentioned pattern description into a plurality of parts and perform analysis for each divided pattern description.

(構成要素解決部22c)
構成要素解決部22cは、複数要素表現が指し示す実体を認定(特定)する。例えば、構成要素解決部22cは、以下の(i)〜(iii)の少なくとも1つの処理を行なってよい。
(Component solving unit 22c)
The component solving unit 22c recognizes (identifies) the entity pointed to by the multi-element expression. For example, the component solving unit 22c may perform at least one of the following processes (i) to (iii).

(i)参照表現解決処理
構成要素解決部22cは、「同」、「前」、「次」等の表現又は省略に対して、具体的に指し示すものを特定する。例えば、構成要素解決部22cは、「所得税法第二条第一項第八号の三から第十三号まで」の複数要素表現のうち、「第十三号」が「所得税法第二条第一項第十三号」であると特定してよい。
(I) Reference expression resolution process The component resolution unit 22c specifies a specific indication for expressions or omissions such as “same”, “previous”, and “next”. For example, in the component resolution unit 22c, among the multi-element expressions of "Income Tax Law Article 2, Paragraph 1, Item 8-3 to 13", "No. 13" is "Income Tax Law Article 2". It may be specified as "paragraph 1, item 13".

(ii)実体参照処理
構成要素解決部22cは、「所得税法第二条第一項第八号の三」のような実体を参照する表現に対して、KG等における「所得税法第二条第一項第八号の三」の実体(エンティティ)の識別子(ID;Identifier)を同定(特定)する。IDは、例えば、KGにおけるURI(Uniform Resource Locator)であってもよい。一例として、Linked DataのようなKGでは、URIを参照すると、当該項目に関連する情報が取得できるようになっている。構成要素解決部22cは、このようなKG等のURIを特定してよい。
(Ii) Entity Reference Processing The Component Resolution Unit 22c responds to expressions that refer to an entity, such as "Income Tax Law, Article 2, Paragraph 1, Item 8-3," in response to "Income Tax Law, Article 2, Item 2" in KG, etc. Identify (identify) the identifier (ID; Identifier) of the entity (entity) of "1. No. 8-3". The ID may be, for example, a URI (Uniform Resource Locator) in KG. As an example, in a KG such as Linked Data, information related to the item can be obtained by referring to the URI. The component solving unit 22c may specify such a URI such as KG.

(iii)文字列参照処理
構成要素解決部22cは、上記(ii)による実体参照を必要としない定義語等の要素を、リテラル(定数)として処理する。例えば、構成要素解決部22cは、「〜に規定する国内又は国外をいう。」の「国内」及び「国外」をそれぞれリテラルとして処理してよい。
(Iii) Character string reference processing The component solving unit 22c processes elements such as definition words that do not require substance reference according to (ii) above as literals (constants). For example, the component solving unit 22c may process "domestic" and "foreign" of "meaning domestic or foreign specified in ..." as literals, respectively.

(順序知識選定部22d)
順序知識選定部22dは、順序知識DB23から利用する順序知識23aを選定する。例えば、順序知識選定部22dは、順序知識DB23に複数の順序知識23aが存在する場合に、どの順序知識23aを利用するかを判定する。
(Order knowledge selection unit 22d)
The order knowledge selection unit 22d selects the order knowledge 23a to be used from the order knowledge DB 23. For example, the order knowledge selection unit 22d determines which order knowledge 23a is to be used when a plurality of order knowledge 23a exists in the order knowledge DB 23.

図5は、順序知識DB23の一例を示す図である。順序知識DB23は、順序知識23aとして、順序セット(順序集合)、順序セットに所属する各要素、及び、各要素の順番を示すインデクス等を含んでよい。 FIG. 5 is a diagram showing an example of the order knowledge DB 23. The order knowledge DB 23 may include an order set (order set), each element belonging to the order set, an index indicating the order of each element, and the like as the order knowledge 23a.

図5の例では、1行目で“ex:OrderSet”として定義される“a”タイプの“:Week”が順序セットである。6行目及び8行目で“memberOf :Week”として定義される“:Sunday”及び“:Monday”(その他は図示省略)のそれぞれは、順序セット“:Week”に所属する要素(メンバ要素)であり、“ex:index”によって当該要素の順番が示されている。なお、図5において、“#”は行内でのコメントアウトを示す記号である。 In the example of FIG. 5, the “a” type “: Week” defined as “ex: OrderSet” in the first line is the order set. Each of ": Sunday" and ": Monday" (others omitted) defined as "memberOf: Week" in the 6th and 8th lines belong to the order set ": Week" (member element). The order of the elements is indicated by "ex: index". In FIG. 5, “#” is a symbol indicating a comment out in the line.

このように、図5には、順序知識DB23が順序セット“:Week”に関する1つの順序知識23aを格納する例を示すが、これに限定されるものではなく、順序知識DB23は、複数の順序知識23aを格納してよい。順序知識23aの他の例としては、法令の条項に関する順序知識23a、並びに、順序セット“音名”、及び、要素“A”、“A#”、“B”、“C”、“C#”、・・・等が挙げられる。 As described above, FIG. 5 shows an example in which the order knowledge DB 23 stores one order knowledge 23a relating to the order set “: Week”, but the present invention is not limited to this, and the order knowledge DB 23 has a plurality of orders. Knowledge 23a may be stored. Other examples of sequence knowledge 23a include sequence knowledge 23a relating to statutory provisions, as well as sequence sets "note names" and elements "A", "A #", "B", "C", "C #", ... and so on.

順序知識23aにおいて、各要素には、当該要素を表現する1以上の表現形が設定される。図5の例では、要素“:Sunday”には、表現形“rdfs:label”として、日本語“@ja”の“日曜日”及び“日”、中国語“@zn”の“星期天”が設定されている。他の例としては、順序セット“音名”の要素“A”には、表現形“rdfs:label”として、“A”、“イ”、“ラ”、“La”、“拉”、・・・等が設定されてよい。 In the order knowledge 23a, each element is set with one or more phenotypes expressing the element. In the example of FIG. 5, the element ": Sunday" is set to "Sunday" and "Sun" in Japanese "@ja" and "Star period heaven" in Chinese "@zn" as the phenotype "rdfs: label". Has been done. As another example, in the element "A" of the order set "note name", the phenotype "rdfs: label" is "A", "i", "la", "La", "la", ...・ ・ Etc. may be set.

また、各順序知識23aには、メタデータが含まれてよい。メタデータには、順序セットの性質を示す属性、並びに、利用分野等の記述(或いはそのキーワード)等の情報が含まれてよい。 Further, each sequence knowledge 23a may include metadata. The metadata may include attributes indicating the nature of the order set, as well as information such as descriptions (or keywords thereof) of fields of use and the like.

メタデータのうちの属性の情報には、例えば、順序セットの要素の順番の方向性、要素の循環性等の情報が含まれてよい。 The attribute information in the metadata may include, for example, information such as the directionality of the order of the elements in the sequence set, the circularity of the elements, and the like.

図5の例では、3行目で“ex:cyclicity”として定義される循環性の有無の値が“True”である場合に循環性があることを意味し、“False”である場合に循環性がないことを意味する。例えば、順序セット“:Week”の場合、要素“:Saturday”及びインデクス“6”で示される「土曜日」(図示省略)の次は、要素“:Sunday”及びインデクス“0”で示される「日曜日」(6行目参照)であるため、循環性“ex:cyclicity”の値は“True”となる。なお、順序セットの要素数は、4行目の“ex:numberOfElements”の値(図5の例では“7”)により示される。 In the example of FIG. 5, when the value of the presence / absence of circulation defined as “ex: cyclicity” in the third line is “True”, it means that there is circulation, and when it is “False”, it means circulation. It means that there is no sex. For example, in the case of the sequence set ": Week", "Saturday" (not shown) indicated by the element ": Saturday" and the index "6" is followed by "Sunday" indicated by the element ": Sunday" and the index "0". (See the 6th line), so the value of the cyclicity "ex: cyclicity" is "True". The number of elements in the order set is indicated by the value of "ex: numberOfElements" in the fourth row ("7" in the example of FIG. 5).

循環性のある順序セットの例としては、“:Week”(曜日)の他に、月名、循環路線(例えば山の手線)の駅名等が挙げられる。 Examples of a cyclical order set include, in addition to ": Week" (day of the week), a month name, a station name of a circular line (for example, the Yamanote line), and the like.

なお、循環性のある順序セットには、曜日及び月名のように、標準的な方向性のある順序セット(曜日の場合、「日曜日」の次は「月曜日」等)と、方向性が明確でない順序セットとが存在する。方向性が明確でない順序セットの一例としては、循環路線(例えば山の手線)の駅名等が挙げられる。方向性が明確でない順序セットに対しては、メタデータとして、方向性を示す表現(例えば、「内回り」、「外回り」)等が設定されてよい。 In addition, the circular order set has a clear direction as a standard directional order set (in the case of a day of the week, "Sunday" is followed by "Monday", etc.), such as the day of the week and the month name. There is an order set that is not. An example of an order set in which the direction is not clear is the station name of a circulation line (for example, the Yamanote line). For an order set in which the directionality is not clear, expressions indicating the directionality (for example, "inner loop", "outer loop") and the like may be set as metadata.

メタデータのうちの利用分野等の記述(或いはそのキーワード)の情報としては、例えば、順序セットの説明、及び、順序セットの関連キーワード等が挙げられる。 Information on the description (or its keyword) of the field of use or the like in the metadata includes, for example, an explanation of the order set, a related keyword of the order set, and the like.

図5の例では、2行目で“ex:description”として定義される“週。7日を1周期とする時間の単位。”(日本語“@ja”)が順序セットの説明である。また、5行目で“ex:topic”として定義される“週”、“曜日”、“平日”、“休日”(いずれも日本語“@ja”)が関連キーワードである。他の例としては、順序セット“音名”の関連キーワードとして、“絶対的な音の高さ”、“音階”、“オクターブ”、・・・等が設定されてよい。 In the example of FIG. 5, "week. A unit of time with 7 days as one cycle." (Japanese "@ja") defined as "ex: description" in the second line is an explanation of the order set. In addition, "week", "day of the week", "weekday", and "holiday" (all in Japanese "@ja") defined as "ex: topic" in the fifth line are related keywords. As another example, "absolute pitch", "scale", "octave", ..., Etc. may be set as related keywords of the order set "note name".

なお、順序知識DB23には、複数の順序知識23aのそれぞれについて、上述した形式でメンバ要素及びインデクスを含む情報が記憶されてよい。また、順序知識DB23は、順序知識23aの情報を、テーブル形式で保持してもよいし、KGとして、例えばRDF(Resource Description Framework)形式で保持してもよい。順序知識DB23は、例えば、図2に示すメモリ10b及び記憶部10cの少なくとも1つが有する記憶領域により実現されてよい。なお、順序知識DB23には、例えば、知識抽出処理の実行タイミングよりも前に、1以上の順序知識23aが格納されてよい。 The order knowledge DB 23 may store information including member elements and indexes for each of the plurality of order knowledge 23a in the above-mentioned format. Further, the sequence knowledge DB 23 may hold the information of the sequence knowledge 23a in a table format, or may hold the information of the sequence knowledge 23a in a table format or, for example, in an RDF (Resource Description Framework) format as KG. The order knowledge DB 23 may be realized, for example, by a storage area possessed by at least one of the memory 10b and the storage unit 10c shown in FIG. In the order knowledge DB 23, for example, one or more order knowledge 23a may be stored before the execution timing of the knowledge extraction process.

順序知識選定部22dは、例えば、順序知識DB23から、構成要素解決部22cにより特定された範囲表現のそれぞれをメンバ要素の表記に持つ順序知識23aを取り出す。 For example, the order knowledge selection unit 22d extracts from the order knowledge DB 23 the order knowledge 23a having each of the range expressions specified by the component solving unit 22c in the notation of the member elements.

ここで、順序知識23aが一意に決まらない場合がある。例えば、範囲表現が「ハからホ」である場合、「ハ」及び「ホ」は、順序知識23aのうちの、いろは順(イ、ロ、ハ、ニ、ホ)の順序知識23a、及び、50音順(ハ、ヒ、フ、ヘ、ホ)の順序知識23a、の双方に該当する。 Here, the order knowledge 23a may not be uniquely determined. For example, when the range expression is "ha to ho", "ha" and "ho" are the order knowledge 23a of the iroha order (a, ro, ha, ni, ho) of the order knowledge 23a, and It corresponds to both of the order knowledge 23a in the order of the Japanese syllabary (ha, hi, fu, he, e).

このような場合、順序知識選定部22dは、例えば、テキスト(抽出範囲)に含まれる表現に基づき、当該表現(例えばキーワード等)と、順序セットのメンバ要素との一致度を求め、評価関数に基づき順序知識23aを決定してよい。テキスト(抽出範囲)に含まれる表現としては、例えば、構成要素解決部22cにより特定されたその他の範囲表現(例えば「変ロ」等が含まれる)、及び、テキスト(抽出範囲)の中の範囲表現以外の表現(一般的表現)に出現するキーワード(例えば「オクターブ」)等が挙げられる。 In such a case, the order knowledge selection unit 22d obtains the degree of matching between the expression (for example, a keyword or the like) and the member element of the order set based on the expression included in the text (extraction range), and uses it as an evaluation function. Based on this, the order knowledge 23a may be determined. The expressions included in the text (extraction range) include, for example, other range expressions (including, for example, “variant”) specified by the component solving unit 22c, and the range in the text (extraction range). Keywords (for example, "octave") appearing in expressions other than expressions (general expressions) can be mentioned.

なお、順序知識選定部22dは、例えば、評価関数に基づき、評価値が最大となる1つの順序知識23aを決定してもよいし、評価値が上位n(nは2以上の整数)個の(候補としての)順序知識23aを決定してもよい。 The order knowledge selection unit 22d may determine, for example, one order knowledge 23a having the maximum evaluation value based on the evaluation function, or have n (n is an integer of 2 or more) higher evaluation values. The sequence knowledge 23a (as a candidate) may be determined.

(順序認識部22e)
順序認識部22eは、以下の(I)〜(VI)の処理を実行してよい。また、順序認識部22e(或いは複数要素表現解析部22b)は、以下の(I)〜(VI)の処理に関連して、オプションとして以下の(VII)及び(VIII)の処理を実行してもよい。
(Order recognition unit 22e)
The order recognition unit 22e may execute the following processes (I) to (VI). Further, the order recognition unit 22e (or the multi-element expression analysis unit 22b) optionally executes the following processes (VII) and (VIII) in connection with the following processes (I) to (VI). May be good.

(I)実体の認定
順序認識部22eは、例えば、範囲表現の始端要素表現sと終端要素表現eに対して、順序知識23aのラベル(rdfs:label)と一致する表現を探索し、始端要素表現sと終端要素表現eのそれぞれの実体を認識する。
(I) Identification of substance The order recognition unit 22e searches for an expression that matches the label (rdfs: label) of the order knowledge 23a for the start element expression s and the end element expression e of the range expression, and the start element. Recognize each entity of the expression s and the terminal element expression e.

始端要素表現sは、第1の複数の要素のうちのテキストに記載されている複数の要素のうちの(最初に出現する)始端要素の一例である。終端要素表現eは、第1の複数の要素のうちのテキストに記載されている複数の要素のうちの(最後に出現する)終端要素の一例である。なお、第1の複数の要素は、図3の例では、所得税法の複数の条項である。 The starting element representation s is an example of the starting element (first appearing) among the plurality of elements described in the text of the first plurality of elements. The terminal element representation e is an example of the (last appearing) terminal element among the plurality of elements described in the text of the first plurality of elements. The first plurality of elements are, in the example of FIG. 3, a plurality of provisions of the Income Tax Act.

一例として、範囲表現が「月から日まで」である場合、順序認識部22eは、始端要素表現sとして「月」を特定し、終端要素表現eとして「日」を特定する。 As an example, when the range expression is "from month to day", the order recognition unit 22e specifies "month" as the start element expression s and "day" as the end element expression e.

順序認識部22eは、順序知識23aのメンバ要素を参照し、始端要素表現s「月」の実体Sとして、“:Monday”、終端要素表現e「日」の実体Eとして“:Sunday”をそれぞれ特定する。 The order recognition unit 22e refers to the member elements of the order knowledge 23a, and sets “: Monday” as the entity S of the start element expression s “month” and “: Sunday” as the entity E of the end element expression e “day”, respectively. Identify.

実体S及び実体Eとしては、それぞれ、複数の候補が特定されてもよい。以下、複数の候補が特定された場合を含めるために、実体S及び実体Eのそれぞれを実体S_i及び実体E_jと表記する場合がある。i及びjは、それぞれ、五十音、音程等であってもよいし、1以上の整数であってもよい。換言すれば、始端要素表現s或いは終端要素表現eに対して複数の実体候補S_1、S2、・・・や、E_1、E_2、・・・が存在してよい。例えば、「イ」には、実体「イ_五十音」や「イ_音程」等が存在してよく、これらの実体(候補)がS_i、E_jと表現されてよい。 As the entity S and the entity E, a plurality of candidates may be specified for each. Hereinafter, in order to include the case where a plurality of candidates are specified, the substance S and the substance E may be referred to as the substance S_i and the substance E_j, respectively. i and j may be Japanese syllabary, pitch, or the like, respectively, or may be an integer of 1 or more. In other words, there may be a plurality of entity candidates S_1, S2, ..., E_1, E_2, ... For the start element expression s or the end element expression e. For example, the entity "i_gojyuon", "i_pitch", and the like may exist in "i", and these entities (candidates) may be expressed as S_i and E_j.

(II)順序セットの認定
順序認識部22eは、始端要素表現s或いは終端要素表現eの少なくとも一方に紐付けられる実体に複数の候補S_iやE_jが存在する場合、実体S_i及び実体E_jのそれぞれに対して、所属する順序セットOを求め、順序セットOの中で、実体S_i及び実体E_jの間で共通する順序セットを求める。
(II) Certification of order set When the entity associated with at least one of the start element expression s or the end element expression e has a plurality of candidates S_i and E_j, the order recognition unit 22e is assigned to each of the entities S_i and E_j. On the other hand, the order set O to which the entity belongs is obtained, and the order set common between the entities S_i and the entity E_j is obtained in the order set O.

例えば、順序認識部22eは、“:Monday”(S_i)が所属する“:Week”(O)、及び、“:Sunday”(E_j)が所属する“:Week”(O)を求め、実体S_i及び実体E_j間で共通する順序セットとして、“:Week”を求める。 For example, the order recognition unit 22e obtains “: Week” (O) to which “: Monday” (S_i) belongs and “: Week” (O) to which “: Sunday” (E_j) belongs, and the entity S_i And, as an order set common between the entities E_j, ": Week" is obtained.

このように、順序認識部22eは、始端要素表現s及び終端要素表現eを特定し、複数の順序知識23aから、始端要素表現s及び終端要素表現eのそれぞれを、順序付けられた複数の要素内に含む第1の順序知識23aを特定する。これにより、範囲表現である第1の集合に対して利用する適切な順序知識23aを特定することができる。 In this way, the order recognition unit 22e specifies the start element expression s and the end element expression e, and from the plurality of order knowledge 23a, each of the start element expression s and the end element expression e is in the plurality of ordered elements. The first order knowledge 23a included in is specified. Thereby, it is possible to specify an appropriate order knowledge 23a to be used for the first set which is a range representation.

(III)順序セット決定
順序認識部22eは、上記(II)の処理において、複数の順序セットを候補として求めた場合、換言すれば、順序付けられた複数の要素内に始端要素表現s及び終端要素表現eを含む第1の順序知識23aの候補が複数存在する場合、候補の順序セットの中から1つの順序セットを決定する。
(III) Order set determination When the order recognition unit 22e obtains a plurality of order sets as candidates in the process of (II) above, in other words, the start element expression s and the end element are contained in the ordered plurality of elements. When there are a plurality of candidates of the first order knowledge 23a including the expression e, one order set is determined from the candidate order sets.

例えば、実体S_i又は実体E_jが以下のように、文字列「イ」に紐付けられる実体である場合を想定する。
:イ@五十音 :memberOf :五十音 ; ex:index 1; rdfs:label “イ”@ja
:イ@イロハ :memberOf :イロハ ; ex:index 0; rdfs:label “イ”@ja
For example, it is assumed that the entity S_i or the entity E_j is an entity associated with the character string "a" as shown below.
: I @ Japanese syllabary: memberOf: Japanese syllabary; ex: index 1; rdfs: label “I” @ja
: I @ Iroha: memberOf: Iroha; ex: index 0; rdfs: label “I” @ja

上記例のように、文字列「イ」に紐付けられる実体は、順序セット“:五十音”の要素でもあり、また、順序セット“:イロハ”の要素でもある。同様に、文字列「ニ」に紐付けられる実体も両者の要素である。 As in the above example, the entity associated with the character string "i" is both an element of the order set ": Japanese syllabary" and an element of the order set ": Iroha". Similarly, the entity associated with the character string "d" is also an element of both.

順序認識部22eは、上記のような場合、要素数、或いは、ヒューリスティックスに基づき順序セットを決定する。 In the above case, the order recognition unit 22e determines the order set based on the number of elements or heuristics.

例えば、順序認識部22eは、要素数に基づく順序セットの決定では、例えば、実体「イ_イロハ」と、実体「ハ_イロハ」とでは要素数は3であるが、実体「イ_五十音」と実体「ハ_五十音」とでは要素数は25になるので、知識抽出範囲の他の複数要素の個数と整合性が取れる順序セット、例えば、実体S_iから実体E_jまでの要素数と知識抽出範囲の他の複数要素の個数とが一致する順序セットを求めてよい。 For example, in the determination of the order set based on the number of elements, the order recognition unit 22e has, for example, the entity "I_Iroha" and the entity "Ha_Iroha" having three elements, but the entity "I_50". Since the number of elements is 25 between the substance "sound" and the entity "ha_five sounds", an order set that can be consistent with the number of other multiple elements in the knowledge extraction range, for example, the number of elements from the entity S_i to the entity E_j. You may find an order set that matches the number of other elements in the knowledge extraction range.

換言すれば、順序知識23aは、複数の候補の順序知識23aのそれぞれが示す順序に従った始端要素表現s及び終端要素表現eまでの要素数が、第2の複数の要素の要素数と一致する候補を、第1の順序知識23aとして特定する。なお、第2の複数の要素は、図3の例では、定義句(法人課税信託等)である。 In other words, in the order knowledge 23a, the number of elements up to the start element expression s and the end element expression e according to the order indicated by each of the order knowledge 23a of the plurality of candidates matches the number of elements of the second plurality of elements. The candidate to be used is specified as the first order knowledge 23a. The second plurality of elements are definition phrases (corporate taxation trust, etc.) in the example of FIG.

また、例えば、順序認識部22eは、ヒューリスティックスに基づく順序セットの決定では、「始端要素表現sのインデクスは“0”であることが多い」等のヒューリスティックスに適合する順序セットを決定してよい。 Further, for example, the order recognition unit 22e may determine an order set suitable for heuristics such as "the index of the starting element expression s is often" 0 "" in the determination of the order set based on the heuristics.

一例として、順序認識部22eは、始端要素表現sが「イ」であるのなら、実体S_iは順序セット“:五十音”である可能性よりも順序セット“:イロハ”である可能性の方が高い、といったヒューリスティックスに基づき、順序セット“:イロハ”を選択してよい。なお、順序認識部22eは、例えば、1以上のヒューリスティックスのそれぞれを一次式として保持し、利用してよい。 As an example, in the order recognition unit 22e, if the starting element expression s is "i", the entity S_i may be an order set ": Iroha" rather than an order set ": Japanese syllabary". The order set ": Iroha" may be selected based on heuristics such as higher. The order recognition unit 22e may hold, for example, each of one or more heuristics as a linear expression and use it.

換言すれば、順序知識23aは、複数の候補の順序知識23aのそれぞれが示す順序と、始端要素表現s及び終端要素表現eの少なくとも一方とに基づくヒューリスティックスに応じて、複数の候補から第1の順序知識23aを特定する。 In other words, the order knowledge 23a is the first from the plurality of candidates depending on the heuristics based on the order indicated by each of the order knowledge 23a of the plurality of candidates and at least one of the start element expression s and the end element expression e. Specify the sequence knowledge 23a.

このように、順序知識23aは、要素数、或いは、ヒューリスティックスに基づき、複数の候補の順序セットから、1つの適切な順序セットを決定することができる。 In this way, the order knowledge 23a can determine one appropriate order set from a plurality of candidate order sets based on the number of elements or heuristics.

なお、順序認識部22eは、(III)の処理において、候補としての複数の順序セットから1つの順序セットを決定せずに、候補としての複数の順序セットのそれぞれについて(IV)以降の処理を行ない、(IV)〜(VIII)の処理のいずれかにおいて、1つの順序セットを決定してもよい。 In addition, in the process of (III), the order recognition unit 22e does not determine one order set from the plurality of order sets as candidates, but performs the processing after (IV) for each of the plurality of order sets as candidates. One set of order may be determined in any of the processes (IV) to (VIII).

(IV)インデクスの特定
順序認識部22eは、特定した始端要素表現sの実体S、及び、終端要素表現eの実体Eのそれぞれに対して、インデクスI_S及びI_Eを求める。
(IV) Specifying the index The order recognition unit 22e obtains the indexes I_S and I_E for the substance S of the specified start element expression s and the substance E of the end element expression e, respectively.

例えば、順序セット“:Week”、実体S“:Monday”及び実体E“:Sunday”がそれぞれ特定されている場合を想定する。この場合、順序認識部22eは、順序セット“:Week”の順序知識23aに基づき、実体S“:Monday”のインデクスI_Sとして“1”を特定し、実体E“:Sunday”のインデクスI_Eとして“0”を特定する(図5参照)。 For example, assume that the order set “: Week”, the entity S “: Monday”, and the entity E “: Sunday” are specified, respectively. In this case, the order recognition unit 22e specifies "1" as the index I_S of the entity S ": Monday" based on the order knowledge 23a of the order set ": Week", and sets "1" as the index I_E of the entity E ": Sunday". Specify "0" (see Fig. 5).

(V)方向認定
順序認識部22eは、順序セットに対して循環性の有無を求める。例えば、順序認識部22eは、順序セットの順序知識23aを参照して、メタデータの循環性“ex:cyclicity”の値が“True”か否かを判定する。
(V) Directional recognition The order recognition unit 22e determines the presence or absence of circulation in the order set. For example, the order recognition unit 22e refers to the order knowledge 23a of the order set and determines whether or not the value of the metadata circulation “ex: cyclicity” is “True”.

循環性“ex:cyclicity”の値が“False”である(循環性がない)場合、順序認識部22eは、I_E>I_Sの場合は、方向が“+”(プラス)であると判定し、I_E<I_Sの場合は、方向が“−”(マイナス)であると判定する。 When the value of the cyclicity “ex: cyclicity” is “False” (no cyclicity), the order recognition unit 22e determines that the direction is “+” (plus) when I_E> I_S. When I_E <I_S, it is determined that the direction is "-" (minus).

循環性“ex:cyclicity”の値が“True”である(循環性がある)場合、順序認識部22eは、方向性が明確な場合(メタデータにおいて方向指示表現がない場合を含む)、方向が“+”(プラス)であると判定する。図5の例では、“ex:cyclicity”の値が“True”であって、方向性が明確であるため、順序認識部22eは、方向を“+”と判定する。 When the value of the cyclicity “ex: cyclicity” is “True” (there is a circularity), the order recognition unit 22e indicates the direction when the direction is clear (including the case where there is no direction indication expression in the metadata). Is determined to be "+" (plus). In the example of FIG. 5, since the value of “ex: cyclicity” is “True” and the directionality is clear, the order recognition unit 22e determines that the direction is “+”.

一方、循環性“ex:cyclicity”の値が“True”である(循環性がある)場合であって、方向性が不明確な場合、順序認識部22eは、順序セットの順序知識23aから方向指示表現を抽出し、当該表現に応じて方向(インデクスの“+”又は“−”)を決定する。なお、方向指示表現については後述する。 On the other hand, when the value of the cyclicity “ex: cyclicity” is “True” (there is circularity) and the directionality is unclear, the order recognition unit 22e is directed from the order knowledge 23a of the order set. The instructional expression is extracted, and the direction (“+” or “-” of the index) is determined according to the expression. The direction indication expression will be described later.

(VI)範囲要素の認定
順序認識部22eは、順序知識23aを参照して、I_SからI_Eまでインデクスを方向性に合わせて“+1”(インクリメント)又は“−1”(デクリメント)しながら、それぞれの要素を抽出する。
(VI) Certification of range elements The order recognition unit 22e refers to the order knowledge 23a and sets the index from I_S to I_E according to the direction by "+1" (increment) or "-1" (decrement), respectively. Extract the elements of.

このとき、順序セットに循環性がある場合、順序認識部22eは、例えば、集合内要素数の剰余(mod)を演算してよい。例えば、要素数“7”、方向“+”である場合、インデクス“6”の次は、“(6 + 1) (mod 7) = 0”により“0”となる。 At this time, if the order set has circularity, the order recognition unit 22e may calculate, for example, the remainder (mod) of the number of elements in the set. For example, when the number of elements is “7” and the direction is “+”, the index “6” is followed by “(6 + 1) (mod 7) = 0”, which results in “0”.

一例として、実体S“:Monday”のインデクス“I_S”が“1”であり、実体E“:Sunday”のインデクス“I_E”が“0”であり、方向が“+”である場合、順序認識部22eは、インデクス及び要素のそれぞれを、以下のように決定及び抽出する。
・インデクス:“1”, “2”, “3”, “4”, “5”, “6”, “0”
・要素:“:Monday”, “:Tuesday”, ..., “:Sunday”
As an example, when the index "I_S" of the entity S ": Monday" is "1", the index "I_E" of the entity E ": Sunday" is "0", and the direction is "+", the order is recognized. Part 22e determines and extracts each of the index and the element as follows.
・ Index: “1”, “2”, “3”, “4”, “5”, “6”, “0”
-Elements: “: Monday”, “: Tuesday”, ..., “: Sunday”

以下、順序認識部22eが、他の例として、「所得税法第二条第一項第八号の三から第十三号まで」という範囲表現から要素を抽出する場合の処理を説明する。 Hereinafter, as another example, the order recognition unit 22e will explain the process of extracting an element from the range expression “from income tax law Article 2, paragraph 1, item 8-3 to item 13”.

図6は、順序知識23aに基づく範囲要素の展開処理の一例を説明するための図である。図6には、順序セット“所得税法”及びそのパラメータ、並びに、順序セットのメンバ要素の一部を例示する。なお、図6において、インデクス(index)は、順序セット“所得税法”の全体におけるメンバ要素のインデクスを1階層のスカラーで表現してもよいし、複数階層のベクトルで表現してもよい。複数階層のベクトルでのインデクスの表現例としては、第一条(1,)、第一条第一項(1, 1)、第二条(2,)、第二条第一項(2, 1)等であってよい。 FIG. 6 is a diagram for explaining an example of the expansion process of the range element based on the order knowledge 23a. FIG. 6 illustrates the order set “Income Tax Act” and its parameters, as well as some of the member elements of the order set. In FIG. 6, the index may be represented by a scalar of one layer or a vector of a plurality of layers in the index of the member element in the whole of the order set “Income Tax Act”. Examples of expression of indexes in multi-level vectors are Article 1 (1,), Article 1 Paragraph 1 (1, 1), Article 2 (2,), Article 2 Paragraph 1 (2,,). 1) etc. may be used.

順序認識部22eは、図6に例示する順序知識23aを参照することで、以下のように、範囲表現の要素(範囲要素)を展開することができる。
「所得税法第二条第一項第八号の三」、「所得税法第二条第一項第八号の四」、「所得税法第二条第一項九号」、「所得税法第二条第一項十号」、「所得税法第二条第一項十一号」、「所得税法第二条第一項十二号」、「所得税法第二条第一項十二号の二」、「所得税法第二条第一項十三号」
The order recognition unit 22e can develop the element (range element) of the range expression as follows by referring to the order knowledge 23a illustrated in FIG.
"Income Tax Law, Article 2, Paragraph 1, Item 8-3", "Income Tax Law, Article 2, Paragraph 1, Item 8-4", "Income Tax Law, Article 2, Paragraph 1, Item 9", "Income Tax Law, No. 2" Article 1, Paragraph 1, Item 10, "Income Tax Law, Article 2, Paragraph 1, Item 11", "Income Tax Law, Article 2, Paragraph 1, Item 12", "Income Tax Law, Article 2, Paragraph 1, Item 12-2" , "Income Tax Law, Article 2, Paragraph 1, Item 13"

このように、順序認識部22eは、第1の順序知識23aが示す順序の循環の有無と、循環の有無に基づき特定される順序の方向と、に基づいて、第1の順序知識23aから、始端要素表現sから終端要素表現eまでのそれぞれの要素を第1の複数の要素として抽出する。これにより、テキストに記載されていない要素が存在する場合であっても、第1の集合における範囲指定等において適切な第1の複数の要素の取り出しが可能となる。 As described above, the order recognition unit 22e is based on the presence or absence of the circulation of the order indicated by the first order knowledge 23a and the direction of the order specified based on the presence or absence of the circulation, from the first order knowledge 23a. Each element from the start element expression s to the end element expression e is extracted as the first plurality of elements. As a result, even if there are elements not described in the text, it is possible to take out the first plurality of elements that are appropriate for the range specification in the first set.

(VII)方向指示処理(オプショナル)
以下、上記(V)の処理における方向指示表現について説明する。方向性が不明確な順序セットは、順序知識23aのメタデータとして、各方向に対して与えられる方向指示語を保持してよい。
(VII) Direction instruction processing (optional)
Hereinafter, the direction instruction expression in the process of (V) above will be described. An ordinal set with unclear directionality may retain directional directives given for each direction as metadata for ordinal knowledge 23a.

図7は、方向指示語を含む順序知識23aの一例を示す図である。図7に例示するように、順序セット“:山手線”の各停車駅をメンバ要素として含む順序知識23aには、パラメータとして、昇順及び降順のラベル(方向指示語)が設定されてよい。 FIG. 7 is a diagram showing an example of order knowledge 23a including direction indicating words. As illustrated in FIG. 7, ascending and descending labels (direction directives) may be set as parameters in the order knowledge 23a including each stop station of the order set “: Yamanote Line” as a member element.

例えば、昇順のラベル“ex:ascendingOrderLabel”には、“外回り”(日本語“@ja”)が設定され、降順のラベル“ex:descendingOrderLabel”には、“内回り”(日本語“@ja”)が設定されてよい。 For example, the ascending label “ex: ascendingOrderLabel” is set to “outer loop” (Japanese “@ja”), and the descending label “ex: descendingOrderLabel” is set to “inner loop” (Japanese “@ja”). May be set.

なお、複数要素表現解析部22bは、知識化範囲認定部22aが認定した範囲から並列句及び範囲表現を抽出する際に、以下に例示するように、方向指示語も抽出してよい。
r“<始端要素>から<終端要素>まで<方向指示語>の?順に”
When the multi-element expression analysis unit 22b extracts the parallel phrase and the range expression from the range certified by the knowledgeable range certification unit 22a, the multi-element expression analysis unit 22b may also extract the directional demonstrative words as illustrated below.
r “In order of <direction indicator> from <starting element> to <ending element>”

例えば、順序認識部22eは、複数要素表現解析部22bにより方向指示語が抽出された場合、順序セットにおける方向指示語のラベルのうちの、抽出された方向指示語とマッチ(一致)する方向指示語を探索することで、方向を決定してもよい。方向の決定は、複数要素表現解析部22bが実行してもよい。 For example, when the multi-element expression analysis unit 22b extracts a demonstrative word, the order recognition unit 22e indicates a direction that matches (matches) the extracted demonstrative word in the label of the demonstrative word in the order set. You may determine the direction by searching for a word. The determination of the direction may be executed by the multi-element expression analysis unit 22b.

(VIII)除外表現処理及び併用処理(オプショナル)
複数要素表現解析部22bは、数え上げ表現及び除外表現を抽出してもよい。除外表現の一例としては、以下のように、括弧“()”内に記載された“<除外範囲>を除く”という表現である。
r“<始端要素>から<終端要素>まで(<除外範囲>を除く)”
(VIII) Exclusion expression processing and combined processing (optional)
The multi-element expression analysis unit 22b may extract the enumeration expression and the exclusion expression. As an example of the exclusion expression, it is the expression "excluding <exclusion range>" described in parentheses "()" as shown below.
r "From <starting element> to <ending element> (excluding <exclusion range>)"

例えば、順序認識部22eは、数え上げ表現及び除外表現に対して、順序知識23aを参照して、具体的な実体を特定してよい。一例として、順序認識部22eは、数え上げ表現に対しては、複数範囲要素を繰り返し呼び出して、要素を繋げて抽出する。他の例として、順序認識部22eは、除外表現に対しては、抽出された要素から、除外表現で指定された要素を取り除く。 For example, the order recognition unit 22e may specify a specific entity with reference to the order knowledge 23a for the counting expression and the exclusion expression. As an example, the order recognition unit 22e repeatedly calls a plurality of range elements for the enumeration expression, and connects and extracts the elements. As another example, the order recognition unit 22e removes the element specified by the exclusion expression from the extracted elements for the exclusion expression.

このように、順序認識部22eは、複数の順序知識23aから、第1の複数の要素のうちのテキストに記載されている複数の要素のそれぞれを、順序付けられた複数の要素内に含む第1の順序知識23aを特定する。なお、順序認識部22eは、同様に、複数の順序知識23aから、第2の複数の要素のうちのテキストに記載されている複数の要素のそれぞれを、順序付けられた複数の要素内に含む第2の順序知識23aを特定する。 As described above, the order recognition unit 22e includes, from the plurality of order knowledge 23a, each of the plurality of elements described in the text among the first plurality of elements in the ordered plurality of elements. The order knowledge 23a of is specified. Similarly, the order recognition unit 22e includes, from the plurality of order knowledge 23a, each of the plurality of elements described in the text among the second plurality of elements in the ordered plurality of elements. The order knowledge 23a of 2 is specified.

これにより、順序認識部22eは、表層的な表現ではなく、第1の集合に含まれる第1の複数の要素の各表現が指し示す実体を認識することができ、第1の集合における範囲指定等において適切な要素の取り出しが可能となる。 As a result, the order recognition unit 22e can recognize the entity pointed to by each expression of the first plurality of elements included in the first set, instead of the superficial expression, and can specify the range in the first set, etc. It is possible to take out appropriate elements in.

また、順序認識部22eは、第1の複数の要素から、除外表現を削除することで、テキストに除外表現が含まれる場合であっても、適切な要素の取り出しが可能となる。 Further, by deleting the exclusion expression from the first plurality of elements, the order recognition unit 22e can extract an appropriate element even when the text includes the exclusion expression.

以上のように、制御部の一例(一部の機能)としての知識化範囲認定部22a、複数要素表現解析部22b、構成要素解決部22c、順序知識選定部22d、及び、順序認識部22eによれば、以下のように、少なくとも第1の複数の要素を特定できる。すなわち、制御部は、テキストから第1の集合と第2の集合とを検知すると、第1の順序知識23aを参照し、少なくとも1部分がテキストには記載されていない第1の集合に含まれる第1の複数の要素を特定できる。 As described above, the knowledge acquisition range recognition unit 22a, the multi-element expression analysis unit 22b, the component resolution unit 22c, the order knowledge selection unit 22d, and the order recognition unit 22e as an example (partial function) of the control unit According to this, at least the first plurality of elements can be specified as follows. That is, when the control unit detects the first set and the second set from the text, it refers to the first order knowledge 23a, and at least one part is included in the first set not described in the text. The first plurality of elements can be identified.

(対応関係認定部22f)
対応関係認定部22fは、知識化対象のテキスト中に複数箇所の複数要素表現が存在する場合に、順序認識部22eにより複数要素表現から展開された個々の要素表現に対して、複数要素表現間で対応付けを行なう。
(Correspondence Relationship Certification Department 22f)
When the correspondence recognition unit 22f has multiple element expressions in a plurality of places in the text to be knowledgeed, the correspondence recognition unit 22f can be used between the multiple element expressions for each element expression developed from the multiple element expressions by the order recognition unit 22e. Correspond with.

一例として、図5に示すテキストがサーバ2に入力された場合、上述した知識化範囲認定部22a〜順序認識部22eによる処理結果から、以下のように、括弧“()”内に示す3つの複数要素表現が認識されている。
「(法人課税信託、恒久的施設、・・・有価証券) それぞれ(所得税法第二条第一項第八号の三、所得税法第二条第一項第八号の四、所得税法第二条第一項第九号、・・・、所得税法第二条第一項第十七号)に規定する(法人課税信託、恒久的施設、・・・有価証券)をいう。」
As an example, when the text shown in FIG. 5 is input to the server 2, from the processing results by the above-mentioned knowledge acquisition range recognition unit 22a to order recognition unit 22e, the three shown in parentheses “()” are as follows. Multi-element representation is recognized.
"(Corporate taxation trust, permanent facility, ... securities) (Income Tax Law, Article 2, Paragraph 1, Item 8-3, Income Tax Law, Article 2, Paragraph 1, Item 8-4, Income Tax Law, Second) Article 1, item 9, ..., Income Tax Act, Article 2, paragraph 1, item 17) (corporate taxation trust, permanent facility, ... securities). "

対応関係認定部22fは、上記例の場合、以下のように、複数要素表現間で要素を対応付けた対応関係を抽出する。
(法人課税信託,所得税法第二条第一項第八号の三,法人課税信託)、
(恒久的施設,所得税法第二条第一項第八号の四,恒久的施設)、

(有価証券,所得税法第二条第一項第十七号,有価証券)
In the case of the above example, the correspondence relationship recognition unit 22f extracts the correspondence relationship in which the elements are associated between the plurality of element expressions as follows.
(Corporate taxation trust, Income Tax Act, Article 2, Paragraph 1, Item 8-3, Corporate taxation trust),
(Permanent establishment, Income Tax Act, Article 2, Paragraph 1, Item 8-4, Permanent establishment),

(Securities, Income Tax Act, Article 2, Paragraph 1, Item 17, Securities)

このように、対応関係認定部22fは、第1の順序知識23aが示す第1の複数の要素内の順序と、第2の順序知識23aが示す第2の複数の要素内の順序と、に基づいて、第1の複数の要素のそれぞれと第2の複数の要素のそれぞれとを対応付けた対応関係を抽出する。これにより、適切な対応関係を取得することができる。 In this way, the correspondence certification unit 22f determines the order in the first plurality of elements indicated by the first order knowledge 23a and the order in the second plurality of elements indicated by the second order knowledge 23a. Based on this, the correspondence relationship in which each of the first plurality of elements and each of the second plurality of elements are associated with each other is extracted. As a result, an appropriate correspondence can be obtained.

(メタ表現認識部22g)
メタ表現認識部22gは、予め設定された辞書を参照することで、メタ表現、例えば、「それぞれ」、「各々」、「及び」、「又は」等の表現を特定し、特定したこれらのメタ表現を削除する。削除とは、例えば、抽出結果からの当該メタ表現の削除を含んでもよく、知識化部22hによる処理で処理対象の表現とならないように、無視する(無効な表現として管理する)ことを含んでもよい。
(Meta expression recognition unit 22g)
The meta expression recognition unit 22g identifies and identifies meta expressions such as "each", "each", "and", and "or" by referring to a preset dictionary. Delete the expression. The deletion may include, for example, the deletion of the meta expression from the extraction result, or may include ignoring (managing as an invalid expression) so that the expression is not the expression to be processed in the processing by the knowledge acquisition unit 22h. good.

(知識化部22h)
知識化部22hは、対応関係認定部22fにより対応関係として抽出された要素ごとに、知識化を行なう。例えば、知識化部22hは、抽出した対応関係を、KGとして、RDF形式で図示しないDBに保持してもよい。知識化部22hによる処理は、既知の種々の手法により実現されてよい。
(Knowledge Department 22h)
The knowledge conversion unit 22h performs knowledge conversion for each element extracted as a correspondence relationship by the correspondence relationship certification unit 22f. For example, the knowledge conversion unit 22h may hold the extracted correspondence as KG in a DB (not shown) in RDF format. The processing by the knowledge-making unit 22h may be realized by various known methods.

以上のように、制御部の一例(一部の機能)としての対応関係認定部22f(、並びに、メタ表現認識部22g、及び、知識化部22h)によれば、以下のように、対応関係を抽出できる。すなわち、制御部は、第1の複数の要素内の順序に応じて、第1の複数の要素のそれぞれと第2の集合に含まれる第2の複数の要素のそれぞれとを対応付けた対応関係を抽出する。 As described above, according to the correspondence recognition unit 22f (and the meta expression recognition unit 22g and the knowledge acquisition unit 22h) as an example (partial function) of the control unit, the correspondence is as follows. Can be extracted. That is, the control unit has a correspondence relationship in which each of the first plurality of elements and each of the second plurality of elements included in the second set are associated with each other according to the order in the first plurality of elements. To extract.

このように、一実施形態に係る知識抽出システム1によれば、少なくとも一部の要素がテキストには記載されていない範囲表現に対しても、範囲表現に含まれる複数の要素を特定することができる。従って、テキストから検出した集合間の対応関係を適切に認識することができる。 As described above, according to the knowledge extraction system 1 according to the embodiment, it is possible to specify a plurality of elements included in the range expression even for a range expression in which at least a part of the elements is not described in the text. can. Therefore, the correspondence between the sets detected from the text can be appropriately recognized.

例えば、図5に示すテキストが入力される場合、サーバ2は、図5に示すように、「法人課税信託、恒久的施設、・・・有価証券」等の定義語と、所得税法の条項とを対応付けた対応関係を適切に抽出することができる。 For example, when the text shown in FIG. 5 is input, the server 2 uses the definition words such as "corporate taxation trust, permanent establishment, ... securities" and the provisions of the Income Tax Act, as shown in FIG. It is possible to appropriately extract the correspondence relationship associated with.

〔2〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。
[2] Others The technique according to the above-described embodiment can be modified or modified as follows.

例えば、図1に示すサーバ2が備える通信部21、要素展開処理制御部22、及び、順序知識DB23は、任意の組み合わせで併合してもよく、それぞれ分割してもよい。また、要素展開処理制御部22が備える機能ブロック22a〜22hは、任意の組み合わせで併合してもよく、それぞれ分割してもよい。 For example, the communication unit 21, the element expansion processing control unit 22, and the order knowledge DB 23 included in the server 2 shown in FIG. 1 may be merged or divided in any combination. Further, the functional blocks 22a to 22h included in the element expansion processing control unit 22 may be merged or divided in any combination.

また、図1に示すサーバ2は、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成であってもよい。一例として、通信部21はWebサーバ、要素展開処理制御部22はアプリケーションサーバ、順序知識DB23はDBサーバ、等であってもよい。この場合、Webサーバ、アプリケーションサーバ及びDBサーバが、ネットワークを介して互いに連携することにより、サーバ2としての各処理機能を実現してもよい。 Further, the server 2 shown in FIG. 1 may have a configuration in which a plurality of devices cooperate with each other via a network to realize each processing function. As an example, the communication unit 21 may be a Web server, the element expansion processing control unit 22 may be an application server, the order knowledge DB 23 may be a DB server, and the like. In this case, the Web server, the application server, and the DB server may cooperate with each other via the network to realize each processing function as the server 2.

さらに、図5に示す例では、第1の集合としての所得税法の条項の複数要素表現と、第2の集合としての定義語の複数要素表現と、のうちの所得税法の条項の要素の少なくとも1部分が、テキストには記載されていないものとした。 Further, in the example shown in FIG. 5, at least one of the elements of the income tax law clause, that is, the multi-element representation of the income tax law clause as the first set and the multi-element representation of the definition word as the second set. One part is not described in the text.

しかし、これに限定されるものではなく、定義語の複数要素表現が範囲表現である場合、当該定義語を第1の集合として、当該定義語の複数要素表現の要素の少なくとも1部分がテキストに記載されていなくてもよい。この場合であっても、知識抽出システム1は、第1の集合としての定義語に含まれる複数の要素と、第2の集合としての所得税法の条項に含まれる複数の要素と、の対応関係を適切に抽出できる。 However, the present invention is not limited to this, and when the multi-element expression of the definition word is a range expression, the definition word is set as the first set, and at least one part of the elements of the multi-element expression of the definition word is in the text. It does not have to be described. Even in this case, the knowledge extraction system 1 has a correspondence relationship between a plurality of elements included in the definition word as the first set and a plurality of elements included in the provisions of the Income Tax Act as the second set. Can be properly extracted.

また、定義語の複数要素表現と、所得税法の条項の複数要素表現と、の双方において、要素の少なくとも1部分がテキストに記載されていなくてもよい。この場合であっても、知識抽出システム1は、定義語に含まれる複数の要素と、所得税法の条項に含まれる複数の要素と、の対応関係を適切に抽出できる。 Further, in both the multi-element expression of the definition word and the multi-element expression of the provisions of the Income Tax Act, at least one part of the element may not be described in the text. Even in this case, the knowledge extraction system 1 can appropriately extract the correspondence between the plurality of elements included in the definition word and the plurality of elements included in the provisions of the Income Tax Act.

〔3〕付記
以上の実施形態に関し、さらに以下の付記を開示する。
[3] Additional notes The following additional notes will be further disclosed with respect to the above embodiments.

(付記1)
テキストから第1の集合と第2の集合とを検知すると、第1の順序情報を参照し、少なくとも1部分が前記テキストには記載されていない前記第1の集合に含まれる第1の複数の要素を特定し、
前記第1の複数の要素内の順序に応じて、前記第1の複数の要素のそれぞれと前記第2の集合に含まれる第2の複数の要素のそれぞれとを対応付けた対応関係を抽出する、
処理をコンピュータが実行する、抽出方法。
(Appendix 1)
When the first set and the second set are detected from the text, the first plurality of first sets are referred to and at least one part thereof is included in the first set not described in the text. Identify the element and
According to the order in the first plurality of elements, a correspondence relationship in which each of the first plurality of elements is associated with each of the second plurality of elements included in the second set is extracted. ,
An extraction method in which a computer performs processing.

(付記2)
前記第1の複数の要素を特定する処理は、複数の集合のそれぞれに含まれる複数の要素内の順序を示す複数の順序情報から、前記第1の複数の要素のうちの前記テキストに記載されている複数の要素のそれぞれを、順序付けられた複数の要素内に含む前記第1の順序情報を特定することを含む、
付記1に記載の抽出方法。
(Appendix 2)
The process of identifying the first plurality of elements is described in the text of the first plurality of elements from the plurality of order information indicating the order in the plurality of elements included in each of the plurality of sets. Each of the plurality of elements is included in the plurality of ordered elements, including specifying the first order information.
The extraction method according to Appendix 1.

(付記3)
前記第1の順序情報を特定する処理は、
前記第1の複数の要素のうちの前記テキストに記載されている複数の要素のうちの始端要素と終端要素とを特定し、
前記複数の順序情報から、前記始端要素及び前記終端要素のそれぞれを、順序付けられた複数の要素内に含む前記第1の順序情報を特定する、ことを含む、
付記2に記載の抽出方法。
(Appendix 3)
The process of specifying the first order information is
The start element and the end element of the plurality of elements described in the text among the first plurality of elements are specified.
From the plurality of order information, the first order information including each of the start element and the end element in the ordered elements is specified.
The extraction method according to Appendix 2.

(付記4)
前記第1の順序情報を特定する処理は、順序付けられた複数の要素内に前記始端要素及び前記終端要素を含む前記第1の順序情報の候補が複数存在する場合、複数の前記候補のそれぞれが示す順序に従った前記始端要素から前記終端要素までの要素数が、前記第2の複数の要素の要素数と一致する前記候補を、前記第1の順序情報として特定することを含む、
付記3に記載の抽出方法。
(Appendix 4)
In the process of specifying the first order information, when there are a plurality of candidates for the first order information including the start element and the end element in the plurality of ordered elements, each of the plurality of candidates is used. The candidate including the candidate whose number of elements from the start element to the end element according to the indicated order matches the number of elements of the second plurality of elements is specified as the first order information.
The extraction method according to Appendix 3.

(付記5)
前記第1の順序情報を特定する処理は、順序付けられた複数の要素内に前記始端要素及び前記終端要素を含む前記第1の順序情報の候補が複数存在する場合、複数の前記候補のそれぞれが示す順序と、前記始端要素及び前記終端要素の少なくとも一方とに基づくヒューリスティックスに応じて、前記複数の候補から前記第1の順序情報を特定することを含む、
付記3に記載の抽出方法。
(Appendix 5)
In the process of specifying the first order information, when there are a plurality of candidates for the first order information including the start element and the end element in the plurality of ordered elements, each of the plurality of candidates is used. The first order information is specified from the plurality of candidates according to the heuristics based on the order shown and at least one of the start element and the end element.
The extraction method according to Appendix 3.

(付記6)
前記複数の順序情報のそれぞれは、前記複数の要素内の順序の循環の有無を含み、
前記対応関係を抽出する処理は、前記第1の順序情報が示す順序の前記循環の有無と、前記循環の有無に基づき特定される前記順序の方向と、に基づいて、前記第1の順序情報から、前記始端要素から前記終端要素までのそれぞれの要素を前記第1の複数の要素として抽出することを含む、
付記3〜付記5のいずれか1項に記載の抽出方法。
(Appendix 6)
Each of the plurality of order information includes the presence or absence of circulation of the order within the plurality of elements.
The process for extracting the correspondence is the first order information based on the presence or absence of the circulation in the order indicated by the first order information and the direction of the order specified based on the presence or absence of the circulation. Includes extracting each element from the start element to the end element as the first plurality of elements.
The extraction method according to any one of Supplementary note 3 to Supplementary note 5.

(付記7)
前記対応関係を抽出する処理は、前記第1の複数の要素から、前記第1の集合に含まれる除外表現を削除することを含む、
付記1〜付記6のいずれか1項に記載の抽出方法。
(Appendix 7)
The process of extracting the correspondence includes deleting the exclusion expression included in the first set from the first plurality of elements.
The extraction method according to any one of Supplementary note 1 to Supplementary note 6.

(付記8)
複数の集合のそれぞれに含まれる複数の要素内の順序を示す複数の順序情報から、前記第2の複数の要素のうちの前記テキストに記載されている複数の要素のそれぞれを、順序付けられた複数の要素内に含む第2の順序情報を特定する、
処理を前記コンピュータが実行し、
前記対応関係を抽出する処理は、前記第1の順序情報が示す前記第1の複数の要素内の順序と、前記第2の順序情報が示す前記第2の複数の要素内の順序と、に基づいて、前記対応関係を抽出することを含む、
付記1〜付記7のいずれか1項に記載の抽出方法。
(Appendix 8)
From the plurality of order information indicating the order in the plurality of elements contained in each of the plurality of sets, each of the plurality of elements described in the text among the second plurality of elements is ordered. Identify the second order information contained within the element of
The computer executes the process,
The process of extracting the correspondence is divided into the order in the first plurality of elements indicated by the first order information and the order in the second plurality of elements indicated by the second order information. Including extracting the correspondence based on
The extraction method according to any one of Supplementary note 1 to Supplementary note 7.

(付記9)
テキストから第1の集合と第2の集合とを検知すると、第1の順序情報を参照し、少なくとも1部分が前記テキストには記載されていない前記第1の集合に含まれる第1の複数の要素を特定し、
前記第1の複数の要素内の順序に応じて、前記第1の複数の要素のそれぞれと前記第2の集合に含まれる第2の複数の要素のそれぞれとを対応付けた対応関係を抽出する、
処理をコンピュータに実行させる、抽出プログラム。
(Appendix 9)
When the first set and the second set are detected from the text, the first plurality of first sets are referred to and at least one part thereof is included in the first set not described in the text. Identify the element and
According to the order in the first plurality of elements, a correspondence relationship in which each of the first plurality of elements is associated with each of the second plurality of elements included in the second set is extracted. ,
An extraction program that lets a computer perform processing.

(付記10)
前記第1の複数の要素を特定する処理は、複数の集合のそれぞれに含まれる複数の要素内の順序を示す複数の順序情報から、前記第1の複数の要素のうちの前記テキストに記載されている複数の要素のそれぞれを、順序付けられた複数の要素内に含む前記第1の順序情報を特定することを含む、
付記9に記載の抽出プログラム。
(Appendix 10)
The process of identifying the first plurality of elements is described in the text of the first plurality of elements from the plurality of order information indicating the order in the plurality of elements included in each of the plurality of sets. Each of the plurality of elements is included in the plurality of ordered elements, including specifying the first order information.
The extraction program according to Appendix 9.

(付記11)
前記第1の順序情報を特定する処理は、
前記第1の複数の要素のうちの前記テキストに記載されている複数の要素のうちの始端要素と終端要素とを特定し、
前記複数の順序情報から、前記始端要素及び前記終端要素のそれぞれを、順序付けられた複数の要素内に含む前記第1の順序情報を特定する、ことを含む、
付記10に記載の抽出プログラム。
(Appendix 11)
The process of specifying the first order information is
The start element and the end element of the plurality of elements described in the text among the first plurality of elements are specified.
From the plurality of order information, the first order information including each of the start element and the end element in the ordered elements is specified.
The extraction program according to Appendix 10.

(付記12)
前記第1の順序情報を特定する処理は、順序付けられた複数の要素内に前記始端要素及び前記終端要素を含む前記第1の順序情報の候補が複数存在する場合、複数の前記候補のそれぞれが示す順序に従った前記始端要素から前記終端要素までの要素数が、前記第2の複数の要素の要素数と一致する前記候補を、前記第1の順序情報として特定することを含む、
付記11に記載の抽出プログラム。
(Appendix 12)
In the process of specifying the first order information, when there are a plurality of candidates for the first order information including the start element and the end element in the plurality of ordered elements, each of the plurality of candidates is used. The candidate including the candidate whose number of elements from the start element to the end element according to the indicated order matches the number of elements of the second plurality of elements is specified as the first order information.
The extraction program according to Appendix 11.

(付記13)
前記第1の順序情報を特定する処理は、順序付けられた複数の要素内に前記始端要素及び前記終端要素を含む前記第1の順序情報の候補が複数存在する場合、複数の前記候補のそれぞれが示す順序と、前記始端要素及び前記終端要素の少なくとも一方とに基づくヒューリスティックスに応じて、前記複数の候補から前記第1の順序情報を特定することを含む、
付記11に記載の抽出プログラム。
(Appendix 13)
In the process of specifying the first order information, when there are a plurality of candidates for the first order information including the start element and the end element in the plurality of ordered elements, each of the plurality of candidates is used. The first order information is specified from the plurality of candidates according to the heuristics based on the order shown and at least one of the start element and the end element.
The extraction program according to Appendix 11.

(付記14)
前記複数の順序情報のそれぞれは、前記複数の要素内の順序の循環の有無を含み、
前記対応関係を抽出する処理は、前記第1の順序情報が示す順序の前記循環の有無と、前記循環の有無に基づき特定される前記順序の方向と、に基づいて、前記第1の順序情報から、前記始端要素から前記終端要素までのそれぞれの要素を前記第1の複数の要素として抽出することを含む、
付記11〜付記13のいずれか1項に記載の抽出プログラム。
(Appendix 14)
Each of the plurality of order information includes the presence or absence of circulation of the order within the plurality of elements.
The process for extracting the correspondence is the first order information based on the presence or absence of the circulation in the order indicated by the first order information and the direction of the order specified based on the presence or absence of the circulation. Includes extracting each element from the start element to the end element as the first plurality of elements.
The extraction program according to any one of Supplementary note 11 to Supplementary note 13.

(付記15)
前記対応関係を抽出する処理は、前記第1の複数の要素から、前記第1の集合に含まれる除外表現を削除することを含む、
付記9〜付記14のいずれか1項に記載の抽出プログラム。
(Appendix 15)
The process of extracting the correspondence includes deleting the exclusion expression included in the first set from the first plurality of elements.
The extraction program according to any one of Supplementary note 9 to Supplementary note 14.

(付記16)
複数の集合のそれぞれに含まれる複数の要素内の順序を示す複数の順序情報から、前記第2の複数の要素のうちの前記テキストに記載されている複数の要素のそれぞれを、順序付けられた複数の要素内に含む第2の順序情報を特定する、
処理を前記コンピュータに実行させ、
前記対応関係を抽出する処理は、前記第1の順序情報が示す前記第1の複数の要素内の順序と、前記第2の順序情報が示す前記第2の複数の要素内の順序と、に基づいて、前記対応関係を抽出することを含む、
付記9〜付記15のいずれか1項に記載の抽出プログラム。
(Appendix 16)
From the plurality of order information indicating the order in the plurality of elements contained in each of the plurality of sets, each of the plurality of elements described in the text among the second plurality of elements is ordered. Identify the second order information contained within the element of
Let the computer perform the process
The process of extracting the correspondence is divided into the order in the first plurality of elements indicated by the first order information and the order in the second plurality of elements indicated by the second order information. Including extracting the correspondence based on
The extraction program according to any one of Supplementary note 9 to Supplementary note 15.

(付記17)
テキストから第1の集合と第2の集合とを検知すると、第1の順序情報を参照し、少なくとも1部分が前記テキストには記載されていない前記第1の集合に含まれる第1の複数の要素を特定し、
前記第1の複数の要素内の順序に応じて、前記第1の複数の要素のそれぞれと前記第2の集合に含まれる第2の複数の要素のそれぞれとを対応付けた対応関係を抽出する、
制御部を備える、抽出装置。
(Appendix 17)
When the first set and the second set are detected from the text, the first plurality of first sets are referred to and at least one part thereof is included in the first set not described in the text. Identify the element and
According to the order in the first plurality of elements, a correspondence relationship in which each of the first plurality of elements is associated with each of the second plurality of elements included in the second set is extracted. ,
An extraction device equipped with a control unit.

(付記18)
前記制御部は、複数の集合のそれぞれに含まれる複数の要素内の順序を示す複数の順序情報から、前記第1の複数の要素のうちの前記テキストに記載されている複数の要素のそれぞれを、順序付けられた複数の要素内に含む前記第1の順序情報を特定する、
付記17に記載の抽出装置。
(Appendix 18)
The control unit selects each of the plurality of elements described in the text among the first plurality of elements from the plurality of order information indicating the order in the plurality of elements included in each of the plurality of sets. , Identifying the first order information contained within a plurality of ordered elements,
The extraction device according to Appendix 17.

(付記19)
前記制御部は、
前記第1の複数の要素のうちの前記テキストに記載されている複数の要素のうちの始端要素と終端要素とを特定し、
前記複数の順序情報から、前記始端要素及び前記終端要素のそれぞれを、順序付けられた複数の要素内に含む前記第1の順序情報を特定する、
付記18に記載の抽出装置。
(Appendix 19)
The control unit
The start element and the end element of the plurality of elements described in the text among the first plurality of elements are specified.
From the plurality of order information, the first order information including each of the start element and the end element in the ordered plurality of elements is specified.
The extraction device according to Appendix 18.

(付記20)
前記制御部は、
複数の集合のそれぞれに含まれる複数の要素内の順序を示す複数の順序情報から、前記第2の複数の要素のうちの前記テキストに記載されている複数の要素のそれぞれを、順序付けられた複数の要素内に含む第2の順序情報を特定し、
前記第1の順序情報が示す前記第1の複数の要素内の順序と、前記第2の順序情報が示す前記第2の複数の要素内の順序と、に基づいて、前記対応関係を抽出する、
付記17〜付記19のいずれか1項に記載の抽出装置。
(Appendix 20)
The control unit
From the plurality of order information indicating the order in the plurality of elements contained in each of the plurality of sets, each of the plurality of elements described in the text among the second plurality of elements is ordered. Identify the second order information contained within the element of
The correspondence is extracted based on the order in the first plurality of elements indicated by the first order information and the order in the second plurality of elements indicated by the second order information. ,
The extraction device according to any one of Supplementary note 17 to Supplementary note 19.

1 知識抽出システム
10 コンピュータ
2 サーバ
21 通信部
22 要素展開処理制御部
22a 知識化範囲認定部
22b 複数要素表現解析部
22c 構成要素解決部
22d 順序知識選定部
22e 順序認識部
22f 対応関係認定部
22g メタ表現認識部
22h 知識化部
23 順序知識DB
23a 順序知識
3 端末
1 Knowledge extraction system 10 Computer 2 Server 21 Communication unit 22 Element expansion processing control unit 22a Knowledge range certification unit 22b Multi-element expression analysis unit 22c Component resolution unit 22d Order knowledge selection unit 22e Order recognition unit 22f Correspondence relationship certification unit 22g Meta Expression recognition department 22h Knowledge conversion department 23 Order knowledge DB
23a Order knowledge 3 Terminal

Claims (10)

テキストから第1の集合と第2の集合とを検知すると、第1の順序情報を参照し、少なくとも1部分が前記テキストには記載されていない前記第1の集合に含まれる第1の複数の要素を特定し、
前記第1の複数の要素内の順序に応じて、前記第1の複数の要素のそれぞれと前記第2の集合に含まれる第2の複数の要素のそれぞれとを対応付けた対応関係を抽出する、
処理をコンピュータが実行する、抽出方法。
When the first set and the second set are detected from the text, the first plurality of first sets are referred to and at least one part thereof is included in the first set not described in the text. Identify the element and
According to the order in the first plurality of elements, a correspondence relationship in which each of the first plurality of elements is associated with each of the second plurality of elements included in the second set is extracted. ,
An extraction method in which a computer performs processing.
前記第1の複数の要素を特定する処理は、複数の集合のそれぞれに含まれる複数の要素内の順序を示す複数の順序情報から、前記第1の複数の要素のうちの前記テキストに記載されている複数の要素のそれぞれを、順序付けられた複数の要素内に含む前記第1の順序情報を特定することを含む、
請求項1に記載の抽出方法。
The process of identifying the first plurality of elements is described in the text of the first plurality of elements from the plurality of order information indicating the order in the plurality of elements included in each of the plurality of sets. Each of the plurality of elements is included in the plurality of ordered elements, including specifying the first order information.
The extraction method according to claim 1.
前記第1の順序情報を特定する処理は、
前記第1の複数の要素のうちの前記テキストに記載されている複数の要素のうちの始端要素と終端要素とを特定し、
前記複数の順序情報から、前記始端要素及び前記終端要素のそれぞれを、順序付けられた複数の要素内に含む前記第1の順序情報を特定する、ことを含む、
請求項2に記載の抽出方法。
The process of specifying the first order information is
The start element and the end element of the plurality of elements described in the text among the first plurality of elements are specified.
From the plurality of order information, the first order information including each of the start element and the end element in the ordered elements is specified.
The extraction method according to claim 2.
前記第1の順序情報を特定する処理は、順序付けられた複数の要素内に前記始端要素及び前記終端要素を含む前記第1の順序情報の候補が複数存在する場合、複数の前記候補のそれぞれが示す順序に従った前記始端要素から前記終端要素までの要素数が、前記第2の複数の要素の要素数と一致する前記候補を、前記第1の順序情報として特定することを含む、
請求項3に記載の抽出方法。
In the process of specifying the first order information, when there are a plurality of candidates for the first order information including the start element and the end element in the plurality of ordered elements, each of the plurality of candidates is used. The candidate including the candidate whose number of elements from the start element to the end element according to the indicated order matches the number of elements of the second plurality of elements is specified as the first order information.
The extraction method according to claim 3.
前記第1の順序情報を特定する処理は、順序付けられた複数の要素内に前記始端要素及び前記終端要素を含む前記第1の順序情報の候補が複数存在する場合、複数の前記候補のそれぞれが示す順序と、前記始端要素及び前記終端要素の少なくとも一方とに基づくヒューリスティックスに応じて、前記複数の候補から前記第1の順序情報を特定することを含む、
請求項3に記載の抽出方法。
In the process of specifying the first order information, when there are a plurality of candidates for the first order information including the start element and the end element in the plurality of ordered elements, each of the plurality of candidates is used. The first order information is specified from the plurality of candidates according to the heuristics based on the order shown and at least one of the start element and the end element.
The extraction method according to claim 3.
前記複数の順序情報のそれぞれは、前記複数の要素内の順序の循環の有無を含み、
前記対応関係を抽出する処理は、前記第1の順序情報が示す順序の前記循環の有無と、前記循環の有無に基づき特定される前記順序の方向と、に基づいて、前記第1の順序情報から、前記始端要素から前記終端要素までのそれぞれの要素を前記第1の複数の要素として抽出することを含む、
請求項3〜請求項5のいずれか1項に記載の抽出方法。
Each of the plurality of order information includes the presence or absence of circulation of the order within the plurality of elements.
The process for extracting the correspondence is the first order information based on the presence or absence of the circulation in the order indicated by the first order information and the direction of the order specified based on the presence or absence of the circulation. Includes extracting each element from the start element to the end element as the first plurality of elements.
The extraction method according to any one of claims 3 to 5.
前記対応関係を抽出する処理は、前記第1の複数の要素から、前記第1の集合に含まれる除外表現を削除することを含む、
請求項1〜請求項6のいずれか1項に記載の抽出方法。
The process of extracting the correspondence includes deleting the exclusion expression included in the first set from the first plurality of elements.
The extraction method according to any one of claims 1 to 6.
複数の集合のそれぞれに含まれる複数の要素内の順序を示す複数の順序情報から、前記第2の複数の要素のうちの前記テキストに記載されている複数の要素のそれぞれを、順序付けられた複数の要素内に含む第2の順序情報を特定する、
処理を前記コンピュータが実行し、
前記対応関係を抽出する処理は、前記第1の順序情報が示す前記第1の複数の要素内の順序と、前記第2の順序情報が示す前記第2の複数の要素内の順序と、に基づいて、前記対応関係を抽出することを含む、
請求項1〜請求項7のいずれか1項に記載の抽出方法。
From the plurality of order information indicating the order in the plurality of elements contained in each of the plurality of sets, each of the plurality of elements described in the text among the second plurality of elements is ordered. Identify the second order information contained within the element of
The computer executes the process,
The process of extracting the correspondence is divided into the order in the first plurality of elements indicated by the first order information and the order in the second plurality of elements indicated by the second order information. Including extracting the correspondence based on
The extraction method according to any one of claims 1 to 7.
テキストから第1の集合と第2の集合とを検知すると、第1の順序情報を参照し、少なくとも1部分が前記テキストには記載されていない前記第1の集合に含まれる第1の複数の要素を特定し、
前記第1の複数の要素内の順序に応じて、前記第1の複数の要素のそれぞれと前記第2の集合に含まれる第2の複数の要素のそれぞれとを対応付けた対応関係を抽出する、
処理をコンピュータに実行させる、抽出プログラム。
When the first set and the second set are detected from the text, the first plurality of first sets are referred to and at least one part thereof is included in the first set not described in the text. Identify the element and
According to the order in the first plurality of elements, a correspondence relationship in which each of the first plurality of elements is associated with each of the second plurality of elements included in the second set is extracted. ,
An extraction program that lets a computer perform processing.
テキストから第1の集合と第2の集合とを検知すると、第1の順序情報を参照し、少なくとも1部分が前記テキストには記載されていない前記第1の集合に含まれる第1の複数の要素を特定し、
前記第1の複数の要素内の順序に応じて、前記第1の複数の要素のそれぞれと前記第2の集合に含まれる第2の複数の要素のそれぞれとを対応付けた対応関係を抽出する、
制御部を備える、抽出装置。
When the first set and the second set are detected from the text, the first plurality of first sets are referred to and at least one part thereof is included in the first set not described in the text. Identify the element and
According to the order in the first plurality of elements, a correspondence relationship in which each of the first plurality of elements is associated with each of the second plurality of elements included in the second set is extracted. ,
An extraction device equipped with a control unit.
JP2020107032A 2020-06-22 2020-06-22 Extraction method, extraction program, and extraction device Pending JP2022002034A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020107032A JP2022002034A (en) 2020-06-22 2020-06-22 Extraction method, extraction program, and extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020107032A JP2022002034A (en) 2020-06-22 2020-06-22 Extraction method, extraction program, and extraction device

Publications (1)

Publication Number Publication Date
JP2022002034A true JP2022002034A (en) 2022-01-06

Family

ID=79244742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020107032A Pending JP2022002034A (en) 2020-06-22 2020-06-22 Extraction method, extraction program, and extraction device

Country Status (1)

Country Link
JP (1) JP2022002034A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023163059A1 (en) * 2022-02-25 2023-08-31 株式会社プロテリアル Technical element analysis method, learning method, technical element analysis system, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023163059A1 (en) * 2022-02-25 2023-08-31 株式会社プロテリアル Technical element analysis method, learning method, technical element analysis system, and program

Similar Documents

Publication Publication Date Title
US10169337B2 (en) Converting data into natural language form
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
JP5424001B2 (en) LEARNING DATA GENERATION DEVICE, REQUESTED EXTRACTION EXTRACTION SYSTEM, LEARNING DATA GENERATION METHOD, AND PROGRAM
US8463808B2 (en) Expanding concept types in conceptual graphs
US20100153369A1 (en) Determining Query Return Referents for Concept Types in Conceptual Graphs
US9754022B2 (en) System and method for language sensitive contextual searching
CN111488468B (en) Geographic information knowledge point extraction method and device, storage medium and computer equipment
KR20190136911A (en) method and device for retelling text, server and storage medium
US20110040774A1 (en) Searching Spoken Media According to Phonemes Derived From Expanded Concepts Expressed As Text
US20120317125A1 (en) Method and apparatus for identifier retrieval
JP2022510818A (en) Transliteration of data records for improved data matching
JP2002117027A (en) Feeling information extracting method and recording medium for feeling information extracting program
JP5812534B2 (en) Question answering apparatus, method, and program
JP2002132791A (en) Device and method for extracting place name information, recording medium with extraction program recorded thereon and map information retrieving device
JP2022002034A (en) Extraction method, extraction program, and extraction device
JP6145562B2 (en) Information structuring system and information structuring method
JP5285491B2 (en) Information retrieval system, method and program, index creation system, method and program,
JPWO2020157887A1 (en) Sentence structure vectorization device, sentence structure vectorization method, and sentence structure vectorization program
CN114595696A (en) Entity disambiguation method, entity disambiguation apparatus, storage medium, and electronic device
Angel et al. Qualitative geocoding of persistent web pages
CN114625845A (en) Information retrieval method, intelligent terminal and computer readable storage medium
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
JP6076285B2 (en) Translation apparatus, translation method, and translation program
US20090089284A1 (en) Method and apparatus for automatically differentiating between types of names stored in a data collection
JP6934621B2 (en) Methods, equipment, and programs