JP6804913B2 - Table structure estimation system and method - Google Patents
Table structure estimation system and method Download PDFInfo
- Publication number
- JP6804913B2 JP6804913B2 JP2016183089A JP2016183089A JP6804913B2 JP 6804913 B2 JP6804913 B2 JP 6804913B2 JP 2016183089 A JP2016183089 A JP 2016183089A JP 2016183089 A JP2016183089 A JP 2016183089A JP 6804913 B2 JP6804913 B2 JP 6804913B2
- Authority
- JP
- Japan
- Prior art keywords
- items
- feature
- data
- text
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、構造が不明確な表に対する構造の推定システム、および方法に関するものである。 The present invention relates to structure estimation systems and methods for tables with unclear structures.
公共の資産として、データの公開が進められている。いわゆるデータのオープン化である。例えば、国や省庁、公共団体により公開されている有用なデータとしては、都道府県別や産業別の売上高や購買情報、投資情報などの統計データがある。一方、公開されているデータを有効利用するニーズが高まっている。例えば、企業等では公開された統計データを検索し、組織内のデータと組み合わせて分析することで、有用な知見を得ることができる。現在公開されているデータは、Excel(商標)やcomma-separated values(CSV)などによる表形式で提供されていることが多い。以後、表形式で提供されたデータを単に「表」ということにする。 Data is being released as a public asset. This is the so-called openness of data. For example, useful data released by the national government, ministries, and public organizations includes statistical data such as sales, purchasing information, and investment information by prefecture and industry. On the other hand, there is an increasing need for effective use of publicly available data. For example, in a company or the like, useful findings can be obtained by searching publicly available statistical data and analyzing it in combination with data in an organization. Currently published data is often provided in tabular format such as Excel (trademark) or comma-separated values (CSV). Hereinafter, the data provided in the tabular format will be simply referred to as a "table".
公開されている表は、データ作成者あるいは提供者が一方的に定めた構造により作成されている。また、表自体は構造に関する情報を含まない場合が多い。よって、データを利用しようとする第三者は、当該表の構造についての知識を持たないまま、種々の構造のデータを利用しなければならない。しかし、構造が不明確な表のデータを、人手を介さずに利用することは難しい。すなわち、公開されているデータを、コンピュータ等の情報処理装置により、機械的に検索等の処理を行うことは困難である。 The published table is created by a structure unilaterally determined by the data creator or provider. Also, the table itself often does not contain information about the structure. Therefore, a third party who intends to use the data must use the data of various structures without having knowledge about the structure of the table. However, it is difficult to use the data in a table whose structure is unclear without human intervention. That is, it is difficult to mechanically perform processing such as searching the published data by an information processing device such as a computer.
ここで、表の「構造」とは、表が「何」を「どの観点」で表しているかをいう。構造は、「次元」と「測度」によって定義できる。上記の「何」が「測度」に対応し、「どの観点」が「次元」に対応する。表の構造が明確だと、表構造に基づいて、表のデータを機械的に検索できるようになる。また、表構造と自然言語表現を対応付けることで、比較的容易に自然言語を用いた表内のデータ検索が実現できると考えられる。一方、不明確だと、表構造と自然言語表現との対応付けが複数通り考えられ、自然言語を用いた検索は困難となる。表のデータ検索を実現するためには、構造を自動的に推定し明確化する技術が求められている。 Here, the "structure" of the table means what the table represents "what" in "what viewpoint". The structure can be defined by "dimension" and "measure". The above "what" corresponds to "measure", and "which viewpoint" corresponds to "dimension". If the structure of the table is clear, the data in the table can be searched mechanically based on the structure of the table. In addition, by associating the table structure with the natural language expression, it is considered that data retrieval in the table using natural language can be realized relatively easily. On the other hand, if it is unclear, there are multiple possible associations between the table structure and natural language expressions, making it difficult to search using natural language. In order to realize table data retrieval, a technique for automatically estimating and clarifying the structure is required.
構造が不明確な表の構造を推定するための技術として、非特許文献1に記載のものがある。この文献では、表の各列に対して、表内に現れる表記や他の列との位置関係を用いた機械学習手法により、何を表しているかを推定していることが記されている。
As a technique for estimating the structure of a table whose structure is unclear, there is one described in
非特許文献1では、表以外のものを用いることを想定していない。そのため、構造の推定には、表のみを用いることに留まる。例えば、表内に現れる表記や位置関係である。この場合、表内に構造を推定するための特徴が含まれていないと、推定が困難となる。
Non-Patent
また、特許文献1には共起性の高いテキスト情報を画像に関連付ける技術について開示があるが、表を取り扱う技術ではなかった。
Further,
本発明の課題は、表内に構造を推定するための特徴が含まれていない場合であっても、表の構造を精度よく自動的に推定し、明確化する技術を提供することにある。 An object of the present invention is to provide a technique for automatically estimating and clarifying the structure of a table with high accuracy even when the table does not include features for estimating the structure.
上記課題を解決する本発明の一側面は、入力装置、出力装置、記憶装置、および処理装置を備えた表構造の推定システムである。このシステムにおいて、記憶装置は、表と文章の両方に関係する特徴を定義する特徴定義データを格納する。入力装置は、分析対象データを受け付けるものである。処理装置は、分析対象データから、表を取得するとともに、表に関連する文章を関連テキストとして取得する、関連テキスト情報抽出部と、特徴定義データを用いて、取得した表と関連テキストから、特徴を抽出する特徴抽出部と、特徴抽出部の特徴抽出結果に基づいて、表の構造を推定する識別部と、を備える。 One aspect of the present invention that solves the above problems is a table structure estimation system including an input device, an output device, a storage device, and a processing device. In this system, the storage device stores feature definition data that defines features related to both tables and sentences. The input device receives the data to be analyzed. The processing device acquires a table from the data to be analyzed and also acquires sentences related to the table as related texts. The feature is a feature from the acquired table and related texts using the related text information extraction unit and the feature definition data. It is provided with a feature extraction unit for extracting data and an identification unit for estimating the structure of the table based on the feature extraction result of the feature extraction unit.
本発明の他の一側面は、入力装置、出力装置、記憶装置、および処理装置を用いた表構造の推定方法である。この方法では、記憶装置に、表と文章の両方に関係する特徴を定義する特徴定義データを準備する。入力装置から、分析対象データを入力する。処理装置は、分析対象データから、表を取得するとともに、表に関連する文章を関連テキストとして取得し、特徴定義データを用いて、取得した表と関連テキストから、特徴を抽出し、抽出された特徴に基づいて、表の項目の「次元」と「測度」の区別を推定する。 Another aspect of the present invention is a method of estimating a table structure using an input device, an output device, a storage device, and a processing device. In this method, the storage device prepares feature definition data that defines features related to both tables and sentences. Input the analysis target data from the input device. The processing device acquires a table from the data to be analyzed, acquires sentences related to the table as related texts, and extracts features from the acquired table and related texts using the feature definition data. Estimate the distinction between "dimension" and "measure" of table items based on their characteristics.
本発明によれば、表の構造の推定が可能になり、その結果、推定の精度が向上する。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。 According to the present invention, it is possible to estimate the structure of the table, and as a result, the accuracy of the estimation is improved. Issues, configurations and effects other than those described above will be clarified by the description of the following embodiments.
実施の形態について、図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。 The embodiment will be described in detail with reference to the drawings. However, the present invention is not construed as being limited to the description of the embodiments shown below. It is easily understood by those skilled in the art that a specific configuration thereof can be changed without departing from the idea or purpose of the present invention.
以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。 In the configuration of the invention described below, the same reference numerals may be used in common among different drawings for the same parts or parts having similar functions, and duplicate description may be omitted.
本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数または順序を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。 The notations such as "first", "second", and "third" in the present specification and the like are attached to identify the components, and do not necessarily limit the number or order. In addition, numbers for identifying components are used for each context, and numbers used in one context do not always indicate the same composition in other contexts. Further, it does not prevent the component identified by a certain number from having the function of the component identified by another number.
図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。 The position, size, shape, range, etc. of each configuration shown in the drawings and the like may not represent the actual position, size, shape, range, etc. in order to facilitate understanding of the invention. Therefore, the present invention is not necessarily limited to the position, size, shape, range, etc. disclosed in the drawings and the like.
本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。 Components represented in the singular form herein shall include the plural form unless explicitly stated in the context.
上記で説明した課題を解決するために、代表的な本発明の手法及びシステムの実施例では、表と表の関連文書を組み合わせた特徴を用いた手法により、構造を推定する。実施例には、表構造の推定手法、および表構造の推定システムが含まれる。以下で説明する実施例では、表に加えて、表に関連する文書も用い、表の構造を推定する。 In order to solve the problems described above, in a typical example of the method and system of the present invention, the structure is estimated by a method using a feature that combines a table and related documents of the table. Examples include a table structure estimation method and a table structure estimation system. In the examples described below, in addition to the table, documents related to the table are also used to estimate the structure of the table.
<1.表データの説明>
実施例の具体的な説明に先立ち、本実施例が処理の対象とする表の例を説明する。
<1. Explanation of table data>
Prior to the specific description of the embodiment, an example of the table to be processed by the present embodiment will be described.
図1は、実施例の表構造推定システムが処理対象とする表の例である。図1は、分析対象データである報告書100の例を示している。報告書100には、表101、表のタイトル102、説明文103が含まれている。表101は、年度に対応して各年齢層の人口を示している。タイトル102では、表が年度別年齢別の人口であることを示している。説明文103には、表101に関連した記述が記載されている。以下、タイトル102や説明文103等、表101に付随したテキストを含む情報を「文章」あるいは「テキスト情報」ということにする。本明細書で「文章」あるいは「テキスト情報」といった場合には、複数の文でもよいし、単一の文でもよいものとする。
FIG. 1 is an example of a table to be processed by the table structure estimation system of the embodiment. FIG. 1 shows an example of
ここで、表やタイトル、説明文のデータ形式は、テキストとして認識でき、表との位置関係、対応関係あるいは配置関係を識別できるものであれば、特に問わない。例えば、Excel(商標)やCSV等のテキストを含むデータである。あるいは、ビットマップ形式の画像データや紙データであってもよい。画像データの場合は、文字部分は光学文字認識(Optical character recognition(OCR))等で処理してテキストデータを得ればよい。 Here, the data format of the table, title, and description is not particularly limited as long as it can be recognized as text and can identify the positional relationship, correspondence relationship, or arrangement relationship with the table. For example, it is data including texts such as Excel (trademark) and CSV. Alternatively, it may be image data or paper data in bitmap format. In the case of image data, the character portion may be processed by optical character recognition (OCR) or the like to obtain text data.
図2に、表101の構造の概念を示す。表101の一番上のセル(枠)201〜203は「項目」である。「項目」には、表の構造である「次元」や「測度」が格納されている。「測度」は観測対象のことであり、「次元」は観測の条件である。この例ではセル201の「年度」やセル202の「年齢」は「次元」である。セル203の「人口」は「測度」である。表101の「項目」以外のセルには「項目の値」が格納されている。セル201の項目「年度」に対しては、セル204、205に「次元の値(年度の値)」が格納される。セル202の項目「年齢」に対しては、セル206、207に「次元の値(年齢の値)」が格納される。セル203の項目「人口」に対しては、セル208、209に観測値である「測度の値(人口の値)」が格納される。なお、項目のセルは、一般に、表の一番上のセルの行か、一番左のセルの列であるため、デフォルトではこの部分を項目と推定すればよい。
FIG. 2 shows the concept of the structure in Table 101. The cells (frames) 201 to 203 at the top of Table 101 are "items". In the "item", the "dimension" and "measure" which are the structures of the table are stored. The "measure" is the observation target, and the "dimension" is the observation condition. In this example, the "year" in
本実施例の表構造推定システムの目的は、表から上記の構造を自動的に推定することである。例えば、「年度」「年齢」「人口」という項目からは、可能性として「年度別、年齢別の人口」と、「年度別の年齢(平均)と人口」が考えられる。前者の場合では「年度」と「年齢」が「次元」であり、「人口」が「測度」である。後者の場合では、「年度」が「次元」であり、「年齢」と「人口」が「測度」である。 The purpose of the table structure estimation system of this embodiment is to automatically estimate the above structure from the table. For example, from the items of "year", "age", and "population", "population by year and age" and "age (average) and population by year" can be considered. In the former case, "year" and "age" are "dimensions" and "population" is "measure". In the latter case, the "year" is the "dimension" and the "age" and "population" are the "measures".
本実施例では、表101の構造が不明の場合であっても、表101とタイトル102や説明文103から、例えば図2の「年度」と「年齢」が「次元」であり、「人口」が「測度」であることを推定する。また項目が省略されている場合であっても、各列に対応する項目が「次元」であるか「測度」であるかを推定する。
In this embodiment, even when the structure of Table 101 is unknown, from Table 101, the
<2.本実施例による処理の概要>
図3に本実施例の表構造推定システムが行う処理の概念を示す。本システムの典型的な一例では、表のみでなく、表のタイトルや説明文(テキスト情報)における項目やその値の表れ方を特徴として使用した、教師あり機械学習手法を採用する。これにより表の構造の推定精度が向上する。
<2. Outline of processing according to this embodiment>
FIG. 3 shows the concept of processing performed by the table structure estimation system of this embodiment. A typical example of this system employs a supervised machine learning method that uses not only tables but also items in table titles and explanations (text information) and how their values appear. This improves the estimation accuracy of the table structure.
本実施例の表構造推定システムでは、訓練データ301を用いる。訓練データ301には表101T、表のタイトル102T、説明文103Tが含まれている。また、訓練データ301に対して、構造データ302が付加されている。構造データ302は、対象データの内容、次元である項目、次元の値、測度となる項目などが含まれている。構造データは、オペレータが訓練データ301を目視して分析し、入力し、データとして保存することができる。
In the table structure estimation system of this embodiment,
本実施例では、複数の訓練データ301と、これに対応する複数の構造データ302を用いることにする。一般に、訓練データ301の数が多いほど、推定精度が向上する。
In this embodiment, a plurality of
以上のように準備された訓練データ301と構造データ302を用い、特徴を抽出し、系列ラベリングの手法により識別モデル生成を行う。識別モデルは、特徴抽出結果と表の構造の関係を規定する。識別モデル303には例えば、次元の構造に関する次元モデルと、測度の構造に関する測度モデルを含んでいる。以上のように識別モデル303を準備した上で、分析対象データ304を入力し、識別モデル303に基づいて分析を行い、構造推定データ305を得ることができる。以下具体的に実施例の構成を説明する。
Using the
<3.実施例のシステム全体構成>
図4は、本発明の実施例の一例である、表構造推定システムの構成を示すブロック図である。表構造推定システム1は、具体的な例としては、コンピュータ等の情報処理装置により構成される。通常の情報処理装置と同様に、表構造推定システム1は、中央処理装置(CPU)11、キーボードや画像モニタなどの公知の入出力装置13、磁気ディスク装置や半導体記憶素装置からなるメモリ15を備える。また、外部とデータをやり取りするためのインタフェースとして、データ通信部12を備えていてもよい。データ通信部12は、例えば外部のネットワーク16と接続される。なお、入出力装置という場合、入出力両機能を備える装置のみを意味するのではなく、入力機能のみを備える装置、出力機能のみを備える装置、さらには入出力の両方を備える装置のいずれをも意味するものとする。
<3. Overall system configuration of the embodiment>
FIG. 4 is a block diagram showing a configuration of a table structure estimation system, which is an example of an embodiment of the present invention. As a specific example, the table
本実施例では計算や制御等の機能は、メモリ15に格納されたプログラムがCPU11によって実行されることで、定められた処理を他のハードウェアと協働して実現される。CPU11が実行するプログラム、その機能、あるいはその機能を実現する手段を、「機能」、「手段」、「部」、「ユニット」、「モジュール」等と呼ぶ場合がある。図4では、概念的にCPU11が、ソフトウェアに基づいて実行する機能を、制御部14として示している。制御部11は、前処理部141、学習部142、識別部143、表示部144を備える。これらの機能を実現するためのプログラムはメモリ15に格納される。また、メモリ15にはデータとして、訓練データ301、構造データ302、識別モデル303、分析対象データ304、識別結果である構造推定データ305、特徴定義データ306、辞書307等が格納される。
In this embodiment, functions such as calculation and control are realized by executing a program stored in the memory 15 by the CPU 11 in cooperation with other hardware. A program executed by the CPU 11, a function thereof, or a means for realizing the function may be referred to as a "function", a "means", a "part", a "unit", a "module", or the like. In FIG. 4, a function conceptually executed by the CPU 11 based on software is shown as a
メモリ15に格納する、訓練データ301、構造データ302、分析対象データ304、特徴定義データ306、辞書307は、入出力装置13やデータ通信部12を介して入力することができる。また、識別モデル303や構造推定データ305は、入出力装置13やデータ通信部12を介して出力することができる。
The
以上の構成は、図4に示したように単体のコンピュータで構成してもよいし、あるいは、入力装置、出力装置、処理装置、記憶装置の任意の部分が、ネットワークで接続された他のコンピュータで構成されてもよい。また、本実施例中、ソフトウェアで構成した機能と同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェアでも実現できる。そのような態様も本願発明の範囲に含まれる。 The above configuration may be configured by a single computer as shown in FIG. 4, or another computer in which any part of the input device, output device, processing device, and storage device is connected by a network. It may be composed of. Further, in this embodiment, the same function as the function configured by software can be realized by hardware such as FPGA (Field Programmable Gate Array) and ASIC (Application Specific Integrated Circuit). Such aspects are also included in the scope of the present invention.
<4.実施例のシステムのデータ構造の説明>
メモリ15に格納されるデータについて説明する。
<4. Description of the data structure of the system of the embodiment>
The data stored in the memory 15 will be described.
訓練データ301は、図3で概念を説明したように、表101Tとこれに付随するテキスト情報を含むデータである。テキスト情報は例えば、表のタイトル102T、説明文103Tなどである。本実施例では、訓練データ301はテキストベースのデータとし、また、表101Tとこれに付随するテキスト情報の位置関係を示す情報を含むものとする。位置関係を示す情報としては、例えば表101Tとこれに付随するテキスト情報の座標情報である。あるいは、表101Tとこれに付随するテキスト情報が、同一のファイルに含まれることを示す情報である。あるいは、表101Tとこれに付随するテキスト情報が、特定の関係にあること、例えばエクセル(商標)ファイルの同一のページに含まれることを示す情報である。
The
構造データ302は、図3で概念を説明したように、訓練データの表101Tの構造を示すデータである。構造データは302は、例えば表101Tの「項目名」に対して、「次元」あるいは「測度」の別を規定する。また、「次元」や「測度」の値を規定しても良い。また、表の名称や内容についての情報を含んでも良い。構造データは302は、オペレータが訓練データ301を目視、分析することで生成する。
The
識別モデル303は、訓練データ301と構造データ302を用いて生成されたモデルである。識別モデルの生成および使用については、後述する。
The
分析対象データ304は、図3に示したような、構造を推定するべき表構造が未知の表データである。データ構成としては、訓練データ301と同様でよく、例としては図1の報告書100のような構成である。
The
構造推定データ305は、分析対象データ304を識別モデル303に基づいて分析した結果である、分析対象データ304の表構造を示すデータである。データ構成としては、構造データ302と同様でよい。
The
特徴定義データ306は、表の構造を推定するために用いる特徴を定義したデータである。例えば、オペレータが経験に基づいて生成し、入出力装置13から入力しても良い。あるいは、自動的に生成しても良い。
The feature definition data 306 is data that defines features used for estimating the structure of the table. For example, the operator may generate it based on experience and input it from the input /
辞書307は、後に説明する関連テキスト情報抽出部1412の処理に用いる。
The
<4.実施例のシステムの制御部の説明>
制御部14について説明する。
<4. Description of the control unit of the system of the embodiment>
The
<4−1.前処理部>
図5は、前処理部141の機能ブロック図である。前処理部141は、表と文章の対応付け部1411、関連テキスト情報抽出部1412、関連テキスト情報解釈部1413、特徴定義部1414、特徴抽出部1415を含む。
<4-1. Pretreatment section>
FIG. 5 is a functional block diagram of the preprocessing unit 141. The preprocessing unit 141 includes a table-text correspondence unit 1411, a related text information extraction unit 1412, a related text
表と文章の対応付け部1411は、表に対応する文章(テキスト情報)を抽出する。抽出は、例えば表と文章が特定の配置関係にあることを条件に行うことができる。例えば、表と文章が接して配置されていたり、同じ頁に存在する場合に、文章を抽出をすることができる。あるいは、タイトル等のように、表の内部に文章が埋め込まれている場合に、当該文章を抽出することができる。表と文章の対応付け部1411は、訓練データ301および分析対象データ304に対して、上記の処理を行う。表と文章の対応付けによって、表に付随するテキスト情報の中から、特に表に対応する部分を選択して抽出することができる。ただし、この処理は省略し、表に付随するテキスト情報を全て以降の処理で用いることもできる。
The table-sentence correspondence unit 1411 extracts the text (text information) corresponding to the table. Extraction can be performed, for example, on the condition that the table and the text have a specific arrangement relationship. For example, when a table and a sentence are arranged in contact with each other or are on the same page, the sentence can be extracted. Alternatively, when a sentence is embedded inside the table, such as a title, the sentence can be extracted. The table-text correspondence unit 1411 performs the above processing on the
関連テキスト情報抽出部1412は、表と文章の対応付け部1411で抽出された、あるいは表に付随する全てのテキスト情報において、表内の項目または項目の値が現れる文章を関連テキスト情報として抽出する。このとき、項目の同義語等も項目と同様に扱う。このためには、辞書(シソーラス)307を使用して、同義語や類語を抽出することができる。同様に、項目の省略形や、対応する外国語等も項目と同様に扱うことができる。また、項目の値も、単位が付加されているものと付加されていないものを同様に扱うことができる。また、同じ物理量や性質を示す単位、例えばキログラム(kg)とトン(t)、円と米ドルを同様に扱うことができる。また乗数の有無なども同等に扱うことができる。これら関連する語については、辞書307に登録しておけばよい。
The related text information extraction unit 1412 extracts as related text information the item in the table or the sentence in which the value of the item appears in all the text information extracted by the table-sentence correspondence unit 1411 or attached to the table. .. At this time, synonyms of items are treated in the same way as items. For this purpose, a dictionary (thesaurus) 307 can be used to extract synonyms and synonyms. Similarly, abbreviations for items and corresponding foreign languages can be treated in the same way as items. Further, as the value of the item, the one with the unit added and the one without the unit can be treated in the same way. In addition, units exhibiting the same physical quantity and properties, such as kilogram (kg) and ton (t), yen and US dollar, can be treated in the same manner. In addition, the presence or absence of a multiplier can be treated in the same way. These related words may be registered in the
図6に関連テキスト情報抽出の例を示す。タイトル102には、項目「年度」「年齢」「人口」が含まれる文章601があるため抽出される。説明文103からは、「人口」が含まれる文章602と、項目「人口」と項目の値である「2010年」「65歳」「610人」が含まれる文章603を抽出する。抽出される文章は、一つでも複数でも良い。また抽出される文章は、一つの文からなるものでもよいし、複数の文からなるものでも良い。
FIG. 6 shows an example of extracting related text information. The
関連テキスト情報解釈部1413は、テキスト情報の文章の語順、主語、述語、目的語、修飾関係などを特定する。これはテキストマイニング等で用いられる、自然言語の構文解析を行う、公知の文書解析ソフトウェアで構成することができる。
The related text
特徴定義部1414は、表や文章の特徴を定義して特徴定義データ306を生成する。 The feature definition unit 1414 defines the features of the table or text and generates the feature definition data 306.
図7に特徴定義データ306の例を示す。図7の例は、オペレータが経験則に基づいて作成した定義データである。特徴定義データ306は、特徴を一意に示すID701、特徴の対象702、特徴の内容703等の情報を含む。図7に示すように、特徴には、表を対象とする特徴、例えば「特徴1」や「特徴2」、表と文章を対象とする特徴、例えば「特徴3」や「特徴4」がある。 FIG. 7 shows an example of the feature definition data 306. The example of FIG. 7 is definition data created by the operator based on an empirical rule. The feature definition data 306 includes information such as an ID 701 that uniquely indicates the feature, a feature target 702, and a feature content 703. As shown in FIG. 7, the features include features targeting tables, such as "feature 1" and "feature 2", and features targeting tables and sentences, such as "feature 3" and "feature 4". ..
例えば、表を対象とする「特徴1」は、項目の表内の位置に関する特徴であり、「項目が表の右側に現れる」ことを内容とする。例えば、表と文書を対象とする「特徴3」は、項目と文章の構造に関する特徴であり、「項目が主語であり、修飾されている」ことを内容とする。また、例えば、表と文章を対象とする「特徴4」は、項目の値と文章の構造に関する特徴であり、「項目の値が述部に含まれる」ことを内容とする。
For example, "
特徴定義部1414は、以上の様な特徴を定義して、メモリ15に特徴定義データ306として格納する。特徴は例えば、オペレータが経験則に基づいて作成し、入出力装置13あるいはデータ通信部12から入力することができる。あるいは、特徴を網羅的に自動生成し、後に説明する学習部の処理において推定に寄与しない特徴を削除することで、自動的に生成することも可能である。
The feature definition unit 1414 defines the above features and stores them in the memory 15 as feature definition data 306. The feature can be created by the operator based on an empirical rule and input from the input /
特徴抽出部1415は、関連テキスト情報解釈部1413の解釈結果も用いて、特徴定義部1414で定義した特徴が、訓練データ301または分析対象データ304の各項目に当てはまるかどうかを判定する。特徴は表の項目ごとに判定する。
The feature extraction unit 1415 also uses the interpretation result of the related text
<4−2.学習部>
学習部142は、訓練データ301と構造データ302を用いて、識別モデル303を生成する処理を行う。
<4-2. Learning Department>
The
図8は学習部142が行う処理の処理フローを示す。
FIG. 8 shows a processing flow of processing performed by the
処理S801では、例えば図3に示すような訓練データ301に対して、関連テキスト情報抽出部1412を用いて、表101Tとタイトル102T,説明文103Tの関連付けを行う。関連付けの概念は図6で説明した。このとき、先に述べたように、表と文章の対応付け部1411を用いて、訓練データ301のテキスト情報から必要な部分のみを選択抽出して処理しても良い。
In the process S801, for example, the
処理S802では、各訓練データへ正解を付与する。すなわち、例えば図3の表101Tの各項目について、それぞれ「次元」や「測度」を特定する構造データ302を入力する。入力は、先に述べたように、オペレータが表101Tを目視して判断し、入出力装置13から入力すればよい。構造データ302はメモリ15に格納される。なお、処理S802は、処理S801の前でもよいし、処理S803の後でも良い。
In the process S802, a correct answer is given to each training data. That is, for example, for each item in Table 101T of FIG. 3,
処理S803では、特徴定義データ306に基づいて、関連テキスト情報解釈部1413および特徴抽出部1415を用い、訓練データ301の特徴を抽出する。
In the process S803, the features of the
図9は、訓練データ301の特徴抽出を説明する概念図である。訓練データ301に含まれる表の各項目について、図7の特徴定義データ306の特徴の内容703が当てはまるかどうかを判定し、特徴を抽出する。図9の例では、特徴抽出結果901において、訓練データ301の各項目に便宜上とおし番号911を付加し、当該項目について、特徴の抽出有無を特徴ID701ごとに「True」「False」で判定する。特徴が抽出された場合を「True」、特徴が抽出されない場合を「False」とする。このとき、訓練データ301の各項目については、正解が構造データ302として既知であるため、特徴抽出結果901を統計的に処理することにより、識別モデル303を得ることができる。
FIG. 9 is a conceptual diagram illustrating the feature extraction of the
図9に示した例では、識別モデル303には、モデル定義テーブル902として、特徴の出現パターンに基づき、モデルA、B、C・・・を定義している。各モデルに該当する複数の項目があった場合において、項目が「次元」か「測度」のいずれかであったかは、構造データ302により判定できるため、統計的に当該モデルにおける「次元」「測度」の出現頻度903が決定できる。作成した識別モデル303はメモリ15に格納する。
In the example shown in FIG. 9, in the
なお、図9の識別モデル303では、出現頻度903をそのまま判定の判断結果として表構造の推定に用いているが、出願頻度の高いほうを選択し、「次元」か「測度」かの二者択一の結果としてもよい。
In the
先に述べたように特徴を網羅的に自動生成している場合等では、出現頻度903に対して相関が見られない特徴については、推定に寄与しない特徴と判定して削除することで、特徴数を減少し、処理量を低減することができる。
As mentioned above, in the case where features are comprehensively and automatically generated, features that do not correlate with the
<4−3.特徴抽出処理>
図10は、訓練データの特徴抽出処理S803の詳細を示す図である。図10のフローは、一つの項目についての処理を示しており、訓練データ301の表の全ての項目について、同様の処理を行う。
<4-3. Feature extraction process>
FIG. 10 is a diagram showing details of the training data feature extraction process S803. The flow of FIG. 10 shows the processing for one item, and the same processing is performed for all the items in the table of the
図10では、図7の特徴定義データ306を持いて特徴抽出を行い、図9の特徴抽出結果901を得る例を示している。 FIG. 10 shows an example in which feature extraction is performed with the feature definition data 306 of FIG. 7 and the feature extraction result 901 of FIG. 9 is obtained.
処理S8031では、変数Nに1を代入する。 In process S8031, 1 is assigned to the variable N.
処理S8032では、特徴定義データ306からN番目の特徴の内容を取得する。最初の特徴は(特徴1)である。 In the process S8032, the contents of the Nth feature are acquired from the feature definition data 306. The first feature is (feature 1).
処理S8033では、特徴の内容により分岐処理を行う。特徴が表と文章の両方に関するものである場合は、処理S8036に進む。特徴が表と文章の両方に関するものでない場合は、処理S8034に進む。図7の特徴定義データ306の例では、表と文章の両方に関する特徴は、(特徴3)(特徴4)(特徴7)(特徴8)である。表と文章の両方に関するものでない特徴、すなわち表のみに関する特徴は、(特徴1)(特徴2)(特徴5)(特徴6)である。 In the process S8033, a branch process is performed according to the content of the feature. If the feature relates to both a table and a sentence, the process proceeds to S8036. If the feature is not related to both the table and the text, the process proceeds to S8034. In the example of the feature definition data 306 of FIG. 7, the features relating to both the table and the text are (feature 3) (feature 4) (feature 7) (feature 8). Features that are not related to both tables and sentences, that is, features related only to tables, are (feature 1), (feature 2), (feature 5), and (feature 6).
表のみに関する特徴判定処理である処理S8034では、表の項目の位置を判定する。例えば図7の(特徴1)(特徴5)については、処理S8034で特徴を抽出することができる。 In the process S8034, which is a feature determination process relating only to the table, the positions of the items in the table are determined. For example, with respect to (feature 1) and (feature 5) of FIG. 7, the feature can be extracted by the process S8034.
処理S8035では、表の項目または項目の値を判定する。例えば図7の(特徴2)(特徴6)については、処理S8035で特徴を抽出することができる。 In the process S8035, the item in the table or the value of the item is determined. For example, with respect to (feature 2) and (feature 6) of FIG. 7, the feature can be extracted by the process S8035.
表と文章の両方に関する特徴判定処理である処理S8036では、処理S801で抽出した関連テキスト情報を取得する。 In the process S8036, which is a feature determination process for both the table and the text, the related text information extracted in the process S801 is acquired.
処理S8037では、関連テキスト情報解釈部1413により、関連テキスト情報の文章の構文解析を行う。
In the process S8037, the related text
処理S8038では、文章中での項目または項目の値の使われ方を判定する。すなわち、図7の例では、「項目が主語であり、修飾されているかどうか」を判定することで(特徴3)を抽出する。また、「項目の値が述部に含まれるかどうか」を判定することで(特徴4)を抽出する。 In the process S8038, it is determined how to use the item or the value of the item in the text. That is, in the example of FIG. 7, (feature 3) is extracted by determining "whether or not the item is the subject and is modified". Further, (feature 4) is extracted by determining "whether or not the value of the item is included in the predicate".
以上の処理の結果、処理S8039で特徴を抽出し、当該特徴について「True」「False」の結果を得ることができる。 As a result of the above processing, the feature can be extracted in the processing S8039, and the results of "True" and "False" can be obtained for the feature.
処理S8040ではNの値をインクリメントし、処理S8041では、最後の特徴まで処理が終わっている場合には処理を終了し、最後の特徴まで処理が終わっていない場合には、処理S8032に戻って、次の特徴の抽出処理を行う。以上により、図9に例を示す特徴抽出結果901を得ることができる。 In the process S8040, the value of N is incremented, and in the process S8041, the process ends when the process is completed up to the last feature, and returns to the process S8032 when the process is not completed up to the last feature. The following features are extracted. As a result, the feature extraction result 901 shown in FIG. 9 can be obtained.
以上の説明では、訓練データ301の処理S803について説明したが、分析対象データ304についての特徴抽出処理S1102も同様に行うことができる。
In the above description, the processing S803 of the
<4−4.識別部>
識別部143は、分析対象データ304と識別モデル303を用いて、構造推定データ305を生成する処理を行う。
<4-4. Identification unit>
The
図11は識別部143が行う処理の処理フローを示す。
FIG. 11 shows a processing flow of processing performed by the
処理S1101では、分析対象データ304に対して、関連テキスト情報抽出部1412を用いて、表101とタイトル102,説明文103の関連付けを行う。具体的な処理は、処理S801と同様でよい。
In the process S1101, the table 101 is associated with the
処理S1102では、特徴定義データ306に基づいて、関連テキスト情報解釈部1413および特徴抽出部1415を用い、分析対象データ304の特徴を抽出する。具体的な処理は、処理S803と同様でよい。具体的には、図10で説明したものと同様でよい。分析対象データ304の特徴抽出結果も、図9の訓練データ301の特徴抽出結果901と同様の構造である。
In the process S1102, the features of the
処理S1103では、識別モデル303に、分析対象データ304の特徴抽出結果を当てはめ、分析対象データ304が含む表の項目を識別する。例えば、二者択一方式であれば、図9のモデルAに該当する特徴が抽出された項目は、「次元」と判定する。
In the process S1103, the feature extraction result of the
処理S1104では、識別部143は識別結果を表示部144に送付し、表示部144の制御により、入出力装置13が備える例えば画像表示装置に結果を表示する。また、同時にあるいはこれに代えて、データ通信部12から結果を送信してもよい。
In the process S1104, the
以上説明した実施例では、表のみではなく、表のタイトルや説明文における、表の項目やその値の現れ方を特徴として使用している。本実施例によれば、表と表に関連する文書の両方を用いることで、表内に構造を推定するための特徴が含まれていない場合であっても、表の関連文書に構造を推定する特徴が含まれている場合は、構造の推定が可能になる。その結果、推定の精度が向上する。また、構造を推定するための識別モデルを自動生成することができるので、人手を介する部分を削減することができる。 In the above-described embodiment, not only the table but also the table items and their values appear in the table titles and explanations as features. According to this embodiment, by using both the table and the document related to the table, the structure is estimated in the related document of the table even if the table does not contain the features for estimating the structure. If the feature is included, the structure can be estimated. As a result, the accuracy of estimation is improved. Moreover, since the discriminative model for estimating the structure can be automatically generated, the part that requires manual labor can be reduced.
実施例1で使用した識別モデル303は、定義した特徴の全てを用いている。しかし、特徴を全て用いずに、結果との相関が高い特徴のみを用いて識別モデルを生成することもできる。所定のアルゴリズムを与えることにより、所望の識別モデルを生成することができる。
The
例えば、図9において、訓練データ301の特徴抽出結果901を集計した場合において、「所定の条件が成立する場合に、所定の識別モデルを生成する」、というアルゴリズムにより、モデル生成を行うことができる。
For example, in FIG. 9, when the feature extraction results 901 of the
例えば、「ある特徴Xが「True」であれば、他の特徴がどのような結果であっても、当該項目は90%以上が「次元」である」という条件が成立する場合に、「特徴Xが「True」であれば、当該項目は「次元」である」という識別モデルを生成することができる。 For example, if the condition that "if a certain feature X is" True ", 90% or more of the item is" dimension "" is satisfied regardless of the result of the other feature, "feature" is satisfied. If X is "True", the discriminative model that "the item is a dimension" can be generated.
上記は単純な例であるが、条件や識別モデルは種々のものが採用可能であり、さらに複雑な条件により、複雑な識別モデルを生成するものであってもよい。 Although the above is a simple example, various conditions and discriminative models can be adopted, and a complicated discriminative model may be generated under more complicated conditions.
実施例1では、学習部142において、訓練データ301と構造データ302を用いて識別モデル303を自動生成した。
In the first embodiment, the
しかし、単純な識別モデル303であれば、データの使用者が経験的に人手により作成することもできる。作成した識別モデル303は、入出力装置13やデータ通信部12から入力し、メモリ15に格納する。この場合のシステム構成は基本的に実施例1と同様であるが、図4の学習部142および学習部142が使用するデータは不要となる。
However, if it is a simple
図12に実施例3の識別モデル303−2の例を示す。図12の識別モデル303−2は、オペレータが経験側に基づいて作成し、分類して表示したものである。図12では、表を対象とする特徴(特徴1)(特徴2)(特徴5)(特徴6)、表と文書を対象とする特徴(特徴3)(特徴4)(特徴7)(特徴8)が定義されている。また、「測度」を判定する特徴(特徴1)(特徴2)(特徴3)(特徴4)と、「次元」を判定する特徴(特徴5)(特徴6)(特徴7)(特徴8)がある。 FIG. 12 shows an example of the identification model 303-2 of the third embodiment. The discriminative model 303-2 of FIG. 12 is created by the operator based on the experience side, classified and displayed. In FIG. 12, features (feature 1) (feature 2) (feature 5) (feature 6) for tables and features (feature 3) (feature 4) (feature 7) (feature 8) for tables and documents. ) Is defined. In addition, the feature (feature 1) (feature 2) (feature 3) (feature 4) for determining "measure" and the feature (feature 5) (feature 6) (feature 7) (feature 8) for determining "dimension" There is.
例えば、表を対象とする(特徴1)は、項目の表内の位置に関する特徴であり、「項目が表の右側に現れる」ことを内容とする。「測度」を示す項目は、表の右側に現れやすいので、(特徴1)が抽出された項目は「測度」と判定する。 For example, targeting a table (feature 1) is a feature relating to the position of an item in the table, and includes "the item appears on the right side of the table". Since the item indicating "measure" tends to appear on the right side of the table, the item from which (feature 1) is extracted is determined to be "measure".
例えば、表と文書を対象とする(特徴3)は、表の項目と文章の構造に関する特徴であり、「文章中において、項目が主語であり、修飾されている」ことを内容とする。このような特徴が抽出された項目は、「測度」と判定する。 For example, targeting a table and a document (feature 3) is a feature relating to the items of the table and the structure of the sentence, and includes that "the item is the subject and is modified in the sentence". Items from which such features have been extracted are determined to be "measures".
例えば、表と文章を対象とする(特徴4)は、表の項目の値と文章の構造に関する特徴であり、「項目の値が述部に含まれる」ことを内容とする。このような特徴が抽出された項目は、「測度」と判定する。 For example, targeting a table and a sentence (feature 4) is a feature relating to the value of an item in the table and the structure of the sentence, and includes "the value of the item is included in the predicate". Items from which such features have been extracted are determined to be "measures".
識別部143が、図12のような識別モデル202−2を用いて識別する場合の処理フローは、図11で説明したものと同様である。
The processing flow when the
図13に、実施例3における、分析対象データ304の識別処理S1003の例を示す。この例では、分析対象データ304が含む表の各項目に便宜上とおし番号1311を付している。各項目夫々に対して、図12で示した8つの特徴が抽出されるかどうかをカウントする。例えば、#001番の項目では、測度を示す特徴のカウントが3で、次元を示す特徴のカウントが1であり、この例では多数決により判定を行うため、結果は「測度」となる。もちろん、単純な多数決ではなく、各特徴に異なる重みをつける等の変更は可能である。また、説明した8つの特徴は例であり、種類を増やすことも減らすことも可能である。
FIG. 13 shows an example of the identification process S1003 of the
図14に実施例1〜3によって得られた、表の構造情報を利用した自然言語による検索システムの応用例を示す。 FIG. 14 shows an application example of a search system in natural language using the structural information of the table obtained in Examples 1 to 3.
実施例1〜3によって、分析対象データ304の表101には、その構造に関する構造データ302が付加されている。この構造に従って、検索可能な自然言語表現1401を準備する。自然言語表現1401は所定の生成規則に基づいて自動生成しても良いし、オペレータが作成しても良い。例えば、次元が「都道府県」であり、測度が「年齢」と「人口」の場合には、これを示す自然言語表現としては「都道府県別の年齢と人口」となる。従って、このような自然言語表現をユーザ1402に提示すること、あるいはユーザ1402に入力させることにより、所望の表を自然言語で検索することを支援することができる。
According to Examples 1 to 3,
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の実施例の構成の追加・削除・置換をすることが可能である。 The present invention is not limited to the above-described embodiment, and includes various modifications. For example, it is possible to replace a part of the configuration of one embodiment with the configuration of another embodiment, and it is possible to add the configuration of another embodiment to the configuration of one embodiment. In addition, it is possible to add / delete / replace the configurations of other examples with respect to a part of the configurations of each embodiment.
表:101
表のタイトル:102
説明文:103
Table: 101
Table title: 102
Description: 103
Claims (9)
前記記憶装置は、
表と文章の両方に関係する特徴を定義する特徴定義データを格納し、
前記入力装置は、
分析対象データを受け付けるものであり、
前記処理装置は、
前記分析対象データから、表を取得するとともに、当該表に関連する文章を関連テキストとして取得する、関連テキスト情報抽出部と、
前記特徴定義データを用いて、取得した前記表と前記関連テキストから、前記特徴を抽出する特徴抽出部と、
前記特徴抽出部の特徴抽出結果に基づいて、前記表の項目の「次元」と「測度」の区別を推定する識別部と、
を備え、
前記関連テキスト情報抽出部は、
前記分析対象データに含まれる、表の項目を含む文章を、前記関連テキストとして取得し、
前記特徴は、
文書中における表の項目の使われ方を定義したものであり、
前記処理装置は、
前記関連テキストの構文を解析する関連テキスト情報解釈部を備え、
前記特徴抽出部は、
前記関連テキストにおける、前記表の項目の使われ方を判定することにより、前記特徴を抽出し、
前記表の項目の使われ方は、
(1)項目は主語であり、修飾されている
(2)項目は主語を修飾している
のうちの少なくとも一つを含み、
前記記憶装置は、
前記特徴抽出部の特徴抽出結果と前記表の項目の「次元」と「測度」の区別の関係を規定する識別モデルを記憶し、
前記識別部は、
前記識別モデルを用いて前記表の項目の「次元」と「測度」の区別を推定する、
表構造の推定システム。 A table-structured estimation system with input devices, output devices, storage devices, and processing devices.
The storage device is
Stores feature definition data that defines features related to both tables and sentences,
The input device is
It accepts data to be analyzed and
The processing device
A related text information extraction unit that acquires a table from the analysis target data and also acquires sentences related to the table as related texts.
A feature extraction unit that extracts the feature from the acquired table and the related text using the feature definition data,
Based on the feature extraction result of the feature extraction unit, the identification unit that estimates the distinction between "dimension" and "measure" of the items in the table, and the identification unit.
Equipped with a,
The related text information extraction unit
The text including the table items included in the analysis target data is acquired as the related text, and the text is obtained.
The above features
It defines how table items are used in a document.
The processing device
It has a related text information interpretation unit that analyzes the syntax of the related text.
The feature extraction unit
By determining how the items in the table are used in the related text, the features are extracted.
How to use the items in the above table
(1) The item is the subject and is qualified
(2) The item modifies the subject
Including at least one of
The storage device is
A discriminative model that defines the relationship between the feature extraction result of the feature extraction unit and the distinction between "dimension" and "measure" of the items in the table is stored.
The identification unit
Using the discriminative model, the distinction between "dimension" and "measure" of the items in the table is estimated.
Table structure estimation system.
前記記憶装置は、
表と文章の両方に関係する特徴を定義する特徴定義データを格納し、
前記入力装置は、
分析対象データを受け付けるものであり、
前記処理装置は、
前記分析対象データから、表を取得するとともに、当該表に関連する文章を関連テキストとして取得する、関連テキスト情報抽出部と、
前記特徴定義データを用いて、取得した前記表と前記関連テキストから、前記特徴を抽出する特徴抽出部と、
前記特徴抽出部の特徴抽出結果に基づいて、前記表の項目の「次元」と「測度」の区別を推定する識別部と、
を備え、
前記関連テキスト情報抽出部は、
前記分析対象データに含まれる、表の項目の値を含む文章を、前記関連テキストとして取得し、
前記特徴は、
文書中における表の項目の値の使われ方を定義したものであり、
前記処理装置は、
前記関連テキストの構文を解析する関連テキスト情報解釈部を備え、
前記特徴抽出部は、
前記関連テキストにおける、前記表の項目の値の使われ方を判定することにより、前記特徴を抽出し、
前記表の項目の値の使われ方は、
(1)項目の値は述部に含まれる
(2)項目の値は主語を修飾している
のうちの少なくとも一つを含み、
前記記憶装置は、
前記特徴抽出部の特徴抽出結果と前記表の項目の「次元」と「測度」の区別の関係を規定する識別モデルを記憶し、
前記識別部は、
前記識別モデルを用いて前記表の項目の「次元」と「測度」の区別を推定する、
表構造の推定システム。 A table-structured estimation system with input devices, output devices, storage devices, and processing devices.
The storage device is
Stores feature definition data that defines features related to both tables and sentences,
The input device is
It accepts data to be analyzed and
The processing device
A related text information extraction unit that acquires a table from the analysis target data and also acquires sentences related to the table as related texts.
A feature extraction unit that extracts the feature from the acquired table and the related text using the feature definition data,
Based on the feature extraction result of the feature extraction unit, the identification unit that estimates the distinction between "dimension" and "measure" of the items in the table, and the identification unit.
Equipped with a,
The related text information extraction unit
A sentence including the value of the item in the table included in the analysis target data is acquired as the related text, and the text is obtained.
The above features
It defines how the values of table items are used in a document.
The processing device
It has a related text information interpretation unit that analyzes the syntax of the related text.
The feature extraction unit
The feature is extracted by determining how the values of the items in the table are used in the related text.
How to use the values of the items in the above table
(1) Item values are included in the predicate
(2) The item value modifies the subject
Including at least one of
The storage device is
A discriminative model that defines the relationship between the feature extraction result of the feature extraction unit and the distinction between "dimension" and "measure" of the items in the table is stored.
The identification unit
Using the discriminative model, the distinction between "dimension" and "measure" of the items in the table is estimated.
Table structure estimation system.
前記記憶装置は、
表と文章の両方に関係する特徴を定義する特徴定義データを格納し、
前記入力装置は、
分析対象データを受け付けるものであり、
前記処理装置は、
前記分析対象データから、表を取得するとともに、当該表に関連する文章を関連テキストとして取得する、関連テキスト情報抽出部と、
前記特徴定義データを用いて、取得した前記表と前記関連テキストから、前記特徴を抽出する特徴抽出部と、
前記特徴抽出部の特徴抽出結果に基づいて、前記表の項目の「次元」と「測度」の区別を推定する識別部と、
を備え、
前記関連テキスト情報抽出部は、
前記分析対象データに含まれる、表の項目と関連する語を含む文章を、前記関連テキストとして取得し、
前記記憶装置は、
所定の語に関連する語を関連語として定義する辞書を格納し、
前記表の項目と関連する語は、
前記辞書によって定義された関連語であり、
前記特徴は、
文書中における表の項目の使われ方を定義したものであり、
前記処理装置は、
前記関連テキストの構文を解析する関連テキスト情報解釈部を備え、
前記特徴抽出部は、
前記関連テキストにおける、前記表の項目の使われ方を判定することにより、前記特徴を抽出し、
前記表の項目の使われ方は、
(1)項目は主語であり、修飾されている
(2)項目は主語を修飾している
のうちの少なくとも一つを含み、
前記記憶装置は、
前記特徴抽出部の特徴抽出結果と前記表の項目の「次元」と「測度」の区別の関係を規定する識別モデルを記憶し、
前記識別部は、
前記識別モデルを用いて前記表の項目の「次元」と「測度」の区別を推定する、
表構造の推定システム。 A table-structured estimation system with input devices, output devices, storage devices, and processing devices.
The storage device is
Stores feature definition data that defines features related to both tables and sentences,
The input device is
It accepts data to be analyzed and
The processing device
A related text information extraction unit that acquires a table from the analysis target data and also acquires sentences related to the table as related texts.
A feature extraction unit that extracts the feature from the acquired table and the related text using the feature definition data,
Based on the feature extraction result of the feature extraction unit, the identification unit that estimates the distinction between "dimension" and "measure" of the items in the table, and the identification unit.
Equipped with a,
The related text information extraction unit
A sentence including a word related to a table item included in the analysis target data is acquired as the related text.
The storage device is
Stores a dictionary that defines words related to a given word as related words,
The words related to the items in the table above are:
It is a related word defined by the dictionary.
The above features
It defines how table items are used in a document.
The processing device
It has a related text information interpretation unit that analyzes the syntax of the related text.
The feature extraction unit
By determining how the items in the table are used in the related text, the features are extracted.
How to use the items in the above table
(1) The item is the subject and is qualified
(2) The item modifies the subject
Including at least one of
The storage device is
A discriminative model that defines the relationship between the feature extraction result of the feature extraction unit and the distinction between "dimension" and "measure" of the items in the table is stored.
The identification unit
Using the discriminative model, the distinction between "dimension" and "measure" of the items in the table is estimated.
Table structure estimation system.
前記記憶装置は、
表と文章の両方に関係する特徴を定義する特徴定義データを格納し、
前記入力装置は、
分析対象データを受け付けるものであり、
前記処理装置は、
前記分析対象データから、表を取得するとともに、当該表に関連する文章を関連テキストとして取得する、関連テキスト情報抽出部と、
前記特徴定義データを用いて、取得した前記表と前記関連テキストから、前記特徴を抽出する特徴抽出部と、
前記特徴抽出部の特徴抽出結果に基づいて、前記表の項目の「次元」と「測度」の区別を推定する識別部と、
を備え、
前記関連テキスト情報抽出部は、
前記分析対象データに含まれる、表の項目の値と関連する語を含む文章を、前記関連テキストとして取得し、
前記記憶装置は、
所定の語に関連する語を関連語として定義する辞書を格納し、
前記表の項目の値と関連する語は、
前記辞書によって定義された関連語であり、
前記特徴は、
文書中における表の項目の値の使われ方を定義したものであり、
前記処理装置は、
前記関連テキストの構文を解析する関連テキスト情報解釈部を備え、
前記特徴抽出部は、
前記関連テキストにおける、前記表の項目の値の使われ方を判定することにより、前記特徴を抽出し、
前記表の項目の値の使われ方は、
(1)項目の値は述部に含まれる
(2)項目の値は主語を修飾している
のうちの少なくとも一つを含み、
前記記憶装置は、
前記特徴抽出部の特徴抽出結果と前記表の項目の「次元」と「測度」の区別の関係を規定する識別モデルを記憶し、
前記識別部は、
前記識別モデルを用いて前記表の項目の「次元」と「測度」の区別を推定する、
表構造の推定システム。 A table-structured estimation system with input devices, output devices, storage devices, and processing devices.
The storage device is
Stores feature definition data that defines features related to both tables and sentences,
The input device is
It accepts data to be analyzed and
The processing device is
A related text information extraction unit that acquires a table from the analysis target data and also acquires sentences related to the table as related texts.
A feature extraction unit that extracts the feature from the acquired table and the related text using the feature definition data,
Based on the feature extraction result of the feature extraction unit, the identification unit that estimates the distinction between "dimension" and "measure" of the items in the table, and the identification unit.
Equipped with a,
The related text information extraction unit
A sentence including a word related to the value of the item in the table included in the analysis target data is acquired as the related text.
The storage device is
Stores a dictionary that defines words related to a given word as related words,
The words associated with the values of the items in the table above are:
It is a related word defined by the dictionary.
The above features
It defines how the values of table items are used in a document.
The processing device is
It has a related text information interpretation unit that analyzes the syntax of the related text.
The feature extraction unit
The feature is extracted by determining how the values of the items in the table are used in the related text.
How to use the values of the items in the above table
(1) Item values are included in the predicate
(2) The item value modifies the subject
Including at least one of
The storage device is
A discriminative model that defines the relationship between the feature extraction result of the feature extraction unit and the distinction between "dimension" and "measure" of the items in the table is stored.
The identification unit
Using the discriminative model, the distinction between "dimension" and "measure" of the items in the table is estimated.
Table structure estimation system.
訓練データを受け付けるものであり、
前記処理装置は、学習部を備え、該学習部は、
前記訓練データの表の項目の「次元」と「測度」の区別に関する情報を、構造データとして前記記憶装置に格納し、
前記訓練データを前記分析対象データとして、前記関連テキスト情報抽出部、および、
特徴抽出部に処理を実行させ、
前記特徴抽出部で抽出された特徴と、前記構造データに基づいて、前記識別モデルを生成し、前記記憶装置に格納する、
請求項1〜4のいずれかに記載の表構造の推定システム。 The input device is
It accepts training data and
The processing device includes a learning unit, and the learning unit
Information regarding the distinction between "dimension" and "measure" of the items in the table of the training data is stored in the storage device as structural data.
Using the training data as the analysis target data, the related text information extraction unit and
Let the feature extractor execute the process
The identification model is generated based on the features extracted by the feature extraction unit and the structural data, and stored in the storage device.
The table structure estimation system according to any one of claims 1 to 4 .
該表と文章の対応付け部は、
前記分析対象データから、表と文章が特定の配置関係にある文章を抽出し、当該抽出した文章を、前記関連テキスト情報抽出部に送る、
請求項1〜4のいずれかに記載の表構造の推定システム。 Equipped with a table-text correspondence section
The correspondence part between the table and the text is
Wherein the analysis target data, out extract the text in the table and text specific positional relationship, a sentence the extracted, sent to the related text information extracting unit,
The table structure estimation system according to any one of claims 1 to 4 .
前記記憶装置に、
表と文章の両方に関係する特徴を定義する特徴定義データを準備し、
前記入力装置から、
分析対象データを入力し、
前記処理装置は、
前記分析対象データから、表を取得するとともに、当該表に関連する文章を関連テキストとして取得し、
前記特徴定義データを用いて、取得した前記表と前記関連テキストから、前記特徴を抽出し、
前記抽出された特徴に基づいて、前記表の項目の「次元」と「測度」の区別を推定し、
前記分析対象データに含まれる、表の項目を含む文章を、前記関連テキストとして取得し、
前記特徴は、
文書中における表の項目の使われ方を定義したものであり、
前記処理装置は、
前記関連テキストにおける、前記表の項目の使われ方を判定することにより、前記特徴を抽出し、
前記表の項目の使われ方は、
(1)項目は主語であり、修飾されている
(2)項目は主語を修飾している
のうちの少なくとも一つを含み、
前記表の項目の「次元」と「測度」の区別を推定する際に、抽出された特徴と前記表の項目の「次元」と「測度」の区別の関係を規定する識別モデルを用いる、
表構造の推定方法。 A method for estimating a table structure using an input device, an output device, a storage device, and a processing device.
In the storage device
Prepare feature definition data that defines features related to both tables and sentences,
From the input device
Enter the data to be analyzed and
The processing device
A table is acquired from the analysis target data, and sentences related to the table are acquired as related texts.
Using the feature definition data, the feature is extracted from the acquired table and the related text.
Based on the extracted features, and estimate the distinction of "measure" and "dimension" of the item of the table,
The text including the table items included in the analysis target data is acquired as the related text, and the text is obtained.
The above features
It defines how table items are used in a document.
The processing device
By determining how the items in the table are used in the related text, the features are extracted.
How to use the items in the above table
(1) The item is the subject and is qualified
(2) The item modifies the subject
Including at least one of
When estimating the distinction between "dimension" and "measure" of the items in the table, a discriminative model is used that defines the relationship between the extracted features and the distinction between "dimension" and "measure" of the items in the table.
How to estimate the table structure.
前記記憶装置に、
表と文章の両方に関係する特徴を定義する特徴定義データを準備し、
前記入力装置から、
分析対象データを入力し、
前記処理装置は、
前記分析対象データから、表を取得するとともに、当該表に関連する文章を関連テキストとして取得し、
前記特徴定義データを用いて、取得した前記表と前記関連テキストから、前記特徴を抽出し、
前記抽出された特徴に基づいて、前記表の項目の「次元」と「測度」の区別を推定し、
前記分析対象データに含まれる、表の項目の値を含む文章を、前記関連テキストとして取得し、
前記特徴は、
文書中における表の項目の値の使われ方を定義したものであり、
前記処理装置は、
前記関連テキストにおける、前記表の項目の値の使われ方を判定することにより、前記特徴を抽出し、
前記表の項目の値の使われ方は、
(1)項目の値は述部に含まれる
(2)項目の値は主語を修飾している
のうちの少なくとも一つを含み、
前記表の項目の「次元」と「測度」の区別を推定する際に、抽出された特徴と前記表の項目の「次元」と「測度」の区別の関係を規定する識別モデルを用いる、
表構造の推定方法。 A method for estimating a table structure using an input device, an output device, a storage device, and a processing device.
In the storage device
Prepare feature definition data that defines features related to both tables and sentences,
From the input device
Enter the data to be analyzed and
The processing device
A table is acquired from the analysis target data, and sentences related to the table are acquired as related texts.
Using the feature definition data, the feature is extracted from the acquired table and the related text.
Based on the extracted features, and estimate the distinction of "measure" and "dimension" of the item of the table,
A sentence including the value of the item in the table included in the analysis target data is acquired as the related text, and the text is obtained.
The above features
It defines how the values of table items are used in a document.
The processing device is
The feature is extracted by determining how the values of the items in the table are used in the related text.
How to use the values of the items in the above table
(1) Item values are included in the predicate
(2) The item value modifies the subject
Including at least one of
When estimating the distinction between "dimension" and "measure" of the items in the table, a discriminative model is used that defines the relationship between the extracted features and the distinction between "dimension" and "measure" of the items in the table.
How to estimate the table structure.
訓練データを入力し、
前記入力装置から、
前記訓練データが含む、表の項目の「次元」と「測度」とを区別する情報を含む構造データを入力し、
前記処理装置は、
前記訓練データから、表を取得するとともに、当該表に関連する文章を関連テキストとして取得し、
前記特徴定義データを用いて、取得した前記表と前記関連テキストから、前記特徴を抽出し、
前記抽出された特徴と、前記構造データに基づいて、前記識別モデルを生成し、前記記憶装置に格納する、
請求項7または8記載の表構造の推定方法。 From the input device
Enter the training data and
From the input device
Input the structural data including the information that distinguishes the "dimension" and "measure" of the table items included in the training data.
The processing device
A table is acquired from the training data, and sentences related to the table are acquired as related texts.
Using the feature definition data, the feature is extracted from the acquired table and the related text.
Based on the extracted features and the structural data, the discriminative model is generated and stored in the storage device.
The method for estimating the table structure according to claim 7 or 8 .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016183089A JP6804913B2 (en) | 2016-09-20 | 2016-09-20 | Table structure estimation system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016183089A JP6804913B2 (en) | 2016-09-20 | 2016-09-20 | Table structure estimation system and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018049356A JP2018049356A (en) | 2018-03-29 |
JP6804913B2 true JP6804913B2 (en) | 2020-12-23 |
Family
ID=61767555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016183089A Active JP6804913B2 (en) | 2016-09-20 | 2016-09-20 | Table structure estimation system and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6804913B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7350674B2 (en) * | 2020-02-26 | 2023-09-26 | 株式会社東芝 | Information processing device, information processing method, and program |
-
2016
- 2016-09-20 JP JP2016183089A patent/JP6804913B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018049356A (en) | 2018-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20190038751A (en) | User keyword extraction apparatus, method and computer readable storage medium | |
CN108108426B (en) | Understanding method and device for natural language question and electronic equipment | |
AU2019201244B2 (en) | Natural language processing and artificial intelligence based search system | |
CN109408824B (en) | Method and device for generating information | |
JP5544602B2 (en) | Word semantic relationship extraction apparatus and word semantic relationship extraction method | |
CN112084381A (en) | Event extraction method, system, storage medium and equipment | |
JP5445787B2 (en) | Attribute extraction method, system and program | |
CN107077640B (en) | System and process for analyzing, qualifying, and ingesting unstructured data sources via empirical attribution | |
CN111428503B (en) | Identification processing method and processing device for homonymous characters | |
JP2018025874A (en) | Text analyzer and program | |
CN112560504B (en) | Method, electronic equipment and computer readable medium for extracting information in form document | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
WO2019163642A1 (en) | Summary evaluation device, method, program, and storage medium | |
JP2013131075A (en) | Classification model learning method, device, program, and review document classifying method | |
JP6804913B2 (en) | Table structure estimation system and method | |
JP2014099045A (en) | Profile estimation device, method, and program | |
CN110222181B (en) | Python-based film evaluation emotion analysis method | |
CN108763258B (en) | Document theme parameter extraction method, product recommendation method, device and storage medium | |
CN110717029A (en) | Information processing method and system | |
CN113239273B (en) | Method, apparatus, device and storage medium for generating text | |
Nagarkar et al. | Social Media Intelligence for Brand Analysis | |
WO2022147049A1 (en) | Method, apparatus, and electronic device for obtaining trademark similarity | |
CN115292506A (en) | Knowledge graph ontology construction method and device applied to office field | |
CN114201607A (en) | Information processing method and device | |
CN112069821A (en) | Named entity extraction method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200520 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200609 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6804913 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |