JP2020170426A - Table structure estimation system and table structure estimation method - Google Patents

Table structure estimation system and table structure estimation method Download PDF

Info

Publication number
JP2020170426A
JP2020170426A JP2019072517A JP2019072517A JP2020170426A JP 2020170426 A JP2020170426 A JP 2020170426A JP 2019072517 A JP2019072517 A JP 2019072517A JP 2019072517 A JP2019072517 A JP 2019072517A JP 2020170426 A JP2020170426 A JP 2020170426A
Authority
JP
Japan
Prior art keywords
item
table structure
knowledge
sentence
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019072517A
Other languages
Japanese (ja)
Inventor
雅志 天野
Masashi Amano
雅志 天野
敬志 大島
Takashi Oshima
敬志 大島
浩史 冨田
Hiroshi Tomita
浩史 冨田
浩也 小澤
Hiroya Ozawa
浩也 小澤
章裕 山内
Akihiro Yamauchi
章裕 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019072517A priority Critical patent/JP2020170426A/en
Publication of JP2020170426A publication Critical patent/JP2020170426A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To allow contents of a table to be efficiently converted into a format suitable as a processing target in similar sentence search by AI.SOLUTION: A table structure estimation system 10 includes: a storage device 11 that holds item knowledge 105 that prescribes affinity between each item and a sentence component in each table format, and item value knowledge 106 that prescribes values that each item can contain; and an arithmetic device 14 that performs a process of collating items included in a table to be processed with the item knowledge 105 and identifying potential sentence components among the items based on a degree of the affinity, and a process of arranging the identified items in combination according to types of the sentence components, setting a value prescribed in the item value knowledge 106 for each of the arranged items, and generating a sentence.SELECTED DRAWING: Figure 1

Description

本発明は、表組み構造推定システムおよび表組み構造推定方法に関する。 The present invention relates to a table structure estimation system and a table structure estimation method.

日本語文章を対象とした処理として、AI(Artificial Intelligence)による類似文検索が盛んに行われる状況にある。 As a process for Japanese sentences, similar sentence search by AI (Artificial Intelligence) is actively performed.

こうしたAIによる類似文検索の手法は、検索文や検索キーワードと完全一致するもののみを対象とする従来方法とは異なる。例えば、検索文や検索キーワードと意味や出現位置が近しい周囲情報も対象とし、この周囲情報が類似の文や語彙を類似検索結果として検索するものとなっている。 Such a method of searching for similar sentences by AI is different from the conventional method in which only those that exactly match the search sentence or the search keyword are targeted. For example, surrounding information whose meaning and appearance position are close to those of a search sentence or search keyword is also targeted, and sentences and vocabularies similar to this surrounding information are searched as similar search results.

ただし、このAIによる類似文検索方法は、日本語文章の意味をくみ取った上で行われるわけではない。そのため、検索文や検索キーワードの周囲情報を構造的に統一しておくことが、良好な検索精度を保つ条件となる。 However, this AI-based similar sentence search method is not performed after understanding the meaning of Japanese sentences. Therefore, structurally unifying the surrounding information of the search text and the search keyword is a condition for maintaining good search accuracy.

上述の条件が特に問題になりやすい例としては、表組みの存在があげられる。表組みは、互いに対応付けられた語彙や数値が配置されたマトリクス構造を成す。よって、こうした表組みは、全体として文章を成すものではなく、従来手法では好適な検索結果が得られにくい。 An example in which the above conditions are particularly likely to be a problem is the existence of tables. The table structure forms a matrix structure in which vocabulary and numerical values associated with each other are arranged. Therefore, such a table does not form a sentence as a whole, and it is difficult to obtain suitable search results by the conventional method.

そこで、そうした表組みを対象とした検索手法に関連する従来技術としては、以下のものが存在する。例えば、複数の文字列を含むテキストを処理するテキスト処理装置であってプロセッサ及びメモリを有し、上位語に対応する下位語を列挙するために表現される列挙表現に関する列挙表現情報を、前記メモリに保持し、前記テキストから前記列挙表現が抽出されるか否かを、前記列挙表現情報に基づいて判定する列挙表現抽出部と、前記列挙表現が含まれるテキストから、一つのテーマに関する内容を繰り返して表現する少なくとも一つの繰返し表現を抽出する繰返し表現抽出部と、前記テキストに含まれる列挙表現が示す上位語に対応する下位語を、前記抽出された繰返し表現に含まれる文字列の中から決定する下位語決定部と、を有することを特徴とするテキスト処理装置(特許文献1参照)などが提案されている。 Therefore, there are the following as conventional techniques related to the search method for such a table structure. For example, the memory is a text processing device that processes text including a plurality of character strings, has a processor, and has memory, and stores enumeration expression information relating to an enumeration expression expressed for enumerating hyponyms corresponding to hypernyms. The content related to one theme is repeated from the enumeration expression extraction unit that determines whether or not the enumeration expression is extracted from the text based on the enumeration expression information and the text including the enumeration expression. The repeated expression extraction unit that extracts at least one repeated expression to be expressed, and the hyponym corresponding to the hypernym indicated by the enumerated expression included in the text are determined from the character strings included in the extracted repeated expression. A text processing device (see Patent Document 1), which is characterized by having a hyponym determination unit, has been proposed.

WO2014/188555WO2014 / 188555

表組みにおいては、対応関係のある語彙同士を表罫線を境にして配置することで、当該語彙の組みをもって所定の意味を表現することができる。 In the table structure, by arranging the corresponding vocabularies with the table ruled line as a boundary, a predetermined meaning can be expressed by the vocabulary set.

しかしながら、このような表現は人が用いる口語表現とは異なっている。例えば、図4に示す表組み(新旧比較表)300では、日本語文で表すことのできない罫線301を無視して対応する語彙の組みを単純に抽出し羅列すると、日本語として意味が通らない例文302のごとき表現が得られることになる。このことは、本来、対比の文脈上で隣接している、例えば「500GB」と「なし」の語彙の組みが、AIによる類似文検索において共起の関連語と認識され、誤検索結果の原因となりうることを示す。
そこで本発明の目的は、表組みの内容を、AIによる類似文検索における処理対象として好適な形式に効率的に変換可能とする技術を提供することにある。
However, such expressions are different from the colloquial expressions used by humans. For example, in the table (old and new comparison table) 300 shown in FIG. 4, if the corresponding vocabulary set is simply extracted and listed by ignoring the ruled line 301 that cannot be expressed in Japanese, an example sentence that does not make sense as Japanese. An expression such as 302 can be obtained. This means that, for example, the vocabulary combination of "500GB" and "none", which are adjacent in the context of contrast, is recognized as a co-occurrence related word in the similar sentence search by AI, and causes an erroneous search result. Show that it can be.
Therefore, an object of the present invention is to provide a technique capable of efficiently converting the contents of a table into a format suitable as a processing target in a similar sentence search by AI.

上記課題を解決する本発明の表組み構造推定システムは、各表形式における各項目と文成分との親和性を規定した項目知識、および前記各項目が含みうる値を規定した項目値知識、を保持する記憶装置と、処理対象の表組みが含む項目を前記項目知識に照合し、当該項目のうち文成分となりうるものを前記親和性の程度に基づき特定する表構造推定処理と、前記特定した項目を、当該文成分の種類に応じて組み合わせて配列し、前記配列した項目それぞれについて、前記項目値知識で規定されている値を設定し、文を生成する文生成処理と、を実行する演算装置と、を含むことを特徴とする。 The table structure estimation system of the present invention that solves the above problems provides item knowledge that defines the affinity between each item and sentence components in each table format, and item value knowledge that defines the values that each item can contain. The storage device to be held and the items included in the table structure to be processed are collated with the item knowledge, and the table structure estimation process for specifying the items that can be sentence components based on the degree of affinity is specified. An operation in which items are arranged in combination according to the type of the sentence component, a value specified in the item value knowledge is set for each of the arranged items, and a sentence generation process for generating a sentence is executed. It is characterized by including an apparatus.

また、本発明の表組み構造推定方法は、情報処理システムが、各表形式における各項目と文成分との親和性を規定した項目知識、および前記各項目が含みうる値を規定した項目値知識、を保持する記憶装置を備えて、処理対象の表組みが含む項目を前記項目知識に照合し、当該項目のうち文成分となりうるものを前記親和性の程度に基づき特定する表構造推定処理と、前記特定した項目を、当該文成分の種類に応じて組み合わせて配列し、前記配列した項目それぞれについて、前記項目値知識で規定されている値を設定し、文を生成する文生成処理と、を実行することを特徴とする。 Further, in the table structure estimation method of the present invention, the information processing system defines the item knowledge that defines the affinity between each item and the sentence component in each table format, and the item value knowledge that defines the values that each item can include. A table structure estimation process that is provided with a storage device that holds, collates the items included in the table structure to be processed with the item knowledge, and identifies those items that can be sentence components based on the degree of affinity. , The specified items are arranged in combination according to the type of the sentence component, the value specified in the item value knowledge is set for each of the arranged items, and the sentence generation process for generating a sentence is performed. It is characterized by executing.

本発明によれば、表組みの内容を、AIによる類似文検索における処理対象として好適な形式に効率的に変換可能となる。 According to the present invention, the contents of the table structure can be efficiently converted into a format suitable as a processing target in a similar sentence search by AI.

本実施形態における表組み構造推定システムのハードウェア構成例を示す図である。It is a figure which shows the hardware configuration example of the table structure estimation system in this embodiment. 本実施形態の表組み構造推定システムにおける機能ブロック例を示す図である。It is a figure which shows the example of the functional block in the table structure estimation system of this embodiment. 本実施形態の表組み構造推定方法を示すフロー図である。It is a flow chart which shows the table structure estimation method of this embodiment. 本実施形態における表組み例(新旧比較表)を示す説明図である。It is explanatory drawing which shows the table composition example (old and new comparison table) in this embodiment. 本実施形態における表組み例(コード一覧表)を示す説明図である。It is explanatory drawing which shows the table composition example (code list) in this embodiment. 本実施形態の表形式知識テーブルの構成例を示す図である。It is a figure which shows the structural example of the tabular knowledge table of this embodiment. 本実施形態における項目値知識テーブルの構成例1を示す図である。It is a figure which shows the structure example 1 of the item value knowledge table in this embodiment. 本実施形態における項目値知識テーブルの構成例2を示す図である。It is a figure which shows the structure example 2 of the item value knowledge table in this embodiment. 本実施形態における項目値知識テーブルの構成例3を示す図である。It is a figure which shows the structural example 3 of the item value knowledge table in this embodiment. 本実施形態における項目値知識テーブルの構成例を示す図である。It is a figure which shows the structural example of the item value knowledge table in this embodiment. 本実施形態における表構造設定テーブルの構成例を示す図である。It is a figure which shows the structural example of the table structure setting table in this embodiment.

−−−システム構成−−−
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態の表組み構造推定システム10のハードウェア構成例を示す図である。また、図2は、本実施形態の表組み構造推定システムにおける機能ブロック例を示す図である。
--- System configuration ---
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a diagram showing a hardware configuration example of the table structure estimation system 10 of the present embodiment. Further, FIG. 2 is a diagram showing an example of functional blocks in the table structure estimation system of the present embodiment.

図1に示す表組み構造推定システム10は、表組みの内容を、AIによる類似文検索における処理対象として好適な形式に効率的に変換可能とするコンピュータシステムである。
こうした表組み構造推定システム10は、記憶装置11、メモリ13、演算装置14、入力装置15、出力装置16、および通信装置17を備える。
このうち記憶装置11は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される装置である。
また、メモリ13は、RAMなど揮発性記憶素子で構成される装置である。
The table structure estimation system 10 shown in FIG. 1 is a computer system capable of efficiently converting the contents of the table into a format suitable as a processing target in a similar sentence search by AI.
Such a table structure estimation system 10 includes a storage device 11, a memory 13, an arithmetic device 14, an input device 15, an output device 16, and a communication device 17.
Of these, the storage device 11 is a device composed of an appropriate non-volatile storage element such as an SSD (Solid State Drive) or a hard disk drive.
Further, the memory 13 is a device composed of a volatile storage element such as a RAM.

また、演算装置14は、記憶装置101に保持されるプログラム12をメモリ13に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUである。
また、入力装置15は、ユーザからのキー入力や音声入力を受け付けるキーボードやマウス、マイクである。
また、出力装置16は、処理データの表示を行うディスプレイ、スピーカー等の装置である。
Further, the arithmetic unit 14 is a CPU that executes the program 12 held in the storage device 101 by reading it into the memory 13 to perform overall control of the apparatus itself, and also performs various determinations, arithmetic operations, and control processes.
Further, the input device 15 is a keyboard, mouse, and microphone that accept key input and voice input from the user.
Further, the output device 16 is a device such as a display or a speaker that displays processed data.

また、通信装置17は、所定のネットワークと接続し他装置との通信処理を担うネットワークインターフェイスカード等である。ただし、この通信装置17は、表組み構造推定システム10がスタンドアロンマシンとして稼働するものである場合、必須の構成ではない。 Further, the communication device 17 is a network interface card or the like that connects to a predetermined network and is responsible for communication processing with other devices. However, this communication device 17 is not an indispensable configuration when the table structure estimation system 10 operates as a stand-alone machine.

なお、記憶装置11内には、図2のブロック図にも示すように、本実施形態の表組み構造推定システム10として必要な機能すなわち表形式推定部101、表構造推定部102、および文生成部103を実装する為のプログラム12が保持されている。これら機能については後述する。 In the storage device 11, as shown in the block diagram of FIG. 2, the functions required for the table structure estimation system 10 of the present embodiment, that is, the table format estimation unit 101, the table structure estimation unit 102, and the sentence generation A program 12 for mounting the unit 103 is held. These functions will be described later.

また、記憶装置11には、上述のプログラム12に加えて、表形式知識リポジトリ104、項目知識リポジトリ105、および項目値知識リポジトリ106が少なくとも記憶されている。 Further, in addition to the above-mentioned program 12, the storage device 11 stores at least a tabular knowledge repository 104, an item knowledge repository 105, and an item value knowledge repository 106.

詳細は後述するが、表形式知識リポジトリ104には表形式知識テーブル1041が含まれる。また、項目知識リポジトリ105には項目知識テーブル1051が含まれる。また、項目値知識リポジトリ106には項目値知識テーブル1061が含まれる。 Although details will be described later, the tabular knowledge repository 104 includes a tabular knowledge table 1041. The item knowledge repository 105 also includes an item knowledge table 1051. In addition, the item value knowledge repository 106 includes the item value knowledge table 1061.

−−−表組み構造推定フロー−−−
以下、本実施形態における表組み構造推定方法の実際手順について図に基づき説明する。以下で説明する表組み構造推定方法に対応する各種動作は、表組み構造推定システム10がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
--- Table structure estimation flow ---
Hereinafter, the actual procedure of the table structure estimation method in the present embodiment will be described with reference to the drawings. Various operations corresponding to the table structure estimation method described below are realized by a program read by the table structure estimation system 10 into a memory or the like and executed. The program is composed of code for performing various operations described below.

図3は、本実施形態における表組み構造推定方法のフロー例を示す図である。この場合、表形式推定部101は、入力装置15でユーザから受け付けた表組みファイルに関して、表組み直上に表名の値が存在するか判定する(ステップ200)。 FIG. 3 is a diagram showing a flow example of the table structure estimation method in the present embodiment. In this case, the tabular format estimation unit 101 determines whether or not the value of the table name exists immediately above the tabular structure with respect to the tabular structure file received from the user by the input device 15 (step 200).

表組みファイルが例えばスプレッドシートであれば、表組みに対応するマトリクスの直上セルに値が設定されている場合、当該値の存在を表名と判定することになる。 If the spreadsheet file is, for example, a spreadsheet, and a value is set in the cell directly above the matrix corresponding to the spreadsheet, the existence of the value is determined as the table name.

上述の判定の結果、表組みに表名が存在している場合(ステップ200:Yes)、表形式推定部101は、その表名の値を、表形式知識テーブル1041(図6参照)の表形式名501の各値(例:コード一覧、商品一覧、機能比較、性能比較、変更履歴、PCL、CRUD)と照合し、その一致度が予め定めた所定の閾値以上の表形式名を、当該表組みの表形式と推定する(ステップ201)。 As a result of the above determination, when a table name exists in the table structure (step 200: Yes), the table format estimation unit 101 sets the value of the table name to the table of the table format knowledge table 1041 (see FIG. 6). A table format name whose matching degree is equal to or higher than a predetermined threshold value is collated with each value of the model name 501 (example: code list, product list, function comparison, performance comparison, change history, PCL, CRUD). It is presumed to be a tabular format (step 201).

なお、上述の表形式知識テーブル1041は、表の形式の定義を集めた情報であり、例
えば、設計書では、データベースレコードの羅列のような一覧表や、項目間の対比を表す比較表や、文書の来歴を示す変更履歴表や、プログラムチェックリスト(PCL:Program Check List)やCRUD表(Create,Read,Update,Delete表)を実現するような条件表が挙げられる。
The above-mentioned tabular knowledge table 1041 is information that collects the definitions of the table format. For example, in the design document, a list such as a list of database records, a comparison table showing comparisons between items, and a comparison table are used. Examples include a change history table showing the history of a document, and a condition table for realizing a program checklist (PCL: Program Check List) and a CRUD table (Create, Read, Update, Delete table).

これらの表形式知識テーブル1041は、業務の特性によって異なるものであり、業務遂行に従って蓄積されるもの、あるいは、業務に携わる人物によって予め用意されるデータベースやリポジトリでもよい。 These tabular knowledge tables 1041 differ depending on the characteristics of the business, and may be accumulated according to the business execution, or may be a database or repository prepared in advance by a person involved in the business.

なお、表形式推定部101は、受け付けた表組みが示す属性値(業務を示す値であって、例えば、“金融”、“ヘルスケア”、“電力”、といった値が表組み中に含まれるもの想定できる)に基づき、業種ごとの表形式知識テーブル1041を選択的に利用するものとすれば好適である。 In addition, the table format estimation unit 101 includes attribute values (values indicating business, such as “finance”, “healthcare”, and “electric power”, which are indicated by the received table structure, in the table structure. It is preferable to selectively use the tabular knowledge table 1041 for each industry based on (which can be assumed).

一方、上述の判定の結果、表組みに表名が存在しない場合(ステップ200:No)、表形式推定部101は、表組みにおける項目を、表形式知識テーブル1041の項目名群502(又は項目値知識テーブル1061の項目名601)の各値と照合し、一致度が項目名一致度504で定めた閾値を超える表形式名を、当該表組みの表形式名と推定する(ステップ202)。 On the other hand, as a result of the above determination, when the table name does not exist in the table structure (step 200: No), the table format estimation unit 101 sets the item in the table structure to the item name group 502 (or item) of the table format knowledge table 1041. By collating with each value of the item name 601) in the value knowledge table 1061, a tabular name whose matching degree exceeds the threshold value defined by the item name matching degree 504 is estimated as the tabular name of the table structure (step 202).

なお、上述の表組みの項目名は、列名として表頭に存在する場合と、行名として表側に存在する場合の二通りがある。よって上述のステップ202での推定に際しても、その二通りの試行を行えば十分である。どちらかで一致をすれば、表組みの伸長方向もそのまま推定でき、項目名が表頭にあるか表側にあるか固定することができる(表形式知識テーブル1041の項目名位置503に対応)。また、表頭でも表側でも、階層化されていた場合は、階層化の構造をそのまま正規化して展開することで組み合わせの一致度を測ることができる。 There are two types of item names in the above-mentioned table structure, one is a column name at the top of the table and the other is a row name on the front side. Therefore, it is sufficient to carry out the two trials in the estimation in step 202 described above. If there is a match in either of them, the expansion direction of the table structure can be estimated as it is, and it is possible to fix whether the item name is on the front side or the front side (corresponding to the item name position 503 of the explicit knowledge table 1041). In addition, when the layers are layered on both the front side and the front side, the degree of matching of the combinations can be measured by normalizing and expanding the layered structure as it is.

また、上述の表組みに関する表形式の分類処理は、上述のステップ200〜202による推定に限定されず、外部情報やユーザ指定により特定されるとしてもよい。 Further, the tabular classification process related to the above-mentioned table structure is not limited to the estimation according to the above-mentioned steps 200 to 202, and may be specified by external information or user designation.

続いて、表構造推定部102は、上述のように表形式が推定された表組みについて、日本語文を構成すべく、表構造の推定処理を行う(ステップ203〜ステップ206)。 Subsequently, the table structure estimation unit 102 performs table structure estimation processing in order to compose a Japanese sentence for the table structure whose tabular form is estimated as described above (steps 203 to 206).

この場合、表構造推定部102は、上述の表組みが含む各項目を、項目知識テーブル1051の各項目名601に照合し、条件節のなりやすさ602が「○」のものを、固定的な日本語文における条件節、に該当しうる項目として推定する(ステップ203)。 In this case, the table structure estimation unit 102 collates each item included in the above-mentioned table structure with each item name 601 of the item knowledge table 1051, and fixes the item whose conditional clause susceptibility 602 is "○". It is estimated as an item that can correspond to the conditional clause in a Japanese sentence (step 203).

上述の項目知識テーブル1051は、それぞれの表形式において扱う業務として項目となり得る値の定義を集合した情報である。例えば、図7Aに例示する「コード一覧」に関する項目知識テーブル1051では、「コード」、「コード名」、「処理機能名」、および「格納テーブル」といった項目名が定義されている(項目名601)。 The item knowledge table 1051 described above is information that collects definitions of values that can be items as a business handled in each table format. For example, in the item knowledge table 1051 related to the "code list" illustrated in FIG. 7A, item names such as "code", "code name", "processing function name", and "storage table" are defined (item name 601). ).

なお、図7Aの表形式「コード一覧」に関する項目知識テーブル1051では、「コード名」、「処理機能名」、および「格納テーブル名」の各値が条件節になりやすい旨が、規定されている(条件節なりやすさ602)。そこで表構造推定部102は、この条件節なりやすさ602の値を項目知識テーブル1051から取得し、表組みと照合することにより、表組みの項目のうち例えば「コード名」を条件節として推定することとなる。 In the item knowledge table 1051 related to the tabular form "code list" of FIG. 7A, it is stipulated that each value of "code name", "processing function name", and "storage table name" tends to be a conditional clause. Yes (easiness to become a conditional clause 602). Therefore, the table structure estimation unit 102 acquires the value of the conditional clause susceptibility 602 from the item knowledge table 1051 and collates it with the table structure to estimate, for example, "code name" among the items in the table structure as the conditional clause. Will be done.

その他、図7Bの表形式「性能比較」に関する項目知識テーブル1051では、条件節
なりやすさ612にて示すように、各項目名すべてが条件節になりやすいとして規定されている。
In addition, in the item knowledge table 1051 relating to the tabular form "performance comparison" of FIG. 7B, as shown in the conditional clause easiness 612, it is defined that all the item names are likely to be conditional clauses.

また、図7Cの表形式「変更履歴」に関する項目知識テーブル1051では、条件節なりやすさ622にて示すように、「変更番号」以外の各項目名が条件節になりやすいとして規定されている。 Further, in the item knowledge table 1051 regarding the tabular form "change history" of FIG. 7C, as shown in the conditional clause easiness 622, it is defined that each item name other than the "change number" is likely to be a conditional clause. ..

なお、条件節になりやすい項目名が複数ある場合、予め項目知識内テーブル1051の各項目名に条件節になりやすさの順位を規定しておくものとする。その場合、表構造推定部102は、その順位情報が示す順位の高いものから順に、条件節になる項目を選択することができる。 If there are a plurality of item names that are likely to be conditional clauses, the order of ease of being conditional clauses shall be defined in advance in each item name in the item knowledge table 1051. In that case, the table structure estimation unit 102 can select the items to be the conditional clauses in order from the one with the highest rank indicated by the rank information.

上述のステップ203において、項目知識テーブル1051の情報からでは条件節の項目を推定することができなかった場合(ステップ2031:No)、表構造推定部102は、項目値知識テーブル1061の情報から条件節の項目を推定する(ステップ204)。 In step 203 described above, when the item of the condition section cannot be estimated from the information of the item knowledge table 1051 (step 2031: No), the table structure estimation unit 102 determines the condition from the information of the item value knowledge table 1061. Estimate the items in the section (step 204).

例えば、図8の項目値知識テーブル1061の分類(項目名)701に示すように、一般的には「コード名」と記される項目が、表組み710では「ID名」(711)と記されているケースが存在する。 For example, as shown in the classification (item name) 701 of the item value knowledge table 1061 in FIG. 8, the item generally described as "code name" is described as "ID name" (711) in the table 710. There are cases where it has been done.

その場合、項目知識テーブル1051に基づく推定では、項目名の一致がみられないため、条件節の項目を推定できない可能性が高い。そこで、この場合の表構造推定部102は、表組み710の項目ごとの項目値(インスタンス)712〜714を読み込み、これを項目値知識テーブル1061の項目値702の各値と照合し、一致度が所定閾値(項目値一致度703)を超える場合、当該分類(項目名)701が示す「コード名」が、当該表組み710における「ID名」に対応していると判定できる。 In that case, since the item names do not match in the estimation based on the item knowledge table 1051, there is a high possibility that the items in the conditional clause cannot be estimated. Therefore, the table structure estimation unit 102 in this case reads the item values (instances) 712 to 714 for each item in the table structure 710, collates this with each value of the item value 702 in the item value knowledge table 1061, and matches. When exceeds a predetermined threshold value (item value matching degree 703), it can be determined that the "code name" indicated by the classification (item name) 701 corresponds to the "ID name" in the table structure 710.

そして表構造推定部102は、そうして判定した「コード名」に関して条件節なりやすさが規定されている項目知識テーブル1051を参照し、条件節なりやすさ602の値が「○」であれば当該項目を条件節として推定するのである。 Then, the table structure estimation unit 102 refers to the item knowledge table 1051 in which the conditional clause easiness is defined with respect to the "code name" determined in this way, and the value of the conditional clause easiness 602 is "○". For example, the item is estimated as a conditional clause.

上述のように、表組み710の「ID名」項目には「顧客コード」(712)や「商品コード」(713)などの値が記載されている。よって、項目値知識テーブル1061における「コード名」分類(項目名)に蓄積されていれば、表組み710の項目「ID名」は、「コード名」として捉えることができると推定するのである。
この項目値知識テーブル1061も、表形式知識テーブル1041や項目知識テーブル1051と同様に、予め用意されていても良い。
また、一致度の計算は、一定数による項目知識を利用した表形式推定での計算と同様で良い。
As described above, values such as "customer code" (712) and "product code" (713) are described in the "ID name" item of the table 710. Therefore, if it is accumulated in the "code name" classification (item name) in the item value knowledge table 1061, it is estimated that the item "ID name" in the table 710 can be regarded as the "code name".
The item value knowledge table 1061 may be prepared in advance in the same manner as the tabular knowledge table 1041 and the item knowledge table 1051.
In addition, the calculation of the degree of agreement may be the same as the calculation in the tabular estimation using the item knowledge of a certain number.

自然な日本語文を構成するためには、さらに主語と述語を設定する必要がある。そこで表構造推定部102は、主語についても上述の条件節と同様に、項目知識テーブル1051に基づき推定する(ステップ205)。 In order to compose a natural Japanese sentence, it is necessary to further set the subject and predicate. Therefore, the table structure estimation unit 102 estimates the subject based on the item knowledge table 1051 as in the above-mentioned conditional clause (step 205).

ここでの処理そのものは、条件節を設定した処理(ステップ203)と同様であり、表組みに関して条件節に設定した項目以外の項目を、項目知識テーブル1051の主語なりやすさ603の各値に順次照合し、なりやすさが「○」のものを主語として特定する。 The processing itself here is the same as the processing in which the conditional clause is set (step 203), and the items other than the items set in the conditional clause regarding the table structure are set to each value of the subject easiness 603 of the item knowledge table 1051. Collate sequentially and identify the one whose susceptibility is "○" as the subject.

例えば、「コード一覧」に関する項目知識テーブル1051では、「コード名」、「処
理機能名」、および「格納テーブル名」が主語になりやすいと設定されいる。そのため表構造推定部102は、これら主語になりやすい項目を項目知識テーブル1051から特定し、表組みにおける該当項目を主語と推定する。
For example, in the item knowledge table 1051 relating to the "code list", it is set that the "code name", the "processing function name", and the "storage table name" are likely to be the subjects. Therefore, the table structure estimation unit 102 identifies these items that are likely to be the subject from the item knowledge table 1051, and estimates the corresponding items in the table as the subject.

なお、上述のステップ205において、項目知識テーブル1051の情報からでは主語の項目を推定することができなかった場合(ステップ206:No)、表構造推定部102は、項目値知識テーブル1061の情報から主語の項目を推定する(ステップ207)。 In step 205 described above, when the subject item cannot be estimated from the information in the item knowledge table 1051 (step 206: No), the table structure estimation unit 102 uses the information in the item value knowledge table 1061. Estimate the subject item (step 207).

この場合、ステップ204と同様の処理によって、表組み710における項目を項目値知識テーブル1061における分類(項目名)に読み替え、当該項目をもって項目知識テーブル1051の主語のなりやすさ603の値が「○」である場合、当該項目を主語として推定するのである。 In this case, by the same processing as in step 204, the item in the table structure 710 is read as the classification (item name) in the item value knowledge table 1061, and the value of the subject susceptibility 603 of the item knowledge table 1051 is "○" with the item. In the case of ", the item is estimated as the subject.

なお、項目値知識テーブル1061において、項目値が主語になり得るかどうかの情報を付加した構成とすれば、この項目値の情報を利用して、注目した行の項目値が、文脈として主語となり得るかどうか直接判断することもできる。 If the item value knowledge table 1061 is configured to add information on whether or not the item value can be the subject, the item value of the row of interest becomes the subject as the subject by using the information of the item value. You can also directly decide whether to get it.

例えば、項番を表す「1」という項目値は、日本語文の主語にはなりにくいので、項目値知識テーブル1061において主語へのなりやすさを低く設定することができ、日本語文への誤変換を減少することができる。 For example, since the item value "1" representing the item number is unlikely to be the subject of a Japanese sentence, the ease of becoming the subject can be set low in the item value knowledge table 1061 and erroneous conversion to a Japanese sentence can be made. Can be reduced.

続いて、表構造推定部102は、上述の条件節や主語と同様に、述語についても項目を推定する(ステップ208)。処理内容が同様であるため説明は省略する。 Subsequently, the table structure estimation unit 102 estimates items for the predicate as well as the above-mentioned conditional clause and subject (step 208). Since the processing contents are the same, the description will be omitted.

なお、述語については、主語に設定した項目の注目した行もしくは列の項目値(インスタンス値)をそのまま採用するとしてもよい。ただし、主語設定と同様に、項目値知識テーブル1061において、その項目値が述語になり得るかどうかの情報を付加すれば、この項目値の情報を利用して、注目した行の項目値が、文脈として述語となり得るかどうかを直接判断することもできる。
以上で示した表構造推定部102の処理では、最終的に図9に示す表構造設定テーブル801で示す内容の情報をメモリ13などに保持する。
上述のように、条件節、主語、および述語といった文成分の推定が終了すると、文生成部103は、ステップ209〜212を実行する。
As for the predicate, the item value (instance value) of the row or column of interest of the item set as the subject may be adopted as it is. However, as in the case of subject setting, if information on whether or not the item value can be a predicate is added to the item value knowledge table 1061, the item value of the line of interest can be changed by using the information of this item value. It is also possible to directly judge whether it can be a predicate as a context.
In the process of the table structure estimation unit 102 shown above, the information of the contents shown in the table structure setting table 801 shown in FIG. 9 is finally stored in the memory 13 or the like.
As described above, when the estimation of sentence components such as conditional clauses, subjects, and predicates is completed, the sentence generation unit 103 executes steps 209 to 212.

すなわち、前述までのステップで上述の文成分として推定して項目は、それぞれに単語を指し示すための枠組みとしての存在であり、そのまま配列しても、図4の表組み300に関して示した例文302のように、意味のない羅列と同様の結果となる。 That is, the items estimated as the above-mentioned sentence components in the steps up to the above exist as a framework for pointing to each word, and even if they are arranged as they are, the example sentence 302 shown with respect to the table 300 in FIG. As such, the result is similar to a meaningless array.

そこで文生成部103は、それぞれの文成文としての項目に、表組みにおける該当項目の値すなわち具体的な語句を割り当てるとともに、日本語文として不足している助詞などを付加する処理を行うものとする。 Therefore, the sentence generation unit 103 assigns the value of the corresponding item in the table structure, that is, a specific phrase, to each item as a sentence composition sentence, and performs a process of adding particles and the like that are lacking as a Japanese sentence. ..

文生成部103は、まず主語に対応する項目に関し、ステップ205〜207で主語と設定した項目の項目名(802)に助詞「は」を付加することにとって生成する(ステップ209)。例えば、「処理機能名」項目を主語に設定した場合、主語は「処理機能名は」となる。 The sentence generation unit 103 first generates the item corresponding to the subject by adding the particle "ha" to the item name (802) of the item set as the subject in steps 205 to 207 (step 209). For example, when the "processing function name" item is set as the subject, the subject is "processing function name is".

一方、条件節と述語の生成には、項目名だけでなく、注目した行もしくは列の項目値(インスタンス値)を必要とする。例えば、具体的な表組みを示す図5の表組み400では
、表コンテンツの最初の行(401)を注目する行に指定することができる。注目行や注目列の指定は、表形式の推測ステップで推測した表組みの伸長方向に順次該当させていっても良い。
On the other hand, in order to generate a conditional clause and a predicate, not only the item name but also the item value (instance value) of the row or column of interest is required. For example, in the table structure 400 of FIG. 5 showing a specific table structure, the first row (401) of the table contents can be designated as the row of interest. The row of interest and the column of interest may be sequentially applied to the expansion direction of the table structure estimated in the tabular estimation step.

表組み400の最初の行(401)を注目する行に指定した場合、文生成部103は、具体的な条件節の内容として、ステップ203で条件節に設定した項目の項目名(803)に助詞「が」を付加する。 When the first line (401) of the table 400 is specified as the line of interest, the sentence generation unit 103 sets the item name (803) of the item set in the condition clause in step 203 as the content of the specific condition clause. Add the particle "ga".

さらに、文生成部103は、その項目の注目する行の項目値(インスタンス)である「顧客コード(804)」を連結したのち、条件語の「場合」と読点「、」を付加して完成する(ステップ210)。すなわち、この具体例での完成形は「コード名が顧客コードの場合、」となる。 Further, the sentence generation unit 103 completes by concatenating the item value (instance) of the line of interest of the item, "customer code (804)", and then adding the conditional word "case" and the comma ",". (Step 210). That is, the completed form in this specific example is "when the code name is a customer code".

また、文生成部103は、具体的な述語の内容として、ステップ205〜207で主語に設定した項目での注目する行の項目値(インスタンス)を設定する(ステップ211)。 Further, the sentence generation unit 103 sets the item value (instance) of the line of interest in the item set as the subject in steps 205 to 207 as the content of the specific predicate (step 211).

すなわち具体的には、「処理機能名」項目の注目する行の項目値(インスタンス)である「顧客コード更新処理(805)」を設定する。さらに、日本語文とするために、述語としての動詞形を形成する助動詞「である」と句点「。」を付加して完成する(ステップ211)。この具体例での完成形は、「顧客コード更新処理である。」となる。 That is, specifically, the "customer code update process (805)", which is the item value (instance) of the line of interest in the "processing function name" item, is set. Further, in order to make a Japanese sentence, the auxiliary verb "is" and the punctuation mark "." That form the verb form as a predicate are added to complete the sentence (step 211). The completed form in this specific example is "customer code update process."

このようにして、文生成部103は、それぞれの日本語文としての部位を完成させたのち、それらを連結する処理を経て、日本語文を合成し(ステップ212)、処理を終了する。すなわち、この具体例では、「コード名が顧客コードの場合、処理機能名は顧客コード更新処理である。」となる(410)。 In this way, the sentence generation unit 103 completes each part as a Japanese sentence, then synthesizes the Japanese sentence through a process of connecting them (step 212), and ends the process. That is, in this specific example, "when the code name is a customer code, the processing function name is the customer code update process" (410).

具体的な注目行を402に移動させた場合にも、同様の手順をとり、最終的な日本語文は、「コード名が商品コードの場合、処理機能名は商品発送処理である。」となる。 When the specific line of interest is moved to 402, the same procedure is taken, and the final Japanese sentence is "If the code name is a product code, the processing function name is product shipping processing." ..

各部位に追加する語は、主語や条件節などの意味を伴っていれば、前記に示した語に限らず追加可能である。例えば、条件節の生成で付加した「場合」という語句は、同じ条件節を表しうる語句「とき」でも構わない。 The word to be added to each part is not limited to the word shown above as long as it has a meaning such as a subject or a conditional clause. For example, the phrase "case" added in the generation of the conditional clause may be the phrase "time" that can represent the same conditional clause.

なお、ここまでの説明では、一例として設計書のコード体系に分類できる業務知識を応用することを例にして説明したが、別の体系に分類できる業務知識でも同様に応用することができる。 In the explanation so far, the business knowledge that can be classified into the code system of the design document is applied as an example, but the business knowledge that can be classified into another system can be similarly applied.

例えば、同様の設計書であったとしても、変更履歴表に分類できる表組みが入力された場合、ステップ201と同様に、あらかじめ用意した設計書の変更履歴表にかかわる業務知識リポジトリの情報との一致度が高くなるため、表形式として変更履歴表に推定し、変更履歴表にかかわる項目知識の情報と項目値(インスタンス)知識の情報から、ステップ202からステップ209までと同様に表の構造を推定し、日本語文に再構成することができる。 For example, even if the design document is the same, when a table structure that can be classified into the change history table is input, the information of the business knowledge repository related to the change history table of the design document prepared in advance is used as in step 201. Since the degree of matching is high, it is estimated in the change history table as a tabular format, and the table structure is determined from the item knowledge information and item value (instance) knowledge information related to the change history table in the same manner as in steps 202 to 209. It can be estimated and reconstructed into a Japanese sentence.

変更履歴表にかかわる表形式業務知識は、例えば、「変更履歴表」という表名であり、項目知識は、例えば、「変更者」や「変更日」や「変更内容」という項目名であり、項目の値の知識は、例えば、「鈴木」、「佐藤」(場合によっては職位や職員番号)や「2018/12/24」という項目値である。 The tabular business knowledge related to the change history table is, for example, a table name of "change history table", and the item knowledge is, for example, an item name of "changer", "change date", or "change content". Knowledge of item values is, for example, item values such as "Suzuki", "Sato" (in some cases, position and staff number) and "2018/12/24".

インスタンスの指定が列単位になる場合、すなわち、表形式の推定で、表組みの伸長方向が横方向であると推定した場合には、上記で項目名と記した表の構成物が表頭ではなく表側に存在し、インスタンスを指定する処理も注目するのは行ではなく、列になる。処理ステップそのものは、行と列を読み替えるのみである。 When the instance is specified in column units, that is, when it is estimated that the extension direction of the table structure is the horizontal direction by tabular estimation, the composition of the table described as the item name above is at the top of the table. It is not the row but the column that is on the front side and pays attention to the process of specifying the instance. The processing step itself simply replaces the rows and columns.

このように日本語文に再構成した元の表組みのデータは、人が設定する類似誤検索の検索文に似ている形態となり、AIによる類似文検索を行う場合でも、人の意図する類似した文をより容易に選択することが可能になる。 The original table data reconstructed into Japanese sentences in this way has a form similar to the search sentence of the similar error search set by the person, and even when the similar sentence search by AI is performed, it is similar to the person's intention. It makes it easier to select sentences.

以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。 Although the best mode for carrying out the present invention has been specifically described above, the present invention is not limited to this, and various modifications can be made without departing from the gist thereof.

こうした本実施形態によれば、表組みを含んだ文書においても、その表組みの形式と構造を推定し、自然な文に再構成することが可能となる。このことで、表組みが示す内容を、人が設定する検索文に沿った自然な文章に変換でき、人による検索性の容易化を図ることができる。
すなわち、表組みの内容を、AIによる類似文検索における処理対象として好適な形式に効率的に変換可能となる。
According to the present embodiment, even in a document including a table structure, the format and structure of the table structure can be estimated and reconstructed into a natural sentence. As a result, the content indicated by the table can be converted into a natural sentence according to the search sentence set by the person, and the searchability by the person can be facilitated.
That is, the contents of the table can be efficiently converted into a format suitable as a processing target in the similar sentence search by AI.

本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の表組み構造推定システムにおいて、前記記憶装置は、各表形式を当該表形式が含む項目ごとに分類した表形式知識を更に保持し、前記演算装置は、処理対象の表組みが含む項目を前記表形式知識に照合し、当該表組みの表形式を推定する表形式推定処理を更に実行し、前記推定した表形式の表組みとして、前記表構造推定処理および前記文生成処理を実行するものである、としてもよい。 The description herein reveals at least the following: That is, in the table structure estimation system of the present embodiment, the storage device further holds the table format knowledge in which each table format is classified according to the items included in the table format, and the arithmetic unit further holds the table format knowledge to be processed. The items included in are collated with the tabular knowledge, the tabular estimation process for estimating the tabular form of the tabular form is further executed, and the tabular structure estimation process and the sentence generation process are performed as the tabular form of the estimated tabular form. It may be the one that executes.

これによれば、形式不明な表組みについて効率良く表形式を推定することが可能となる。ひいては、表組みの内容を、AIによる類似文検索における処理対象として好適な形式により効率的に変換可能となる。 According to this, it is possible to efficiently estimate the table format for a table structure of unknown format. As a result, the contents of the table structure can be efficiently converted in a format suitable as a processing target in the similar sentence search by AI.

また、本実施形態の表組み構造推定システムにおいて、前記記憶装置は、前記表形式知識を、業務別に保持しており、前記演算装置は、前記表形式推定処理に際し、前記表組みが示す対象業務に対応する表形式知識を利用し、当該表組みの表形式を推定するものである、としてもよい。 Further, in the table structure estimation system of the present embodiment, the storage device holds the table explicit knowledge for each business, and the arithmetic unit performs the target business indicated by the table structure in the table format estimation process. It may be assumed that the tabular form of the table is estimated by using the tabular form knowledge corresponding to.

これによれば、広範な業務についての表組みを処理対象とする場合でも、その表形式を効率良く推定可能となる。ひいては、表組みの内容を、AIによる類似文検索における処理対象として好適な形式により効率的に変換可能となる。 According to this, even when a table structure for a wide range of business is to be processed, the table format can be estimated efficiently. As a result, the contents of the table structure can be efficiently converted in a format suitable as a processing target in the similar sentence search by AI.

また、本実施形態の表組み構造推定システムにおいて、前記演算装置は、前記表構造推定処理に際し、前記項目のうち、文成分の主語、条件節、および述語のいずれかになりうるものを前記親和性の程度に基づき特定し、前記文生成処理に際し、前記主語、前記条件節、および前記述語のそれぞれに関して特定された各項目を主語、条件節、述語の順に配列し、前記配列した項目それぞれについて、前記項目値知識で規定されている値を設定し、文を生成するものである、としてもよい。 Further, in the table structure estimation system of the present embodiment, the arithmetic unit performs the table structure estimation process by selecting one of the items that can be any of the subject, the conditional clause, and the predicate of the sentence component. Specified based on the degree of sex, and in the sentence generation process, each item specified for each of the subject, the conditional clause, and the predicate is arranged in the order of the subject, the conditional clause, and the predicate, and each of the arranged items It may be said that the value specified in the item value knowledge is set and a sentence is generated.

これによれば、日本語文として意味の通る形態での文生成を効率良く行うことが可能となる。ひいては、表組みの内容を、AIによる類似文検索における処理対象として好適な形式により効率的に変換可能となる。 According to this, it becomes possible to efficiently generate a sentence in a form that makes sense as a Japanese sentence. As a result, the contents of the table structure can be efficiently converted in a format suitable as a processing target in the similar sentence search by AI.

また、本実施形態の表組み構造推定システムにおいて、前記演算装置は、前記表構造推定処理に際し、前記項目を前記項目知識に照合することでは文成分となりうるものを特定できない場合、前記表組みにおける当該項目の値を前記項目値知識に照合し、前記項目値知識において当該値と紐付く項目を特定し、当該項目を前記項目値に照合して前記文成分となりうるものを特定するものである、としてもよい。 Further, in the table structure estimation system of the present embodiment, when the arithmetic unit cannot identify a potential sentence component by collating the item with the item knowledge in the table structure estimation process, the table structure estimates. The value of the item is collated with the item value knowledge, the item associated with the value is specified in the item value knowledge, and the item is collated with the item value to specify what can be the sentence component. , May be.

これによれば、表組みに含まれる項目が項目知識で規定されたものと異なるものであっても、当該項目と同義とみなされているものを項目知識ら特定し、以後の処理を円滑に進めることが可能となる。ひいては、表組みの内容を、AIによる類似文検索における処理対象として好適な形式により効率的に変換可能となる。 According to this, even if the items included in the table are different from those specified in the item knowledge, the items that are considered to be synonymous with the item are identified from the item knowledge, and the subsequent processing is smoothed. It will be possible to proceed. As a result, the contents of the table structure can be efficiently converted in a format suitable as a processing target in the similar sentence search by AI.

また、本実施形態の表組み構造推定方法において、前記情報処理システムが、前記記憶装置において、各表形式を当該表形式が含む項目ごとに分類した表形式知識を更に保持し、処理対象の表組みが含む項目を前記表形式知識に照合し、当該表組みの表形式を推定する表形式推定処理を更に実行し、前記推定した表形式の表組みとして、前記表構造推定処理および前記文生成処理を実行する、としてもよい。 Further, in the table structure estimation method of the present embodiment, the information processing system further holds the table format knowledge in which each table format is classified according to the items included in the table format in the storage device, and the table to be processed. The items included in the set are collated with the tabular knowledge, the tabular estimation process for estimating the tabular form of the tabular form is further executed, and the tabular structure estimation process and the sentence generation are performed as the table form of the estimated tabular form. The process may be executed.

また、本実施形態の表組み構造推定方法において、前記情報処理システムが、前記記憶装置において、前記表形式知識を、業務別に保持し、前記表形式推定処理に際し、前記表組みが示す対象業務に対応する表形式知識を利用し、当該表組みの表形式を推定する、としてもよい。 Further, in the table structure estimation method of the present embodiment, the information processing system retains the table explicit knowledge for each business in the storage device, and when the table format estimation process is performed, the target business indicated by the table structure is used. The table format of the table structure may be estimated by using the corresponding table format knowledge.

また、本実施形態の表組み構造推定方法において、前記情報処理システムが、前記表構造推定処理に際し、前記項目のうち、文成分の主語、条件節、および述語のいずれかになりうるものを前記親和性の程度に基づき特定し、前記文生成処理に際し、前記主語、前記条件節、および前記述語のそれぞれに関して特定された各項目を主語、条件節、述語の順に配列し、前記配列した項目それぞれについて、前記項目値知識で規定されている値を設定し、文を生成する、としてもよい。 Further, in the table structure estimation method of the present embodiment, the information processing system may be one of the subject, the conditional clause, and the predicate of the sentence component among the items in the table structure estimation process. Specified based on the degree of affinity, and in the sentence generation process, each item specified for each of the subject, the conditional clause, and the predicate is arranged in the order of the subject, the conditional clause, and the predicate, and the arranged items are arranged. For each, the value specified in the item value knowledge may be set to generate a sentence.

また、本実施形態の表組み構造推定方法において、前記情報処理システムが、前記表構造推定処理に際し、前記項目を前記項目知識に照合することでは文成分となりうるものを特定できない場合、前記表組みにおける当該項目の値を前記項目値知識に照合し、前記項目値知識において当該値と紐付く項目を特定し、当該項目を前記項目値に照合して前記文成分となりうるものを特定する、としてもよい。 Further, in the table structure estimation method of the present embodiment, when the information processing system cannot identify a potential sentence component by collating the item with the item knowledge in the table structure estimation process, the table structure is described. The value of the item is collated with the item value knowledge, the item associated with the value is specified in the item value knowledge, and the item is collated with the item value to specify what can be the sentence component. May be good.

10 表組み構造推定システム
11 記憶装置
12 プログラム
13 メモリ
14 演算装置
15 入力装置
16 出力装置
17 通信装置
101 表形式推定部
102 表構造推定部
103 文生成部
104 表形式知識リポジトリ
1041 表形式知識テーブル
105 項目知識リポジトリ
1051 項目知識テーブル
106 項目値知識リポジトリ
1061 項目値知識テーブル
300 表組み例
301 表組み例での罫線
302 表組み例での単純変換文
400 設計書のコード一覧表
401 コード一覧表の最初の注目行
402 コード一覧表の2番目の注目行
501 表形式知識リポジトリの記載内容例(表形式名)
502 表形式知識リポジトリの記載内容例(項目名群)
503 表形式知識リポジトリの記載内容例(項目名位置)
504 表形式知識リポジトリの記載内容例(項目名一致度)
601 項目知識リポジトリの記載内容例(項目名)
602 項目知識リポジトリの記載内容例(条件節なりやすさ)
603 項目知識リポジトリの記載内容例(主語なりやすさ)
701 項目値の知識リポジトリ記載内容例(分類)
702 項目値の知識リポジトリ記載内容例(項目値)
801 表構造設定テーブルの例(コード一覧の場合)
802 表構造設定テーブルにおける主語設定
803 表構造設定テーブルにおける条件節主語設定
804 表構造設定テーブルにおける条件節目的語設定
805 表構造設定テーブルにおける述語設定
10 Table structure estimation system 11 Storage device 12 Program 13 Memory 14 Computing device 15 Input device 16 Output device 17 Communication device 101 Table format estimation unit 102 Table structure estimation unit 103 Statement generation unit 104 Table format knowledge repository 1041 Table format knowledge table 105 Item Knowledge Repository 1051 Item Knowledge Table 106 Item Value Knowledge Repository 1061 Item Value Knowledge Table 300 Table Structure Example 301 Ruled Line in Table Structure Example 302 Simple Conversion Statement in Table Structure Example 400 Code List of Design Document Table 401 First Code List Note line 402 Second note line 501 in the code list Example of description contents of tabular knowledge repository (table format name)
502 Example of description contents of tabular knowledge repository (item name group)
503 Example of description contents of tabular knowledge repository (item name position)
504 Example of description contents of tabular knowledge repository (item name matching degree)
601 Item Knowledge repository description content example (item name)
602 Item Knowledge repository description content example (ease of conditional clause)
603 Item Example of contents described in the knowledge repository (subject ease)
701 Item Value Knowledge Repository Description Example (Classification)
702 Knowledge of item values Example of contents described in repository (item values)
801 Example of table structure setting table (in the case of code list)
802 Subject setting in table structure setting table 803 Conditional clause subject setting in table structure setting table 804 Conditional clause subject setting in table structure setting table 805 Predicate setting in table structure setting table

Claims (10)

各表形式における各項目と文成分との親和性を規定した項目知識、および前記各項目が含みうる値を規定した項目値知識、を保持する記憶装置と、
処理対象の表組みが含む項目を前記項目知識に照合し、当該項目のうち文成分となりうるものを前記親和性の程度に基づき特定する表構造推定処理と、前記特定した項目を、当該文成分の種類に応じて組み合わせて配列し、前記配列した項目それぞれについて、前記項目値知識で規定されている値を設定し、文を生成する文生成処理と、を実行する演算装置と、
を含むことを特徴とする表組み構造推定システム。
A storage device that holds item knowledge that defines the affinity between each item and sentence components in each table format, and item value knowledge that defines the values that each item can contain.
Table structure estimation processing that collates the items included in the table structure to be processed with the item knowledge and specifies the items that can be sentence components based on the degree of affinity, and the specified items are the sentence components. An arithmetic unit that executes a statement generation process that generates a statement by setting a value specified in the item value knowledge for each of the arranged items and arranging them in combination according to the type of
A table structure estimation system characterized by including.
前記記憶装置は、
各表形式を当該表形式が含む項目ごとに分類した表形式知識を更に保持し、
前記演算装置は、
処理対象の表組みが含む項目を前記表形式知識に照合し、当該表組みの表形式を推定する表形式推定処理を更に実行し、前記推定した表形式の表組みとして、前記表構造推定処理および前記文生成処理を実行するものである、
ことを特徴とする請求項1に記載の表組み構造推定システム。
The storage device is
Further retains explicit knowledge of each table format by classifying each table format according to the items included in the table format.
The arithmetic unit
The items included in the table structure to be processed are collated with the table format knowledge, the table format estimation process for estimating the table format of the table structure is further executed, and the table structure estimation process is performed as the table structure of the estimated table format. And the statement generation process is executed.
The table structure estimation system according to claim 1, wherein the system is characterized by the above.
前記記憶装置は、
前記表形式知識を、業務別に保持しており、
前記演算装置は、
前記表形式推定処理に際し、前記表組みが示す対象業務に対応する表形式知識を利用し、当該表組みの表形式を推定するものである、
ことを特徴とする請求項2に記載の表組み構造推定システム。
The storage device is
The above explicit knowledge is held for each business,
The arithmetic unit
In the table format estimation process, the table format of the table structure is estimated by using the table format knowledge corresponding to the target business indicated by the table structure.
The table structure estimation system according to claim 2, wherein the system is characterized by this.
前記演算装置は、
前記表構造推定処理に際し、前記項目のうち、文成分の主語、条件節、および述語のいずれかになりうるものを前記親和性の程度に基づき特定し、
前記文生成処理に際し、前記主語、前記条件節、および前記述語のそれぞれに関して特定された各項目を主語、条件節、述語の順に配列し、前記配列した項目それぞれについて、前記項目値知識で規定されている値を設定し、文を生成するものである、
ことを特徴とする請求項1に記載の表組み構造推定システム。
The arithmetic unit
In the table structure estimation process, among the items, those that can be any of the subject, conditional clause, and predicate of the sentence component are specified based on the degree of affinity.
In the sentence generation process, each item specified for each of the subject, the conditional clause, and the predicate is arranged in the order of the subject, the conditional clause, and the predicate, and each of the arranged items is defined by the item value knowledge. It sets the value that is set and generates a statement,
The table structure estimation system according to claim 1, wherein the system is characterized by the above.
前記演算装置は、
前記表構造推定処理に際し、前記項目を前記項目知識に照合することでは文成分となりうるものを特定できない場合、前記表組みにおける当該項目の値を前記項目値知識に照合し、前記項目値知識において当該値と紐付く項目を特定し、当該項目を前記項目値に照合して前記文成分となりうるものを特定するものである、
ことを特徴とする請求項1に記載の表組み構造推定システム。
The arithmetic unit
In the table structure estimation process, when it is not possible to identify a potential sentence component by collating the item with the item knowledge, the value of the item in the table structure is collated with the item value knowledge, and the item value knowledge The item associated with the value is specified, and the item is collated with the item value to specify what can be the sentence component.
The table structure estimation system according to claim 1, wherein the system is characterized by the above.
情報処理システムが、
各表形式における各項目と文成分との親和性を規定した項目知識、および前記各項目が含みうる値を規定した項目値知識、を保持する記憶装置を備えて、
処理対象の表組みが含む項目を前記項目知識に照合し、当該項目のうち文成分となりうるものを前記親和性の程度に基づき特定する表構造推定処理と、前記特定した項目を、当該文成分の種類に応じて組み合わせて配列し、前記配列した項目それぞれについて、前記項目値知識で規定されている値を設定し、文を生成する文生成処理と、
を実行することを特徴とする表組み構造推定方法。
Information processing system
It is provided with a storage device that holds item knowledge that defines the affinity between each item and sentence components in each table format, and item value knowledge that defines the values that each item can contain.
The table structure estimation process that collates the items included in the table structure to be processed with the item knowledge and specifies the items that can be sentence components based on the degree of affinity, and the specified items are the sentence components. The sentence generation process of generating a sentence by setting the value specified in the item value knowledge for each of the arranged items and arranging them in combination according to the type of
A table structure estimation method characterized by executing.
前記情報処理システムが、
前記記憶装置において、各表形式を当該表形式が含む項目ごとに分類した表形式知識を更に保持し、
処理対象の表組みが含む項目を前記表形式知識に照合し、当該表組みの表形式を推定する表形式推定処理を更に実行し、前記推定した表形式の表組みとして、前記表構造推定処理および前記文生成処理を実行する、
ことを特徴とする請求項6に記載の表組み構造推定方法。
The information processing system
In the storage device, the tabular knowledge that classifies each tabular form according to the items included in the tabular form is further retained.
The items included in the table structure to be processed are collated with the table format knowledge, the table format estimation process for estimating the table format of the table structure is further executed, and the table structure estimation process is performed as the table structure of the estimated table format. And execute the sentence generation process,
The table structure estimation method according to claim 6, wherein the table structure is estimated.
前記情報処理システムが、
前記記憶装置において、前記表形式知識を、業務別に保持し、
前記表形式推定処理に際し、前記表組みが示す対象業務に対応する表形式知識を利用し、当該表組みの表形式を推定する、
ことを特徴とする請求項7に記載の表組み構造推定方法。
The information processing system
In the storage device, the tabular knowledge is retained for each business,
In the table format estimation process, the table format of the table structure is estimated by using the table format knowledge corresponding to the target business indicated by the table structure.
The table structure estimation method according to claim 7, wherein the table structure is estimated.
前記情報処理システムが、
前記表構造推定処理に際し、前記項目のうち、文成分の主語、条件節、および述語のいずれかになりうるものを前記親和性の程度に基づき特定し、
前記文生成処理に際し、前記主語、前記条件節、および前記述語のそれぞれに関して特定された各項目を主語、条件節、述語の順に配列し、前記配列した項目それぞれについて、前記項目値知識で規定されている値を設定し、文を生成する、
ことを特徴とする請求項6に記載の表組み構造推定方法。
The information processing system
In the table structure estimation process, among the items, those that can be any of the subject, conditional clause, and predicate of the sentence component are specified based on the degree of affinity.
In the sentence generation process, each item specified for each of the subject, the conditional clause, and the predicate is arranged in the order of the subject, the conditional clause, and the predicate, and each of the arranged items is defined by the item value knowledge. Set the value to be set and generate a statement,
The table structure estimation method according to claim 6, wherein the table structure is estimated.
前記情報処理システムが、
前記表構造推定処理に際し、前記項目を前記項目知識に照合することでは文成分となりうるものを特定できない場合、前記表組みにおける当該項目の値を前記項目値知識に照合し、前記項目値知識において当該値と紐付く項目を特定し、当該項目を前記項目値に照合して前記文成分となりうるものを特定する、
ことを特徴とする請求項6に記載の表組み構造推定方法。
The information processing system
In the table structure estimation process, when it is not possible to identify a potential sentence component by collating the item with the item knowledge, the value of the item in the table structure is collated with the item value knowledge, and the item value knowledge Identify the item associated with the value, collate the item with the item value, and identify what can be the sentence component.
The table structure estimation method according to claim 6, wherein the table structure is estimated.
JP2019072517A 2019-04-05 2019-04-05 Table structure estimation system and table structure estimation method Pending JP2020170426A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019072517A JP2020170426A (en) 2019-04-05 2019-04-05 Table structure estimation system and table structure estimation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019072517A JP2020170426A (en) 2019-04-05 2019-04-05 Table structure estimation system and table structure estimation method

Publications (1)

Publication Number Publication Date
JP2020170426A true JP2020170426A (en) 2020-10-15

Family

ID=72746757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019072517A Pending JP2020170426A (en) 2019-04-05 2019-04-05 Table structure estimation system and table structure estimation method

Country Status (1)

Country Link
JP (1) JP2020170426A (en)

Similar Documents

Publication Publication Date Title
US11657231B2 (en) Capturing rich response relationships with small-data neural networks
US20210319032A1 (en) Systems and methods for contextual retrieval and contextual display of records
US10698868B2 (en) Identification of domain information for use in machine learning models
CN108647205B (en) Fine-grained emotion analysis model construction method and device and readable storage medium
US8924197B2 (en) System and method for converting a natural language query into a logical query
US20160171386A1 (en) Category and term polarity mutual annotation for aspect-based sentiment analysis
US20160217127A1 (en) Identification of significant phrases using multiple language models
CA2853627C (en) Automatic creation of clinical study reports
WO2016036851A1 (en) Method and system for determining edit rules for rewriting phrases
CN111753082A (en) Text classification method and device based on comment data, equipment and medium
JP2005181928A (en) System and method for machine learning, and computer program
WO2019085118A1 (en) Topic model-based associated word analysis method, and electronic apparatus and storage medium
JP2020170426A (en) Table structure estimation system and table structure estimation method
CN114547321A (en) Knowledge graph-based answer generation method and device and electronic equipment
JP6181890B2 (en) Literature analysis apparatus, literature analysis method and program
KR20170044408A (en) System and method for recommending project
Pamungkas et al. Performance Improvement of Business Process Similarity Calculation using Word Sense Disambiguation
JPWO2012124301A1 (en) Related specification mapping system, related specification mapping method and program
US11783112B1 (en) Framework agnostic summarization of multi-channel communication
CN116541071A (en) Application programming interface migration method based on prompt learning
JP5811795B2 (en) Document analysis system, document analysis method and program
Bouhoun et al. Information Retrieval Using Domain Adapted Language Models: Application to Resume Documents for HR Recruitment Assistance
JP6476638B2 (en) Specific term candidate extraction device, specific term candidate extraction method, and specific term candidate extraction program
US20210073335A1 (en) Methods and systems for semantic analysis of table content
CN112528045A (en) Method and system for judging domain map relation based on open encyclopedia map