JP7358132B2 - Computer systems and document classification methods - Google Patents

Computer systems and document classification methods Download PDF

Info

Publication number
JP7358132B2
JP7358132B2 JP2019167016A JP2019167016A JP7358132B2 JP 7358132 B2 JP7358132 B2 JP 7358132B2 JP 2019167016 A JP2019167016 A JP 2019167016A JP 2019167016 A JP2019167016 A JP 2019167016A JP 7358132 B2 JP7358132 B2 JP 7358132B2
Authority
JP
Japan
Prior art keywords
document
data
paragraph
graph
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019167016A
Other languages
Japanese (ja)
Other versions
JP2021043849A (en
Inventor
祐太 是枝
久雄 間瀬
太亮 尾崎
康充 池浦
光一 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019167016A priority Critical patent/JP7358132B2/en
Publication of JP2021043849A publication Critical patent/JP2021043849A/en
Application granted granted Critical
Publication of JP7358132B2 publication Critical patent/JP7358132B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データの分類するための計算機システム及び方法に関する。 The present invention relates to a computer system and method for classifying data.

情報検索及び閲覧を支援する目的として、文書の分類(カテゴリ又はクラス)を示すタグ等の付与が行われている。文書に付与されるタグとしては、特許明細書に対するFターム及び国際特許分類、医療論文に対するMeSHターム等が知られている。一般的に、タグは専門知識を有する人間が手動で付与していたため、タグの付与の作業に多大な労力を要するという問題がある。 For the purpose of supporting information search and browsing, tags and the like indicating document classification (category or class) are added. Known tags added to documents include F terms and international patent classifications for patent specifications, and MeSH terms for medical papers. Generally, tags are manually attached by a person with specialized knowledge, so there is a problem in that the task of attaching tags requires a great deal of effort.

情報検索の質を維持するためには一貫した基準に基づいて高い精度でタグが付与されていることが前提になるため、完全な自動化ではなく、これらの分類を行うユーザを支援する方法が求められている。 In order to maintain the quality of information retrieval, it is a prerequisite that tags are assigned with a high degree of accuracy based on consistent standards, so rather than complete automation, there is a need for a method to assist users in making these classifications. It is being

例えば、非特許文献1には、文書及び単語からグラフを構築することによって、文書に分類結果を付与する方法が開示されている。しかし、非特許文献1は分類結果の付与とともに分類の根拠を提示する方法を開示していない。自動的に付与された分類結果を単にユーザに提示しただけでは、ユーザは分類結果を付与した根拠を把握できない。そのため、ユーザは、分類結果を受け入れるべきか否かを判断できない。 For example, Non-Patent Document 1 discloses a method of assigning classification results to documents by constructing a graph from documents and words. However, Non-Patent Document 1 does not disclose a method for presenting the basis of classification together with the assignment of classification results. If the automatically assigned classification results are simply presented to the user, the user cannot grasp the basis for assigning the classification results. Therefore, the user cannot decide whether or not to accept the classification results.

これに対して非特許文献2及び非特許文献3の技術が知られている。非特許文献2には、文書の分類結果とともに、取り除くことによって分類結果が大きく変化する箇所(単語)を提示し、分類の説明性を向上する方法が開示されている。非特許文献3には、再帰ニューラルネットワーク及びアテンション機構を用い、文書の分類結果とともに、文書の一部を根拠箇所として提示する方法が開示されている。 On the other hand, the techniques disclosed in Non-Patent Document 2 and Non-Patent Document 3 are known. Non-Patent Document 2 discloses a method for improving the explainability of classification by presenting, along with the document classification results, locations (words) whose removal would significantly change the classification results. Non-Patent Document 3 discloses a method that uses a recurrent neural network and an attention mechanism to present a document classification result as well as a part of the document as a basis.

Liang Yao, Chengsheng Mao, and Yuan Luo. 2018. Graph Convolutional Networks for Text Classification. AAAI.Liang Yao, Chengsheng Mao, and Yuan Luo. 2018. Graph Convolutional Networks for Text Classification. AAAI. Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. 2016. “Why Should I Trust You?”: Explaining the Predictions of Any Classifier. KDD.Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. 2016. “Why Should I Trust You?”: Explaining the Predictions of Any Classifier. KDD. Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy. 2016. Hierarchical Attention Networks for Document Classification. NACCL.Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy. 2016. Hierarchical Attention Networks for Document Classification. NACCL.

しかし、非特許文献2に記載の方法は、文書の分類方法自体に改変を加えないため、提示される内容は人の考える根拠とは乖離しており、文書の分類を十分支援できるものではない。非特許文献3に記載のアテンション機構に基づく根拠提示では、分類に寄与する箇所と、人の考える根拠箇所とが一致しないため、根拠提示の適切さと分類精度との間にトレードオフの関係が生じてしまう問題がある。 However, since the method described in Non-Patent Document 2 does not make any changes to the document classification method itself, the presented content is deviated from the basis for human thinking, and it cannot sufficiently support document classification. . In the evidence presentation based on the attention mechanism described in Non-Patent Document 3, the parts that contribute to classification and the parts of the evidence that people think of do not match, so there is a trade-off between the appropriateness of the evidence presentation and the classification accuracy. There is a problem with this.

本発明は、根拠箇所の提示の適切さと分類精度との間にトレードオフが生じないように、文書の分類結果とともに文書の一部を根拠箇所としてユーザに提示するシステム及び方法を実現する。 The present invention realizes a system and method that presents a part of a document as a basis to a user along with a document classification result so that there is no trade-off between the appropriateness of presentation of the basis and classification accuracy.

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、少なくとも一つの計算機を備える計算機システムであって、前記少なくとも一つの計算機は、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるインタフェースを有し、前記計算機システムは、文書のデータの入力を受け付け、前記文書及び前記文書の要素を頂点とするグラフを生成するグラフ構築部と、前記複数の頂点の各々について、前記文書を複数のクラスのいずれかに分類するために用いる指標を算出する分類部と、少なくとも一つの前記頂点の前記指標に基づいて前記文書を分類し、前記分類に寄与した少なくとも一つの前記文書の要素から構成される、前記文書上の根拠箇所を特定し、前記分類の結果及び前記文書上の根拠箇所を提示する文書再構築部と、を備え、前記分類部は、前記グラフを入力とするモデルの出力を用いて、前記各クラスについて、前記クラスに該当する確率を表す値を前記指標として算出し、前記文書再構築部は、前記文書に対応する頂点の前記指標に基づいて、前記文書を分類し、前記文書の要素に対応する頂点の、前記文書が分類されたクラスの前記指標に基づいて、前記文書上の根拠箇所を特定する。 A typical example of the invention disclosed in this application is as follows. That is, the computer system includes at least one computer, the at least one computer includes a processor, a memory connected to the processor, and an interface connected to the processor, and the computer system a graph construction unit that receives data input and generates a graph having the document and the elements of the document as vertices , and an index used for classifying the document into one of a plurality of classes for each of the plurality of vertices ; and a classification unit that classifies the document based on the index of at least one of the vertices , and identifies a base point on the document that is composed of at least one element of the document that contributed to the classification. , a document reconstruction unit that presents the results of the classification and the basis points on the document, and the classification unit uses the output of the model that receives the graph as input to determine the classification for each of the classes. A value representing the corresponding probability is calculated as the index, and the document reconstruction unit classifies the document based on the index of the vertex corresponding to the document, and classifies the document based on the index of the vertex corresponding to the element of the document. Based on the index of the class into which the document is classified, a basis location on the document is identified .

本発明の一形態によれば、根拠箇所の提示の適切さと分類精度との間にトレードオフが生じないように、文書の分類結果とともに文書の一部を根拠箇所としてユーザに提示できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。 According to one embodiment of the present invention, a part of a document can be presented to a user as a basis along with the document classification result so that there is no trade-off between the appropriateness of presentation of the basis and classification accuracy. Problems, configurations, and effects other than those described above will be made clear by the description of the following examples.

実施例1の計算機システムの構成の一例を示す図である。1 is a diagram illustrating an example of the configuration of a computer system according to a first embodiment; FIG. 実施例1のグラフ構築部が実行する処理の一例を説明するフローチャートである。7 is a flowchart illustrating an example of processing executed by the graph construction unit of the first embodiment. 実施例1のグラフ構築部が実行する処理の一例を説明するフローチャートである。7 is a flowchart illustrating an example of processing executed by the graph construction unit of the first embodiment. 実施例1のグラフ構築部が実行する処理の一例を説明するフローチャートである。7 is a flowchart illustrating an example of processing executed by the graph construction unit of the first embodiment. 実施例1のグラフ構築部が実行する処理におけるデータの入出力を説明する図である。FIG. 3 is a diagram illustrating data input/output in processing executed by the graph construction unit of the first embodiment. 実施例1のグラフ構築部が実行する処理におけるデータの入出力を説明する図である。FIG. 3 is a diagram illustrating data input/output in processing executed by the graph construction unit of the first embodiment. 実施例1のグラフ構築部が構築するグラフを説明する図である。FIG. 2 is a diagram illustrating a graph constructed by a graph construction unit of Example 1. FIG. 実施例1の文書再構築部が実行する処理の一例を説明するフローチャートである。5 is a flowchart illustrating an example of processing executed by the document reconstruction unit of the first embodiment. 実施例1の文書再構築部が実行する処理における出力データの構造を説明する図である。FIG. 3 is a diagram illustrating the structure of output data in processing executed by the document reconstruction unit of the first embodiment. 実施例1の表示部によって提示されるユーザインタフェースの一例を説明する図である。FIG. 2 is a diagram illustrating an example of a user interface presented by a display unit of Example 1. FIG. 実施例1の表示部が実行する処理の一例を説明するフローチャートである。5 is a flowchart illustrating an example of processing executed by the display unit of the first embodiment. 実施例2のグラフ構築部が実行する処理を説明するフローチャートである。12 is a flowchart illustrating processing executed by a graph construction unit of Example 2. FIG. 実施例2のグラフ構築部が実行する処理を説明するフローチャートである。12 is a flowchart illustrating processing executed by a graph construction unit of Example 2. FIG. 実施例2のグラフ構築部が実行する処理におけるデータの入出力を説明する図である。FIG. 7 is a diagram illustrating data input/output in processing executed by the graph construction unit of the second embodiment. 実施例2のグラフ構築部が実行する処理におけるデータの入出力を説明する図である。FIG. 7 is a diagram illustrating data input/output in processing executed by the graph construction unit of the second embodiment. 実施例3の表示部が実行する処理におけるユーザインタフェースを説明する図である。FIG. 7 is a diagram illustrating a user interface in processing executed by the display unit of Example 3; 実施例4の計算機の構成例を示す図である。FIG. 7 is a diagram showing an example of the configuration of a computer according to a fourth embodiment. 実施例4の関連要素表示部が実行する処理におけるユーザインタフェースを説明する図である。FIG. 12 is a diagram illustrating a user interface in processing executed by a related element display unit according to a fourth embodiment. 実施例4の関連要素表示部が実行する処理の一例を説明するフローチャートである。12 is a flowchart illustrating an example of a process executed by the related element display unit according to the fourth embodiment. 実施例4の関連要素表示部が実行する処理で使用するデータのデータ構造を説明する図である。FIG. 12 is a diagram illustrating the data structure of data used in processing executed by the related element display unit of the fourth embodiment. 実施例5のグラフ構築部が実行する処理におけるデータの入出力を説明する図である。FIG. 12 is a diagram illustrating data input/output in processing executed by the graph construction unit of Example 5; 実施例5のグラフ構築部が実行する処理におけるデータの入出力を説明する図である。FIG. 12 is a diagram illustrating data input/output in processing executed by the graph construction unit of Example 5; 実施例5のグラフ構築部が実行するステップS211の一例を説明するフローチャートである。12 is a flowchart illustrating an example of step S211 executed by the graph construction unit of the fifth embodiment.

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。 Embodiments of the present invention will be described below with reference to the drawings. However, the present invention should not be construed as being limited to the contents described in the embodiments shown below. Those skilled in the art will readily understand that the specific configuration can be changed without departing from the spirit or spirit of the present invention.

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。 In the configuration of the invention described below, the same or similar configurations or functions are denoted by the same reference numerals, and redundant explanations will be omitted.

本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。 In this specification, etc., expressions such as "first," "second," and "third" are used to identify constituent elements, and do not necessarily limit the number or order.

図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。 The position, size, shape, range, etc. of each component shown in the drawings etc. may not represent the actual position, size, shape, range, etc. in order to facilitate understanding of the invention. Therefore, the present invention is not limited to the position, size, shape, range, etc. disclosed in the drawings and the like.

図1は、実施例1の計算機システムの構成の一例を示す図である。 FIG. 1 is a diagram showing an example of the configuration of a computer system according to the first embodiment.

計算機システムは、文書の分類結果とともに文書の一部を根拠箇所としてユーザに提示する。実施例1では、文字列のみから構成される文書を分類する計算機システムを想定する。また、文書の分類は、文書を複数のクラスのいずれに該当するかを決定する処理であるものとする。 The computer system presents a part of the document as a proof point to the user along with the document classification result. Embodiment 1 assumes a computer system that classifies documents consisting only of character strings. Furthermore, it is assumed that document classification is a process of determining which of a plurality of classes a document falls into.

計算機システムは、二つの計算機100-1、100-2から構成される。計算機100-1及び計算機100-2は、ネットワーク120を介して互いに接続される。ネットワーク120は、例えば、LAN(Local Area Network)及びWAN(Wide Area Network)である。なお、本発明はネットワーク120の種別に限定されない。また、ネットワーク120の接続方式は有線及び無線のいずれでもよい。 The computer system is composed of two computers 100-1 and 100-2. Computer 100-1 and computer 100-2 are connected to each other via network 120. The network 120 is, for example, a LAN (Local Area Network) or a WAN (Wide Area Network). Note that the present invention is not limited to the type of network 120. Further, the connection method of the network 120 may be either wired or wireless.

実施例1の計算機100-1及び計算機100-2のハードウェア構成は、同一である。なお、計算機100-1及び計算機100-2のハードウェア構成は異なっていてもよい。以下の説明では、計算機100-1及び計算機100-2を区別しない場合、計算機100と記載する。 The hardware configurations of the computer 100-1 and the computer 100-2 in the first embodiment are the same. Note that the hardware configurations of the computer 100-1 and the computer 100-2 may be different. In the following description, if the computer 100-1 and the computer 100-2 are not distinguished, they will be referred to as the computer 100.

計算機100は、プロセッサ101、メモリ102、及びネットワークインタフェース103を有する。各ハードウェアは内部バスと介して互いに接続される。計算機100は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等の記憶装置、キーボード、マウス、及びタッチパネル等の入力装置、並びに、ディスプレイ等の出力装置を有してもよい。 Computer 100 has a processor 101, memory 102, and network interface 103. Each piece of hardware is connected to each other via an internal bus. The computer 100 may include a storage device such as a hard disk drive (HDD) and a solid state drive (SSD), an input device such as a keyboard, a mouse, and a touch panel, and an output device such as a display.

プロセッサ101は、メモリ102に格納されるプログラムを実行する。プロセッサ101がプログラムにしたがって処理を実行することによって、所定の機能を有する機能部(モジュール)として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ101が、当該機能部を実現するプログラムを実行していることを表す。 Processor 101 executes a program stored in memory 102. By executing processing according to a program, the processor 101 operates as a functional unit (module) having a predetermined function. In the following description, when a process is described using a functional unit as a subject, it means that the processor 101 is executing a program that implements the functional unit.

メモリ102は、プロセッサ101が実行するプログラム及び当該プログラムに必要な情報を格納する。また、メモリ102は、プログラムが一時的に使用するワークエリアを含む。 The memory 102 stores programs executed by the processor 101 and information necessary for the programs. The memory 102 also includes a work area that is temporarily used by the program.

ネットワークインタフェース103は、ネットワークを介して他の装置と接続する。 Network interface 103 connects to other devices via a network.

ここで、計算機100-1及び計算機100-2のメモリ102に格納されるプログラム及び情報について説明する。 Here, the programs and information stored in the memory 102 of the computers 100-1 and 100-2 will be explained.

計算機100-1のメモリ102は、グラフ構築部110を実現するプログラムを格納し、また、グラフ情報111を保持する。 The memory 102 of the computer 100-1 stores a program that implements the graph construction unit 110, and also holds graph information 111.

グラフ構築部110は、文書のデータの入力を受け付け、文書の構造を表す情報として、当該データから文書及び文書の構成要素を頂点(ノード)とするグラフ600(図6参照)を構築する。文書の構成要素は、例えば、単語及び段落(文章)等である。なお、本発明は、グラフの形式に限定されず、文書の構造を示すデータであればよい。グラフ構築部110によって生成されるグラフ600の詳細については図6を用いて説明する。 The graph construction unit 110 receives input of document data, and constructs a graph 600 (see FIG. 6) having the document and the constituent elements of the document as vertices (nodes) from the data as information representing the structure of the document. Components of a document include, for example, words and paragraphs (sentences). Note that the present invention is not limited to a graph format, and any data that indicates the structure of a document may be used. Details of the graph 600 generated by the graph construction unit 110 will be explained using FIG. 6.

グラフ情報111は、グラフ構築部110によって構築されたグラフ600を表すデータを格納する。 The graph information 111 stores data representing the graph 600 constructed by the graph construction unit 110.

計算機100-2のメモリは、分類モデル学習部112、分類部114、文書再構築部115、及び表示部116を実現するプログラムを格納し、また、分類モデル情報113を保持する。 The memory of the computer 100-2 stores programs that implement the classification model learning section 112, the classification section 114, the document reconstruction section 115, and the display section 116, and also holds classification model information 113.

分類モデル学習部112は、グラフ情報111を取得し、分類モデルを定義する各種パラメータを算出するための学習処理を実行する。本実施例の分類モデルは、グラフの頂点に、あるクラスに該当する確率値を算出するためのモデルである。あるクラスに該当する確率値をクラス確率値とも記載する。一つの頂点に対してクラスの数だけクラス確率値が算出される。 The classification model learning unit 112 acquires the graph information 111 and executes a learning process for calculating various parameters that define the classification model. The classification model of this embodiment is a model for calculating a probability value corresponding to a certain class at the vertex of a graph. A probability value corresponding to a certain class is also described as a class probability value. As many class probability values as there are classes are calculated for one vertex.

分類モデル情報113は、分類モデル学習部112によって学習された分類モデルの情報、すなわち、パラメータを格納する。 The classification model information 113 stores information on the classification model learned by the classification model learning unit 112, that is, parameters.

分類部114は、分類モデル情報113に格納される分類モデルに基づいて、グラフを構成する頂点のクラス確率値を算出する。また、分類部114は文書を構成する頂点の各クラス確率値に基づいて文書を分類する。より具体的には、分類部114は、分類の結果として、文書を構成する少なくとも一つの頂点にラベルを付与するための値を算出する。ラベルは文書のクラスを表す値である。 The classification unit 114 calculates class probability values of vertices forming the graph based on the classification model stored in the classification model information 113. Further, the classification unit 114 classifies the document based on each class probability value of the vertices forming the document. More specifically, the classification unit 114 calculates, as a result of classification, a value for assigning a label to at least one vertex constituting the document. A label is a value that represents the class of a document.

文書再構築部115は、分類部114によって算出された値に基づいて、文書の分類を決定し、また、グラフ600に基づいて文書を再構築し、さらに、分類部114によって算出された値及び再構築された文書に基づいて、文書の分類に寄与した文書上の根拠箇所を特定する。根拠箇所は少なくとも一つの構成要素から構成される。文書再構築部115は、特定された文書上の根拠箇所を提示するための根拠情報を生成する。また、文書再構築部115は、分類対象の文書とともに、分類結果及び根拠情報を出力する。 The document reconstruction unit 115 determines the classification of the document based on the values calculated by the classification unit 114, reconstructs the document based on the graph 600, and further uses the values calculated by the classification unit 114 and Based on the reconstructed document, the basis points on the document that contributed to the classification of the document are identified. A proof point consists of at least one component. The document reconstruction unit 115 generates basis information for presenting the specified basis location on the document. Further, the document reconstruction unit 115 outputs the classification result and basis information along with the document to be classified.

表示部116は、分類結果及び根拠箇所をユーザに提示するためのデータを出力する。 The display unit 116 outputs data for presenting the classification results and the basis locations to the user.

なお、計算機システムは、計算機100にデータを入力し、また、計算機100からデータを取得するための端末等を含んでもよい。計算機100-1及び計算機100-2が有する機能を一つの計算機にまとめてもよい。また、計算機100-1及び計算機100-2は、仮想化技術を利用して実現してもよい。 Note that the computer system may include a terminal for inputting data to the computer 100 and acquiring data from the computer 100. The functions of computer 100-1 and computer 100-2 may be combined into one computer. Further, the computer 100-1 and the computer 100-2 may be realized using virtualization technology.

ここで、所定の分類体系に基づいて、文書を分類する計算機システムの処理の流れについて説明する。 Here, the flow of processing of a computer system that classifies documents based on a predetermined classification system will be described.

(処理A1)まず、分類体系におけるいずれかのラベルが付与された文書の文書データ500(図5参照)がグラフ構築部110に入力される。グラフ構築部110は、文書、二つ以上の単語から構成される段落、及び単語を頂点とする非階層のグラフ600を構築し、構築されたグラフ600を表すデータをグラフ情報111に格納する。 (Process A1) First, document data 500 (see FIG. 5) of a document assigned any label in the classification system is input to the graph construction unit 110. The graph construction unit 110 constructs a document, a paragraph composed of two or more words, and a non-hierarchical graph 600 with words as vertices, and stores data representing the constructed graph 600 in the graph information 111.

(処理A2)分類モデル学習部112は、学習処理を実行して、学習されたパラメータを分類モデル情報113に格納する。学習処理によって生成される分類モデルは、グラフ600の各頂点のクラス確率値を算出するためのモデルである。 (Processing A2) The classification model learning unit 112 executes a learning process and stores the learned parameters in the classification model information 113. The classification model generated by the learning process is a model for calculating the class probability value of each vertex of the graph 600.

(処理A3)分類部114は、分類モデル情報113に基づいて、グラフ600における分類対象の文書に関連する少なくとも一つの頂点に対してラベルを付与する。 (Process A3) Based on the classification model information 113, the classification unit 114 assigns a label to at least one vertex related to the document to be classified in the graph 600.

(処理A4)文書再構築部115は、グラフ600及び各頂点のクラス確率値に基づいて、分類対象の文書とともに、分類結果及び根拠情報を出力する。表示部116は、文書とともに、分類結果及び根拠箇所をユーザに提示する。 (Process A4) The document reconstruction unit 115 outputs the document to be classified, as well as the classification result and basis information, based on the graph 600 and the class probability value of each vertex. The display unit 116 presents the document, the classification results, and the evidence points to the user.

本計算機システムは、特許明細書の分類を支援するために活用できる。例えば、計算機システムは、出願に係る特許明細書に対して、ある国際特許分類を付与すべきかを判定し、付与すべき国際特許分類とともに付与の根拠をユーザに提示する。 This computer system can be utilized to support the classification of patent specifications. For example, the computer system determines whether a certain international patent classification should be assigned to a patent specification related to an application, and presents the international patent classification to be assigned and the basis for assignment to the user.

また、本計算機システムは、文書の排他的なカテゴリへの分類にも利用できる。例えば、計算機システムは、医療論文の探索を容易にするために、「内科」、「外科」、「整形外科」、「脳神経外科」、「産婦人科」、「皮膚科」、「眼科」、「耳鼻咽喉科」のいずれかのカテゴリに医療論文の抄録が属するかを判定し、属するカテゴリとともに判定の根拠をユーザに提示する。 This computer system can also be used to classify documents into exclusive categories. For example, in order to facilitate searching for medical articles, the computer system can search for ``internal medicine'', ``surgery'', ``orthopaedics'', ``neurosurgery'', ``obstetrics and gynecology'', ``dermatology'', ``ophthalmology'', etc. It is determined whether an abstract of a medical paper belongs to any category of "otolaryngology" and the basis of the determination is presented to the user along with the category to which it belongs.

また、本計算機システムは、文書に限定されず、粒度が異なる要素から構成されるデータの分類にも利用できる。例えば、計算機システムは、化合物の分子構造から毒性の有無を判定し、判定の結果とともに判定の根拠をユーザに提示する。この場合、分子が文書に対応し、原子が単語に対応し、基が段落に対応する。 Furthermore, this computer system is not limited to documents, and can also be used to classify data composed of elements with different granularity. For example, a computer system determines the presence or absence of toxicity from the molecular structure of a compound, and presents the basis for the determination to the user along with the determination result. In this case, molecules correspond to documents, atoms correspond to words, and groups correspond to paragraphs.

図2から図6を用いて、グラフ構築部110が実行する処理について説明する。図2から図4は、実施例1のグラフ構築部110が実行する処理の一例を説明するフローチャートである。図5A及び図5Bは、実施例1のグラフ構築部110が実行する処理におけるデータの入出力を説明する図である。図6は、実施例1のグラフ構築部110が構築するグラフを説明する図である。 The processing executed by the graph construction unit 110 will be explained using FIGS. 2 to 6. 2 to 4 are flowcharts illustrating an example of processing executed by the graph construction unit 110 of the first embodiment. 5A and 5B are diagrams illustrating data input/output in processing executed by the graph construction unit 110 of the first embodiment. FIG. 6 is a diagram illustrating a graph constructed by the graph construction unit 110 of the first embodiment.

ここでは、特許明細書への任意の国際特許分類を付与すべきか否かの判断を支援するユースケースを例として考える。説明の簡単のために、特許明細書は二つの段落から構成されるものとする。この場合、特許明細書の構造を表すデータは図6に示すようなグラフ600として表現される。 Here, we will consider as an example a use case that supports the determination of whether or not to assign an arbitrary international patent classification to a patent specification. For ease of explanation, the patent specification shall consist of two paragraphs. In this case, data representing the structure of the patent specification is expressed as a graph 600 as shown in FIG.

グラフ600は、計算機上では図5に示す隣接行列520として管理される。隣接行列520はi行j列の要素はj番目の頂点からi番目の頂点への辺の有無及び重みを表す。具体的には、要素の値が零の場合、頂点間を接続する辺は存在しないことを表し、要素の値が非零である場合、j番目の頂点からi番目の頂点への方向に、要素の値が重みとして設定された辺が存在することを表す。 The graph 600 is managed on the computer as an adjacency matrix 520 shown in FIG. In the adjacency matrix 520, the element in the i-th row and the j-th column represents the existence and weight of an edge from the j-th vertex to the i-th vertex. Specifically, if the element value is zero, it means that there is no edge connecting the vertices, and if the element value is non-zero, in the direction from the j-th vertex to the i-th vertex, Indicates that there is an edge for which the element value is set as a weight.

グラフ構築部110は、文書をグラフ600として扱うために、隣接行列520を生成する。なお、隣接行列520は疎な行列であることが多いため、計算機100のメモリ102上でも疎行列として保持されることが望ましい。 The graph construction unit 110 generates an adjacency matrix 520 in order to treat the document as a graph 600. Note that since the adjacency matrix 520 is often a sparse matrix, it is desirable that it is also held as a sparse matrix in the memory 102 of the computer 100.

グラフ構築部110は、インデックス501、ラベル502、及び複数の段落文章データ503から構成される文書データ500を受け付ける(ステップS201)。 The graph construction unit 110 receives document data 500 including an index 501, a label 502, and a plurality of paragraph sentence data 503 (step S201).

ここで、インデックス501は、文書データ500を一意に識別するために番号である。番号は0から順に付与されるものとする。 Here, the index 501 is a number to uniquely identify the document data 500. Numbers shall be assigned sequentially starting from 0.

ラベル502は文書の分類結果である。本実施例のラベル502には、文書データ500に所定の国際特許分類を付与すべきか否かを表す値が格納される。本実施例では、文書データ500に国際特許分類を付与すべきである場合、ラベル502には「1」が格納され、文書データ500に国際特許分類を付与すべきでない場合、ラベル502には「0」が格納されるものとする。 A label 502 is the document classification result. In the label 502 of this embodiment, a value indicating whether or not a predetermined international patent classification should be assigned to the document data 500 is stored. In this embodiment, when the international patent classification should be assigned to the document data 500, "1" is stored in the label 502, and when the international patent classification should not be assigned to the document data 500, the label 502 stores "1". 0'' shall be stored.

段落文章データ503は、文書に含まれる段落の文章に対応するデータである。例えば、一つの段落タグ<p>を含む文章が段落文章データ503として扱われる。なお、文書の分割単位は一つ以上の単語からなる単位であればよく、例えば形式段落、文、及び談話構造に基づいて文書を分割してもよい。 Paragraph text data 503 is data corresponding to paragraph sentences included in a document. For example, a sentence including one paragraph tag <p> is treated as paragraph sentence data 503. Note that the document division unit may be a unit consisting of one or more words; for example, the document may be divided based on formal paragraphs, sentences, and discourse structure.

なお、本実施例では、ラベル502が既知の文書データ500(学習データ)がN個、ラベル502の付与対象である文書データ500(評価データ)がN個、合計(N+N)個の文書データ500が存在するものとする。評価データのラベル502にはプレースホルダとして-1が格納されているものとする。図2の説明に戻る。 In addition, in this embodiment, the number of document data 500 (learning data) with a known label 502 is N A , and the number of document data 500 (evaluation data) to which a label 502 is assigned is N Q , in total ( NA + N Q ). It is assumed that document data 500 exists. It is assumed that -1 is stored as a placeholder in the label 502 of the evaluation data. Returning to the explanation of FIG. 2.

次に、グラフ構築部110は、文書データ500のループ処理を開始する(ステップS202)。 Next, the graph construction unit 110 starts loop processing of the document data 500 (step S202).

具体的には、グラフ構築部110は、複数の文書データ500の中から一つのターゲット文書データ500を選択する。 Specifically, the graph construction unit 110 selects one target document data 500 from among the plurality of document data 500.

次に、グラフ構築部110は、文書データの前処理を実行する(ステップS203)。具体的には、以下のような処理が実行される。 Next, the graph construction unit 110 performs preprocessing of the document data (step S203). Specifically, the following processing is executed.

グラフ構築部110は、ターゲット文書データ500の段落文章データ503のループ処理を開始する(ステップS301)。 The graph construction unit 110 starts loop processing of the paragraph sentence data 503 of the target document data 500 (step S301).

具体的には、グラフ構築部110は、ターゲット文書データ500に含まれる複数の段落文章データ503の中から一つのターゲット段落文章データ503を選択する。 Specifically, the graph construction unit 110 selects one target paragraph sentence data 503 from a plurality of paragraph sentence data 503 included in the target document data 500.

次に、グラフ構築部110は、ターゲット段落文章データ503を形態素の単位(単語と呼ぶ)に分解する(ステップS302)。なお、分解の単位は文字及びバイト対符号化等、形態素以下の要素、又は複数の単語から構成されるフレーズ等でもよい。このとき、文章に頻出する句読点及び助動詞等のストップワードを除去する処理、並びに、形態素を原型に戻す処理が行われてもよい。 Next, the graph construction unit 110 decomposes the target paragraph sentence data 503 into units of morphemes (referred to as words) (step S302). Note that the unit of decomposition may be an element below a morpheme, such as character and byte pair encoding, or a phrase composed of a plurality of words. At this time, processing may be performed to remove stop words such as punctuation marks and auxiliary verbs that frequently appear in sentences, and processing to return morphemes to their original forms.

次に、グラフ構築部110は、ターゲット段落文章データ503の単語から単語Ngramを抽出し、段落Ngramデータ504としてターゲット文書データ500に格納する(ステップS303)。ここで、単語Ngramとは、連続するn個の単語の組み合わせを列挙することを示す。例えば、nを2以上とした場合、「データ」、「の」、「分類」という形態素列からは、「データ」、「の」、「分類」、「データ の」、「の 分類」の五つの単語Ngramが抽出される。本実施例ではnは3以下とする。ただし、nは任意に設定できる。 Next, the graph construction unit 110 extracts the word Ngram from the words of the target paragraph sentence data 503, and stores it in the target document data 500 as paragraph Ngram data 504 (step S303). Here, the word Ngram indicates that a combination of n consecutive words is listed. For example, if n is 2 or more, the morpheme sequence "data", "no", and "classification" will be divided into five characters: "data", "no", "classification", "data no", and "no classification". One word Ngram is extracted. In this embodiment, n is 3 or less. However, n can be set arbitrarily.

以下の説明では、単語NgramをNgramと記載する。 In the following description, the word Ngram will be referred to as Ngram.

次に、グラフ構築部110は、ターゲット文書データ500に含まれる全ての段落文章データ503について処理を実行したか否かを判定する(ステップS304)。 Next, the graph construction unit 110 determines whether the process has been executed for all paragraph text data 503 included in the target document data 500 (step S304).

処理を実行していない段落文章データ503が少なくとも一つ存在すると判定された場合、グラフ構築部110は、ステップS301に戻り、同様の処理を実行する。 If it is determined that there is at least one piece of paragraph text data 503 that has not been processed, the graph construction unit 110 returns to step S301 and executes the same process.

ターゲット文書データ500に含まれる全ての段落文章データ503について処理を実行したと判定された場合、グラフ構築部110は、文書データの前処理を終了し、ステップS204に進む。グラフ構築部110は、全ての文書データ500について文書データの前処理を実行したか否かを判定する(ステップS204)。 If it is determined that the processing has been performed on all paragraph text data 503 included in the target document data 500, the graph construction unit 110 ends the preprocessing of the document data and proceeds to step S204. The graph construction unit 110 determines whether document data preprocessing has been performed for all document data 500 (step S204).

文書データの前処理を実行していない文書データ500が少なくとも一つ存在すると判定された場合、グラフ構築部110は、ステップS202に戻り、同様の処理を実行する。 If it is determined that there is at least one piece of document data 500 for which document data preprocessing has not been performed, the graph construction unit 110 returns to step S202 and executes the same process.

全ての文書データ500について文書データの前処理が実行したと判定された場合、グラフ構築部110は、Ngram辞書510を生成する(ステップS205)。 If it is determined that the document data preprocessing has been performed for all of the document data 500, the graph construction unit 110 generates the Ngram dictionary 510 (step S205).

具体的には、グラフ構築部110は、文書データ500から抽出された全てのNgramの中から、次の条件を満たすNgramが出現する段落Ngramデータ504を含む文書データ500の数が多い順に20000個のNgramを選択し、選択されたNgramからNgram辞書510を生成する。Ngram辞書510に登録されるNgramの数をNとする。 Specifically, the graph construction unit 110 selects 20,000 pieces of document data 500 including the paragraph Ngram data 504 in which an Ngram satisfying the following conditions appears from among all the Ngrams extracted from the document data 500. , and generates an Ngram dictionary 510 from the selected Ngrams. Let NW be the number of Ngrams registered in the Ngram dictionary 510.

(条件1)Ngramが出現する段落Ngramデータ504を含む文書データ500の数が5以上
(条件2)Ngramが出現する段落Ngramデータ504を含む文書データ500の割合が100%未満
(Condition 1) The number of document data 500 containing paragraph Ngram data 504 where Ngram appears is 5 or more (Condition 2) The ratio of document data 500 containing paragraph Ngram data 504 where Ngram appears is less than 100%

なお、Ngram辞書510は、Ngramを格納するフィールドであるNgram511及びNgramの識別情報を格納するフィールドであるインデックス512から構成されるエントリを含む。 Note that the Ngram dictionary 510 includes an entry composed of an Ngram 511 that is a field that stores an Ngram, and an index 512 that is a field that stores identification information of the Ngram.

次に、グラフ構築部110は、Ngram間のPointwise Mutual Information(PMI)を算出し、下式(1)に基づいてNgram-Ngram行列521(Aw-w)を生成する(ステップS206)。 Next, the graph construction unit 110 calculates Pointwise Mutual Information (PMI) between Ngrams and generates an Ngram-Ngram matrix 521 (A ww ) based on the following equation (1) (step S206).

Figure 0007358132000001
Figure 0007358132000001

Ngram間のPMIは二つのNgramの共起頻度を表す指標であり、以下のように算出される。 PMI between Ngrams is an index representing the co-occurrence frequency of two Ngrams, and is calculated as follows.

(処理B1)まず、グラフ構築部110は、Ngram辞書510に格納されたNgramについて、インデックス512がiであるNgramの頻度wと、インデックス512がi、jであるNgramの共起頻度wi,jを0に初期化する。 (Process B1) First, for Ngrams stored in the Ngram dictionary 510, the graph construction unit 110 calculates the frequency w i of Ngrams whose index 512 is i and the co-occurrence frequency w i of Ngrams whose indexes 512 are i and j . , j to 0.

(処理B2)グラフ構築部110は、全文書の全段落文章データ503におけるr番目の単語から所定の単語数(本実施例では20単語)までの間の単語列で単語Ngram列を算出する。単語Ngram列の各Ngramについて、NgramがNgram辞書510に含まれる場合、グラフ構築部110は、当該Ngramに対応するインデックス512の値iをもとにNgramの頻度wをインクリメントする。単語Ngram列に含まれるNgramの全ペアについて、Ngramペアに含まれるNgramの両方がNgram辞書510に含まれる場合、グラフ構築部110は、当該Ngramペアに含まれる各Ngramに対応するインデックス512の値iと値jをもとにNgramの共起頻度wi,jをインクリメントする。 (Processing B2) The graph construction unit 110 calculates a word Ngram sequence using a word sequence from the r-th word to a predetermined number of words (20 words in this embodiment) in the all-paragraph sentence data 503 of all documents. For each Ngram in the word Ngram sequence, if the Ngram is included in the Ngram dictionary 510, the graph construction unit 110 increments the frequency w i of the Ngram based on the value i of the index 512 corresponding to the Ngram. For all pairs of Ngrams included in the word Ngram string, if both Ngrams included in the Ngram pair are included in the Ngram dictionary 510, the graph construction unit 110 calculates the value of the index 512 corresponding to each Ngram included in the Ngram pair. The co-occurrence frequency w i,j of Ngram is incremented based on i and the value j.

(処理B3)グラフ構築部110は、rをインクリメントし、上記の手順を繰り返す。 (Process B3) The graph construction unit 110 increments r and repeats the above procedure.

(処理B4)グラフ構築部110は、最後に下式(2)に基づいてNgramのPMIを算出する。 (Processing B4) The graph construction unit 110 finally calculates the PMI of Ngram based on the following formula (2).

Figure 0007358132000002
Figure 0007358132000002

Ngram-Ngram行列521のi行j列の要素はインデックス512がjのNgramからインデックス512がiのNgramへの辺601を表す。なお、Ngram-Ngram行列521は、PMI以外にも単語分散表現のコサイン距離、WordNetにおける接続の有無、又はこれらの組み合わせ等、異なる指標を用いて生成されてもよい。 The element in the i-th row and j-column of the Ngram-Ngram matrix 521 represents the edge 601 from Ngram whose index 512 is j to Ngram whose index 512 is i. Note that the Ngram-Ngram matrix 521 may be generated using a different index other than the PMI, such as the cosine distance of the word distributed representation, the presence or absence of a connection in WordNet, or a combination thereof.

次に、グラフ構築部110は、文書データ500のループ処理を開始する(ステップS207)。 Next, the graph construction unit 110 starts loop processing of the document data 500 (step S207).

具体的には、グラフ構築部110は、複数の文書データ500の中から一つのターゲット文書データ500を選択する。また、グラフ構築部110は、段落番号カウンタcを0に初期化する。ここでは、ターゲット文書データ500のインデックス501をdとする。 Specifically, the graph construction unit 110 selects one target document data 500 from among the plurality of document data 500. The graph construction unit 110 also initializes the paragraph number counter c to 0. Here, the index 501 of the target document data 500 is assumed to be d.

次に、グラフ構築部110は、文書及び段落の行列更新処理を実行する(ステップS208)。文書及び段落の行列更新処理では、図4に示すような処理が実行される。 Next, the graph construction unit 110 executes document and paragraph matrix update processing (step S208). In the document and paragraph matrix update process, the process shown in FIG. 4 is executed.

グラフ構築部110は、文書-文書行列522(Ad-d)を更新する(ステップS401)。 The graph construction unit 110 updates the document-document matrix 522 (A dd ) (step S401).

具体的には、グラフ構築部110は、文書の総数と同じ要素数のベクトルを文書-文書行列522のd行目に追加する。追加されるベクトルは、d番目の要素のみが1であり、他の要素は全て0である。この1は文書dから文書dへの自己ループに相当する。 Specifically, the graph construction unit 110 adds a vector with the same number of elements as the total number of documents to the d-th row of the document-document matrix 522. In the added vector, only the d-th element is 1, and all other elements are 0. This 1 corresponds to a self-loop from document d to document d.

次に、グラフ構築部110は、文書-段落行列523(Ad-p)を更新する(ステップS402)。 Next, the graph construction unit 110 updates the document-paragraph matrix 523 (A dp ) (step S402).

具体的には、グラフ構築部110は、各文書の段落数の合計値(N)と同じ要素数のベクトルを文書-段落行列523のd行目に追加する。追加されるベクトルは、c番目から(c+ターゲット文書の段落数-1)番目の要素は1であり、他の要素は全て0である。この1は文書dに含まれる段落から文書dへの辺602を表す。 Specifically, the graph construction unit 110 adds a vector with the same number of elements as the total number of paragraphs (N P ) of each document to the d-th row of the document-paragraph matrix 523. In the added vector, the cth to (c+number of paragraphs in the target document - 1)th elements are 1, and all other elements are 0. This 1 represents a side 602 from a paragraph included in document d to document d.

次に、グラフ構築部110は、文書-Ngram行列524(Ad-w)を更新する(ステップS403)。 Next, the graph construction unit 110 updates the document-Ngram matrix 524 (A dw ) (step S403).

具体的には、グラフ構築部110は、文書データ500のtfidfベクトルvを文書-Ngram行列524のd行目に追加する。追加されるtfidfベクトルvのi番目の要素vは下式(3)から(5)に基づいて算出される。 Specifically, the graph construction unit 110 adds the tfidf vector v of the document data 500 to the d-th row of the document-Ngram matrix 524. The i-th element v i of the tfidf vector v to be added is calculated based on the following equations (3) to (5).

Figure 0007358132000003
Figure 0007358132000003

Figure 0007358132000004
Figure 0007358132000004

Figure 0007358132000005
Figure 0007358132000005

ただし、はd番目の文書データ500のNgramのインデックス512がiであるNgramの頻度を表し、nはインデックス512がiのNgramが含まれる文書データ500の個数を表す。tfidfベクトルvの非零の要素は文書dに含まれるNgramから文書dへの辺603を表す。 However, d w i represents the frequency of Ngrams whose index 512 is i in the d-th document data 500, and n i represents the number of document data 500 in which Ngrams whose index 512 is i. A non-zero element of the tfidf vector v represents an edge 603 from Ngram included in the document d to the document d.

次に、グラフ構築部110は、段落辞書530を更新する(ステップS404)。 Next, the graph construction unit 110 updates the paragraph dictionary 530 (step S404).

具体的には、グラフ構築部110は、段落辞書530に文書インデックス531がd、段落インデックス532が(N+N+c)であるエントリを追加する。段落辞書530はd番目の文書データ500の段落が隣接行列520の何行目から始まるかを示す情報である。 Specifically, the graph construction unit 110 adds an entry in which the document index 531 is d and the paragraph index 532 is (N A +N Q +c) to the paragraph dictionary 530. The paragraph dictionary 530 is information indicating in which row of the adjacency matrix 520 the paragraph of the d-th document data 500 starts.

次に、グラフ構築部110は、ターゲット文書データ500の段落Ngramデータ504のループ処理を開始する(ステップS405)。 Next, the graph construction unit 110 starts loop processing of the paragraph Ngram data 504 of the target document data 500 (step S405).

具体的には、グラフ構築部110は、ターゲット文書データ500の複数の段落Ngramデータ504の中から一つのターゲット段落Ngramデータ504を選択する。 Specifically, the graph construction unit 110 selects one target paragraph Ngram data 504 from a plurality of paragraph Ngram data 504 of the target document data 500.

次に、グラフ構築部110は、段落-段落行列525(Ap-p)を更新する(ステップS406)。 Next, the graph construction unit 110 updates the paragraph-paragraph matrix 525 (A pp ) (step S406).

具体的には、グラフ構築部110は、各文書の段落の合計値と同じ要素数のベクトルを段落-段落行列525のc行目に追加する。追加されるベクトルは、c番目の要素のみが1であり、他の要素は全て0である。この1は段落から段落への自己ループに相当する。 Specifically, the graph construction unit 110 adds a vector with the same number of elements as the total value of the paragraphs of each document to the c-th row of the paragraph-paragraph matrix 525. In the added vector, only the c-th element is 1, and all other elements are 0. This 1 corresponds to a self-loop from paragraph to paragraph.

次に、グラフ構築部110は、段落-Ngram行列526(Ap-w)を更新する(ステップS407)。 Next, the graph construction unit 110 updates the paragraph-Ngram matrix 526 (A pw ) (step S407).

具体的には、グラフ構築部110は、ターゲット段落Ngramデータのtfidfベクトルvを段落-Ngram行列526のc行目に追加する。追加されるtfidfベクトルvのi番目の要素vは、段落を文書と同列にみなすことで式(3)から(5)に基づいて算出できる。tfidfベクトルvの非零の要素は文書に属する段落からNgramへの辺604を表す。その後、グラフ構築部110はcをインクリメントする。 Specifically, the graph construction unit 110 adds the tfidf vector v of the target paragraph Ngram data to the c-th row of the paragraph-Ngram matrix 526. The i-th element v i of the tfidf vector v to be added can be calculated based on equations (3) to (5) by considering a paragraph to be on the same level as a document. A non-zero element of the tfidf vector v represents an edge 604 from the paragraph belonging to the document to Ngram. After that, the graph construction unit 110 increments c.

次に、グラフ構築部110は、全ての段落Ngramデータ504について処理を実行したか否かを判定する(ステップS408)。 Next, the graph construction unit 110 determines whether processing has been performed on all paragraph Ngram data 504 (step S408).

少なくとも一つの段落Ngramデータ504について処理が実行していないと判定された場合、グラフ構築部110は、ステップS405に戻り、同様の処理を実行する。 If it is determined that the process has not been executed for at least one paragraph Ngram data 504, the graph construction unit 110 returns to step S405 and executes the same process.

全ての段落Ngramデータ504について処理を実行したと判定された場合、グラフ構築部110は文書及び段落の行列更新処理を終了し、ステップS209に進む。グラフ構築部110は、全ての文書データ500について文書及び段落の行列更新処理を実行したか否かを判定する(ステップS209)。 If it is determined that the process has been executed for all paragraph Ngram data 504, the graph construction unit 110 ends the document and paragraph matrix update process, and proceeds to step S209. The graph construction unit 110 determines whether the document and paragraph matrix update processing has been executed for all of the document data 500 (step S209).

文書及び段落の行列更新処理を実行していない文書データ500が少なくとも一つ存在すると判定された場合、グラフ構築部110は、ステップS207に戻り、同様の処理を実行する。 If it is determined that there is at least one piece of document data 500 that has not undergone the document and paragraph matrix update process, the graph construction unit 110 returns to step S207 and executes the same process.

全ての文書データ500について文書及び段落の行列更新処理を実行したと判定された場合、グラフ構築部110は、Ngram-Ngram行列521(Aw-w)、文書-文書行列522(Ad-d)、文書-段落行列523(Ad-p)、文書-Ngram行列524(Ad-w)、段落-段落行列525(Ap-p)、及び段落-Ngram行列526(Ap-w)を用いて、隣接行列520(A)を生成する(ステップS210)。 When it is determined that the document and paragraph matrix update processing has been executed for all document data 500, the graph construction unit 110 updates the Ngram-Ngram matrix 521 (A ww ), the document-document matrix 522 (A d-d ), document-paragraph matrix 523 (A d-p ), document-Ngram matrix 524 (A d-w ), paragraph-paragraph matrix 525 (A p-p ), and paragraph-Ngram matrix 526 (A p-w ) An adjacency matrix 520(A) is generated using (step S210).

具体的には、グラフ構築部110は、式(6)に基づいて隣接行列520(A)を生成する。 Specifically, the graph construction unit 110 generates the adjacency matrix 520(A) based on equation (6).

Figure 0007358132000006
Figure 0007358132000006

次に、グラフ構築部110は、要素数がNの正解ラベルベクトル540を生成する(ステップS211)。なお、Nは、N、N、N、及びNの合計値である。グラフ構築部110は、Ngram辞書510、隣接行列520、段落辞書530、正解ラベルベクトル540をグラフ情報111に格納する。その後、グラフ構築部110は処理を終了する。 Next, the graph construction unit 110 generates a correct label vector 540 with N elements (step S211). Note that N is the total value of NA , NQ , NP , and NW . The graph construction unit 110 stores an Ngram dictionary 510, an adjacency matrix 520, a paragraph dictionary 530, and a correct label vector 540 in the graph information 111. After that, the graph construction unit 110 ends the process.

正解ラベルベクトル540のd番目の要素は、インデックス501がdである文書データ500のラベル502の値であり、それ以外の要素は0である。dは0以上かつNより小さい。 The d-th element of the correct label vector 540 is the value of the label 502 of the document data 500 whose index 501 is d, and the other elements are 0. d is 0 or more and smaller than NA .

本実施例では、学習用の文書データ500及び分類対象の文書データ500を同時に入力して、グラフ600を生成しているが、これに限定されない。グラフ構築部110は、学習用の文書データ500からグラフ600を生成し、分類対象の文書データ500が入力された場合、グラフ600を更新するようにしてもよい。 In this embodiment, the graph 600 is generated by simultaneously inputting the document data 500 for learning and the document data 500 to be classified, but the present invention is not limited thereto. The graph construction unit 110 may generate a graph 600 from the learning document data 500, and update the graph 600 when the document data 500 to be classified is input.

以上が、グラフ構築部110が実行する処理の説明である。 The above is an explanation of the processing executed by the graph construction unit 110.

分類モデル学習部112は、分類モデルの学習処理を実行する。分類モデル学習部112では、以下のような処理が実行される。 The classification model learning unit 112 executes a classification model learning process. The classification model learning unit 112 executes the following processing.

(処理C1)分類モデル学習部112は、式(7)に示すように、グラフ情報111に格納される隣接行列AとN次元の単位行列Iに、グラフ畳み込みネットワーク(GCN)を適用して、長さNのベクトルzを算出する。なお、式(7)は式(8)から(10)を用いて算出される。ここで、Wは学習可能パラメータ、σはテンソルの各要素に対する正規化線形関数、ζはドロップアウトを表す。ただし、2層のGCNの代わりに任意の層のGCNやGraph Attention Network(GAT)、GraphSAGE等のアルゴリズムを使いてzを算出してもよい。 (Process C1) The classification model learning unit 112 applies a graph convolution network (GCN) to the adjacency matrix A and the N-dimensional unit matrix I stored in the graph information 111, as shown in equation (7). Calculate a vector z of length N. Note that equation (7) is calculated using equations (8) to (10). Here, i W is a learnable parameter, σ is a normalized linear function for each element of the tensor, and ζ represents dropout. However, instead of the two-layer GCN, z may be calculated using an arbitrary layer GCN or an algorithm such as Graph Attention Network (GAT) or GraphSAGE.

Figure 0007358132000007
Figure 0007358132000007

Figure 0007358132000008
Figure 0007358132000008

Figure 0007358132000009
Figure 0007358132000009

Figure 0007358132000010
Figure 0007358132000010

(処理C2)分類モデル学習部112は、各文書データ500について、該文書データ500のラベル502が「1」である確率値(クラス確率値)を算出する。具体的には、分類モデル学習部112は、式(7)から算出されたzを式(11)に代入することによって、インデックス501がiである文書データ500のラベル502が1である確率値^yを算出する。iはN以下である。 (Process C2) The classification model learning unit 112 calculates, for each document data 500, a probability value (class probability value) that the label 502 of the document data 500 is "1". Specifically, the classification model learning unit 112 calculates the probability value that the label 502 of the document data 500 whose index 501 is i is 1 by substituting z calculated from the formula (7) into the formula (11). Calculate ^y i . i is less than or equal to NA .

Figure 0007358132000011
Figure 0007358132000011

(処理C3)分類モデル学習部112は、ラベル502と確率値^yが一致するように、学習対象のパラメータを算出する。具体的には、分類モデル学習部112は、式(12)で定義する交差エントロピーLを算出し、最急降下法を用いて交差エントロピーLが最小となるようにパラメータW、Wを算出する。yは正解ラベルベクトル540のi番目の要素を表す。 (Process C3) The classification model learning unit 112 calculates the parameters of the learning target so that the label 502 and the probability value ^y i match. Specifically, the classification model learning unit 112 calculates the cross entropy L defined by equation (12), and calculates the parameters 0 W and 1 W using the steepest descent method so that the cross entropy L is minimized. . y i represents the i-th element of the correct label vector 540.

Figure 0007358132000012
Figure 0007358132000012

(処理C4)分類モデル学習部112は、算出されたパラメータを分類モデル情報113に格納する。本実施例では、最急降下法を用いてパラメータを算出していたがこれに限定されない。パラメータの推定方法は、準ニュートン方法、進化的計算、及びマルコフ連鎖モンテカルロ法等を用いてもよい。 (Process C4) The classification model learning unit 112 stores the calculated parameters in the classification model information 113. In this embodiment, the parameters are calculated using the steepest descent method, but the method is not limited thereto. As a parameter estimation method, a quasi-Newton method, evolutionary calculation, Markov chain Monte Carlo method, etc. may be used.

本実施例では、分類モデル学習部112は、学習用の文書データ500及び分類対象の文書データ500から生成されたグラフ600を用いて分類モデルを学習しているがこれに限定されない。分類モデル学習部112は、学習用の文書データ500のみから生成されるグラフ600を用いて分類モデルを学習してもよい。 In this embodiment, the classification model learning unit 112 learns the classification model using the graph 600 generated from the document data 500 for learning and the document data 500 to be classified, but the invention is not limited thereto. The classification model learning unit 112 may learn a classification model using the graph 600 generated only from the document data 500 for learning.

以上が分類モデル学習部112の処理の説明である。 The above is an explanation of the processing of the classification model learning unit 112.

分類部114は、グラフ600の各頂点のクラス確率値を算出する。分類部114では、以下のような処理が実行される。 The classification unit 114 calculates the class probability value of each vertex of the graph 600. The classification unit 114 executes the following processing.

(処理D1)分類部114は、分類モデル情報113からパラメータを取得する。なお、パラメータの取得タイミングに限定されない。例えば、分類部114は、分類モデル情報113にパラメータが格納された場合に、当該パラメータを取得してもよい。 (Process D1) The classification unit 114 acquires parameters from the classification model information 113. Note that the timing is not limited to the acquisition timing of the parameters. For example, when a parameter is stored in the classification model information 113, the classification unit 114 may acquire the parameter.

(処理D2)分類部114は、式(7)に示すように、グラフ情報111に格納される隣接行列520とN次元の単位行列IにGCNを適用して、長さNのベクトルzを算出する。 (Processing D2) The classification unit 114 calculates a vector z of length N by applying GCN to the adjacency matrix 520 and the N-dimensional unit matrix I stored in the graph information 111, as shown in equation (7). do.

(処理D3)分類部114は、グラフ600の各頂点に対してクラス確率値を算出する。本実施例では、分類部114は、ベクトルzを式(11)に代入することによって、i番目の頂点のラベルが1である確率値^yを算出する。 (Process D3) The classification unit 114 calculates a class probability value for each vertex of the graph 600. In this embodiment, the classification unit 114 calculates the probability value ^y i that the label of the i-th vertex is 1 by substituting the vector z into equation (11).

以上が、分類部114が実行する処理の説明である。 The above is an explanation of the processing executed by the classification unit 114.

文書再構築部115は、グラフ情報111に格納される隣接行列520及び段落辞書530、並びに、分類部114によって算出されたグラフ600の各頂点のクラス確率値に基づいて、文書の分類を決定し、当該文書を構築して根拠箇所を特定する。 The document reconstruction unit 115 determines the classification of the document based on the adjacency matrix 520 and paragraph dictionary 530 stored in the graph information 111, and the class probability value of each vertex of the graph 600 calculated by the classification unit 114. , construct the document and identify the evidence points.

図7と図8を用いて、文書再構築部115が実行する処理について説明する。図7は、実施例1の文書再構築部115が実行する処理の一例を説明するフローチャートである。図8は、実施例1の文書再構築部115が実行する処理における出力データの構造を説明する図である。 The processing executed by the document reconstruction unit 115 will be explained using FIGS. 7 and 8. FIG. 7 is a flowchart illustrating an example of processing executed by the document reconstruction unit 115 of the first embodiment. FIG. 8 is a diagram illustrating the structure of output data in the process executed by the document reconstruction unit 115 of the first embodiment.

文書再構築部115は、グラフ情報111に格納される隣接行列520及び段落辞書530を取得する(ステップS701)。 The document reconstruction unit 115 obtains the adjacency matrix 520 and paragraph dictionary 530 stored in the graph information 111 (step S701).

次に、文書再構築部115は、文書データ500のループ処理を開始する(ステップS702)。 Next, the document reconstruction unit 115 starts loop processing of the document data 500 (step S702).

具体的には、文書再構築部115は、複数の文書データ500の中から一つのターゲット文書データ500を選択する。ここでは、ターゲット文書データ500のインデックス501をdとし、段落辞書530の文書インデックス531がdであるエントリの段落インデックス532をPとする。 Specifically, the document reconstruction unit 115 selects one target document data 500 from among the plurality of document data 500. Here, it is assumed that the index 501 of the target document data 500 is d, and the paragraph index 532 of the entry whose document index 531 of the paragraph dictionary 530 is d is Pd.

次に、文書再構築部115は、隣接行列520及び段落辞書530に基づいて再構築文書データ800を生成する(ステップS703)。この時点では、インデックス801等は空である。このとき、文書再構築部115は、再構築文書データ800のインデックス801にdを格納する。 Next, the document reconstruction unit 115 generates reconstructed document data 800 based on the adjacency matrix 520 and the paragraph dictionary 530 (step S703). At this point, the index 801 etc. are empty. At this time, the document reconstruction unit 115 stores d in the index 801 of the reconstructed document data 800.

次に、文書再構築部115は、再構築文書データ800のスコア802を設定する(ステップS704)。 Next, the document reconstruction unit 115 sets the score 802 of the reconstructed document data 800 (step S704).

具体的には、文書再構築部115は、dに対応する頂点のクラス確率値^yを取得し、スコア802に格納する。これはターゲット文書データ500のクラス確率値に相当する。 Specifically, the document reconstruction unit 115 obtains the class probability value ^ yd of the vertex corresponding to d, and stores it in the score 802. This corresponds to the class probability value of the target document data 500.

次に、文書再構築部115は、再構築文書データ800のラベル803を設定する(ステップS705)。 Next, the document reconstruction unit 115 sets the label 803 of the reconstructed document data 800 (step S705).

具体的には、文書再構築部115は、ターゲット文書データ500のラベル502に値(ラベル)が設定されている場合、ラベル803に当該値を複写する。ターゲット文書データ500のラベル502に値(ラベル)が設定されていない場合、文書再構築部115は、d番目の頂点のクラス確率値^yと閾値との比較結果に基づいてラベルを決定し、決定されたラベルをラベル803に設定する。例えば、文書再構築部115は、クラス確率値が閾値以上の場合、ラベル「1」を設定し、クラス確率値が閾値より小さい場合、ラベル「0」を設定する。閾値は例えば0.5である。これはターゲット文書データ500の分類の予測値に相当する。なお、閾値は一例であり0.5以外の固定値でもよいし、可変な値でもよい。 Specifically, if a value (label) is set in the label 502 of the target document data 500, the document reconstruction unit 115 copies the value to the label 803. If no value (label) is set for the label 502 of the target document data 500, the document reconstruction unit 115 determines the label based on the comparison result between the class probability value ^ yd of the d-th vertex and the threshold value. , and sets the determined label to label 803. For example, the document reconstruction unit 115 sets the label "1" when the class probability value is greater than or equal to the threshold value, and sets the label "0" when the class probability value is smaller than the threshold value. The threshold value is, for example, 0.5. This corresponds to the predicted value of the classification of the target document data 500. Note that the threshold value is an example, and may be a fixed value other than 0.5, or may be a variable value.

文書再構築部115は、P番目の頂点における一層目のGCNの特徴量としてWのP行目のベクトルを文書特徴量804に設定する(ステップS706)。これはターゲット文書データ500の特徴量に相当する。 The document reconstruction unit 115 sets the Pd- th row vector of 0 W as the document feature amount 804 as the feature amount of the first layer GCN at the Pd- th vertex (step S706). This corresponds to the feature amount of the target document data 500.

次に、文書再構築部115はpを0に初期化する(ステップS707)。 Next, the document reconstruction unit 115 initializes p to 0 (step S707).

次に、文書再構築部115は、ターゲット文書データ500のp番目の段落の段落インデックス806、段落スコア807、段落特徴量808、及び複数の単語データ809から構成される段落データ805を再構築文書データ800に追加する(ステップS708)。具体的には以下のような処理が実行される。 Next, the document reconstruction unit 115 converts the paragraph data 805 composed of the paragraph index 806 of the p-th paragraph of the target document data 500, the paragraph score 807, the paragraph feature amount 808, and a plurality of word data 809 into the reconstructed document. It is added to the data 800 (step S708). Specifically, the following processing is executed.

(処理E1)文書再構築部115は、段落インデックス806にpを設定する。 (Processing E1) The document reconstruction unit 115 sets p to the paragraph index 806.

(処理E2)文書再構築部115は、(P+p)に対応する頂点のクラス確率^y(Pd+p)を段落スコア807に設定する。これはターゲット文書データ500のp番目の段落のクラス確率値に相当する。 (Process E2) The document reconstruction unit 115 sets the class probability ^y ( Pd +p) of the vertex corresponding to ( P d +p) to the paragraph score 807. This corresponds to the class probability value of the pth paragraph of the target document data 500.

ここで、ラベルの付与対象は文書であり、本来、段落はラベルの付与対象ではない。しかし、実施例1では、文書及び段落はグラフ600を構成する同等の頂点として扱われ、段落についてもクラス確率値が算出される。ステップS403とステップS407より段落は文書を構成するNgram集合の部分集合から構成されているため、クラス確率値が1に近い段落は、文書を構成するNgram集合の中でも分類の付与に寄与する割合が大きいNgram集合を保有していることを表す。分類付与への寄与が大きい文書の部分集合は分類付与の根拠箇所とみなすことができる。 Here, the target for labeling is the document, and originally, the target for labeling is not the paragraph. However, in the first embodiment, documents and paragraphs are treated as equivalent vertices constituting the graph 600, and class probability values are calculated for paragraphs as well. From step S403 and step S407, since a paragraph is composed of a subset of the Ngram set that makes up the document, a paragraph with a class probability value close to 1 has a higher proportion of the Ngram sets that make up the document. Indicates that a large Ngram set is held. A subset of documents that makes a large contribution to classification can be considered as the basis for classification.

(処理E3)文書再構築部115は、(P+p)に対応する頂点における一層目のGCNの特徴量としてWの(P+p)行目のベクトルを段落特徴量808に設定する。これはターゲット文書データ500のp番目の段落の特徴量に相当する。 (Process E3) The document reconstruction unit 115 sets the vector of the (P d +p)th row of 0 W to the paragraph feature amount 808 as the feature amount of the first layer GCN at the vertex corresponding to (P d +p). This corresponds to the feature amount of the pth paragraph of the target document data 500.

(処理E4)文書再構築部115は、段落データ805を再構築文書データ800に挿入する。具体的には以下のような処理が実行される。 (Process E4) The document reconstruction unit 115 inserts the paragraph data 805 into the reconstructed document data 800. Specifically, the following processing is executed.

(処理E4-1)文書再構築部115は、ループ処理を開始する。まず、文書再構築部115は単語番号uを0に初期化する。 (Process E4-1) The document reconstruction unit 115 starts loop processing. First, the document reconstruction unit 115 initializes the word number u to 0.

(処理E4-2)文書再構築部115は、集合Sを空集合に初期化する。文書再構築部115は、ターゲット文書データ500のp番目の段落文章データ503のu番目から(u+Δu)番目までの単語を、Δuを0から最大のNgramの大きさまでインクリメントしながらNgram辞書510のNgram511と貪欲法でマッチングする。文書再構築部115は、各ΔuでマッチングしたNgram511に対応するインデックス512を集合Sに追加する。 (Process E4-2) The document reconstruction unit 115 initializes the set S to an empty set. The document reconstruction unit 115 converts the u-th to (u+Δu)-th words of the p-th paragraph sentence data 503 of the target document data 500 into Ngrams 511 of the Ngram dictionary 510 while incrementing Δu from 0 to the maximum Ngram size. is matched using the greedy method. The document reconstruction unit 115 adds the index 512 corresponding to the Ngram 511 matched with each Δu to the set S.

(処理E4-3)文書再構築部115は、式(13)に基づいて算出された値を単語スコアとして算出する。ただし、|S|は集合Sに含まれる要素の個数を表す。これは、当該単語を含むNgramに対するクラス確率値の平均値と等価である。なお、単語スコアの算出式は一例であり、重み付き和及び最大値等でもよい。 (Process E4-3) The document reconstruction unit 115 calculates the value calculated based on equation (13) as a word score. However, |S| represents the number of elements included in the set S. This is equivalent to the average value of class probability values for Ngrams that include the word. Note that the formula for calculating the word score is just an example, and may be a weighted sum, a maximum value, or the like.

Figure 0007358132000013
Figure 0007358132000013

(処理E4-4)文書再構築部115は、式(14)に基づいて算出されたベクトルを単語特徴量として算出する。ただし、はGCNのパラメータWのk行目のベクトルである。これは、当該単語を含むNgramの特徴量を要素ごとに平均したベクトルと等価である。|S|が0の場合、文書再構築部115は、単語特徴量が定義できないことを示す特殊トークンNULLを単語特徴量として算出する。なお、単語特徴量の算出式は一例であり、要素ごとの重み付き和及び要素ごとの最大値等でもよい。 (Process E4-4) The document reconstruction unit 115 calculates the vector calculated based on equation (14) as a word feature amount. However, 0 W k is the k-th row vector of the parameter 0 W of GCN. This is equivalent to a vector obtained by averaging the feature amounts of Ngrams containing the word for each element. When |S| is 0, the document reconstruction unit 115 calculates a special token NULL indicating that the word feature cannot be defined as the word feature. Note that the formula for calculating the word feature amount is just an example, and may be a weighted sum for each element, a maximum value for each element, or the like.

Figure 0007358132000014
Figure 0007358132000014

(処理E4-5)文書再構築部115は、単語インデックス810にuを設定し、単語テキスト811にターゲット文書データ500のp番目の段落文章データ503のu番目の単語を設定し、単語スコア812及び単語特徴量813に式(13)及び式(14)の算出結果を段落スコア807に挿入する。 (Process E4-5) The document reconstruction unit 115 sets u in the word index 810, sets the u-th word of the p-th paragraph sentence data 503 of the target document data 500 in the word text 811, and sets the word score 812 to And the calculation results of equations (13) and (14) are inserted into the word feature amount 813 into the paragraph score 807.

(処理E4-6)文書再構築部115は、uをインクリメントする。 (Process E4-6) The document reconstruction unit 115 increments u.

(処理E4-7)uがターゲット文書データ500のp番目の段落文章データ503の単語数よりも小さい場合、文書再構築部115は、(処理E4-1)に戻る。以上が、ステップS708の処理の説明である。 (Processing E4-7) If u is smaller than the number of words in the p-th paragraph sentence data 503 of the target document data 500, the document reconstruction unit 115 returns to (Processing E4-1). The above is the explanation of the process of step S708.

次に、文書再構築部115は、pをインクリメントする(ステップS709)。 Next, the document reconstruction unit 115 increments p (step S709).

次に、文書再構築部115は、全ての段落についてステップS708の処理を実行したか否かを判定する(ステップS710)。 Next, the document reconstruction unit 115 determines whether the process of step S708 has been executed for all paragraphs (step S710).

具体的には、文書再構築部115は、段落辞書530において文書インデックス531がdとなる行の段落インデックス532の値がPであるとき、(P+p)がPd+1以上であるか否かを判定する。(P+p)がPd+1より小さいと判定された場合、文書再構築部115は、ステップS708の処理を実行していない段落が少なくとも一つ存在する判定する。 Specifically, the document reconstruction unit 115 determines whether (P d +p) is greater than or equal to P d +1 when the value of the paragraph index 532 of the line whose document index 531 is d in the paragraph dictionary 530 is P d. Determine whether If it is determined that (P d +p) is smaller than P d+1 , the document reconstruction unit 115 determines that there is at least one paragraph for which the process of step S708 has not been executed.

ステップS708の処理を実行していない段落が少なくとも一つ存在すると判定された場合、文書再構築部115は、ステップS708に戻り、同様の処理を実行する。 If it is determined that there is at least one paragraph for which the process of step S708 has not been performed, the document reconstruction unit 115 returns to step S708 and executes the same process.

全ての段落についてステップS708の処理をしたと判定された場合、文書再構築部115は、全ての文書データ500の再構築文書データ800を生成したか否かを判定する(ステップS711)。 If it is determined that all the paragraphs have been processed in step S708, the document reconstruction unit 115 determines whether or not the reconstructed document data 800 of all the document data 500 has been generated (step S711).

再構築文書データ800を作成していない文書データ500が少なくとも一つ存在する場合、文書再構築部115は、ステップS702に戻り、同様の処理を実行する。 If there is at least one document data 500 for which the reconstructed document data 800 has not been created, the document reconstruction unit 115 returns to step S702 and executes the same process.

全ての文書データ500の再構築文書データ800を生成したと判定された場合、文書再構築部115は処理を終了する。 If it is determined that the reconstructed document data 800 of all the document data 500 has been generated, the document reconstruction unit 115 ends the process.

以上が、文書再構築部115が実行する処理の説明である。 The above is an explanation of the processing executed by the document reconstruction unit 115.

表示部116は、文書再構築部115によって生成された再構築文書データ800に基づいて、分類結果及び根拠箇所をユーザに提示する。 The display unit 116 presents the classification result and the basis location to the user based on the reconstructed document data 800 generated by the document reconstruction unit 115.

図9及び図10を用いて、表示部116が実行する処理について説明する。図9は、実施例1の表示部116によって提示されるユーザインタフェース900の一例を説明する図である。図10は、実施例1の表示部116が実行する処理の一例を説明するフローチャートである。 Processing executed by the display unit 116 will be described using FIGS. 9 and 10. FIG. 9 is a diagram illustrating an example of a user interface 900 presented by the display unit 116 of the first embodiment. FIG. 10 is a flowchart illustrating an example of processing executed by the display unit 116 of the first embodiment.

ユーザインタフェース900は、ユーザによって選択された文書データ500の入力を受け付ける入力欄901、選択された文書に付与された分類の一覧を表示する表示欄902、及び選択された文書を表示する表示欄903から構成される。表示欄903には、根拠箇所904がハイライトにて強調表示される。 The user interface 900 includes an input field 901 that accepts input of document data 500 selected by the user, a display field 902 that displays a list of classifications assigned to the selected document, and a display field 903 that displays the selected document. It consists of In the display field 903, a proof point 904 is highlighted and displayed.

図9に示すユーザインタフェース900は一例であり、異なる構成要素、構成要素の位置関係、根拠箇所904の強調方式、表示の媒体、及びインタフェースの媒体を有していてもよい。また、文書全体を縮小表示する縮小表示欄905、文書全体の表示部分を示すウィンドウ906を含んでもよい。ウィンドウ906で指定された箇所が表示欄903に拡大表示される。 The user interface 900 shown in FIG. 9 is an example, and may have different components, positional relationships of the components, emphasis method for the evidence point 904, display medium, and interface medium. It may also include a reduced display field 905 that displays the entire document in reduced size, and a window 906 that shows the displayed portion of the entire document. The location specified in the window 906 is enlarged and displayed in the display field 903.

表示部116は、文書再構築部115によって生成された再構築文書データ800を取得する(ステップS1001)。 The display unit 116 acquires the reconstructed document data 800 generated by the document reconstruction unit 115 (step S1001).

次に、表示部116は、表示対象の文書を指定するユーザ入力を受けつける(ステップS1002)。 Next, the display unit 116 receives a user input specifying a document to be displayed (step S1002).

具体的には、表示部116は入力欄901への入力を受け付ける。入力欄901には再構築文書データ800のインデックス801が入力される。入力欄901に設定された値は変数dに格納される。ここで、選択された再構築文書データ800のスコア802をとする。 Specifically, the display unit 116 accepts input to the input field 901. An index 801 of the reconstructed document data 800 is input into the input field 901 . The value set in the input field 901 is stored in the variable d. Here, the score 802 of the selected reconstructed document data 800 is assumed to be D q d .

なお、入力欄901には、公開番号、出願人、又は検索キーワード等を入力してもよい。この場合、表示部116は、入力された値に基づいて再構築文書データ800を検索し、検索結果をユーザに提示する。ユーザは、検索結果に基づいて文書を選択する。 Note that the publication number, applicant, search keyword, etc. may be entered in the input field 901. In this case, the display unit 116 searches the reconstructed document data 800 based on the input value and presents the search results to the user. The user selects documents based on the search results.

次に、表示部116は、選択された再構築文書データ800の段落データ805のループ処理を開始する(ステップS1003)。 Next, the display unit 116 starts loop processing of the paragraph data 805 of the selected reconstructed document data 800 (step S1003).

具体的には、表示部116は、選択された再構築文書データ800の段落データ805の中から一つのターゲット段落データ805を選択する。ここで、ターゲット段落データ805の段落インデックス806をp、ターゲット段落データ805の段落スコア807をd,pとする。 Specifically, the display unit 116 selects one target paragraph data 805 from among the paragraph data 805 of the selected reconstructed document data 800. Here, the paragraph index 806 of the target paragraph data 805 is assumed to be p, and the paragraph score 807 of the target paragraph data 805 is assumed to be P q d,p .

次に、表示部116は、ターゲット段落データの背景色を算出する(ステップS1004)。 Next, the display unit 116 calculates the background color of the target paragraph data (step S1004).

具体的には、表示部116は、式(15)及び式(16)から算出した値lに基づいて、色相0度、輝度l×100%、彩度100%を背景色に設定する。 Specifically, the display unit 116 sets the background color to a hue of 0 degrees, a brightness of l×100%, and a saturation of 100%, based on the value l calculated from equations (15) and (16).

Figure 0007358132000015
Figure 0007358132000015

Figure 0007358132000016
Figure 0007358132000016

次に、表示部116は、ターゲット段落データ805の文章を表示する(ステップS1005)。 Next, the display unit 116 displays the text of the target paragraph data 805 (step S1005).

具体的には、表示部116は、ターゲット段落データ805に含まれる各単語データ809の単語テキスト811を単語インデックス810に対して昇順となるように前述した背景色で描画する。 Specifically, the display unit 116 draws the word text 811 of each word data 809 included in the target paragraph data 805 in ascending order with respect to the word index 810 in the background color described above.

次に、表示部116は、選択された再構築文書データ800の全ての段落データ805について処理を実行したか否かを判定する(ステップS1006)。 Next, the display unit 116 determines whether processing has been performed on all paragraph data 805 of the selected reconstructed document data 800 (step S1006).

処理を実行していない段落データ805が少なくとも一つ存在すると判定された場合、表示部116は、ステップS1003に戻り、同様の処理を実行する。 If it is determined that there is at least one piece of paragraph data 805 that has not been processed, the display unit 116 returns to step S1003 and executes the same process.

全ての段落データ805について処理を実行したと判定された場合、表示部116は処理を終了する。 If it is determined that the process has been executed for all paragraph data 805, the display unit 116 ends the process.

実施例1によれば、計算機システムは、文書に対して分類結果を付与するとともに、分類付与の根拠となった段落等の根拠箇所をユーザに提示できる。 According to the first embodiment, the computer system can assign a classification result to a document and present to the user the basis of the classification, such as a paragraph.

グラフ600では、文書及び構成要素(段落及び単語)はグラフ600を構成する一つの頂点として扱われるため、従来技術のように、根拠箇所提示の適切さと分類精度との間のトレードオフの関係が生じることなく、分類結果及び根拠を提示できる。 In the graph 600, documents and constituent elements (paragraphs and words) are treated as one vertex constituting the graph 600, so there is no trade-off between the appropriateness of evidence point presentation and classification accuracy, as in the prior art. It is possible to present the classification results and the basis without causing any problems.

なお、段落を陽に頂点として設けない場合でも、後処理として各段落に含まれるNgramのクラス確率値から各段落に対するクラス確率値を求めることも可能である。 Note that even if a paragraph is not explicitly provided as a vertex, it is possible to obtain the class probability value for each paragraph from the class probability value of Ngrams included in each paragraph as a post-processing.

実施例2では、図、表、及び式等の文字列とは異なる構成要素(非テキスト要素)を含む文書の分類を行う計算機システムについて説明する。以下、実施例1との差異を中心に実施例2について説明する。 In the second embodiment, a computer system will be described that classifies documents that include constituent elements (non-text elements) such as figures, tables, and formulas that are different from character strings. The second embodiment will be described below, focusing on the differences from the first embodiment.

実施例2の計算機システムの構成は実施例1と同一である。実施例2の計算機100-2のハードウェア構成及びソフトウェア構成は実施例1と同一である。また、実施例2の計算機100-1のハードウェア構成及びソフトウェア構成は実施例1と同一である。 The configuration of the computer system of the second embodiment is the same as that of the first embodiment. The hardware configuration and software configuration of the computer 100-2 in the second embodiment are the same as those in the first embodiment. Further, the hardware configuration and software configuration of the computer 100-1 of the second embodiment are the same as those of the first embodiment.

実施例2では、グラフ構築部110は、非テキスト要素を含む段落を頂点とするグラフ600を生成する点が実施例1と異なる。具体的には、図2のステップS203及びステップS208の処理の内容が異なる。 The second embodiment differs from the first embodiment in that the graph construction unit 110 generates a graph 600 whose vertices are paragraphs containing non-text elements. Specifically, the contents of the processes in step S203 and step S208 in FIG. 2 are different.

図11から図13を用いて、実施例2のグラフ構築部110が実行する処理について説明する。図11及び図12は、実施例2のグラフ構築部110が実行する処理を説明するフローチャートである。図13A及び図13Bは、実施例2のグラフ構築部110が実行する処理におけるデータの入出力を説明する図である。 Processing executed by the graph construction unit 110 of the second embodiment will be described using FIGS. 11 to 13. 11 and 12 are flowcharts illustrating processing executed by the graph construction unit 110 of the second embodiment. 13A and 13B are diagrams illustrating data input/output in processing executed by the graph construction unit 110 of the second embodiment.

まず、図11を用いて実施例2のステップS203において実行される処理について説明する。 First, the process executed in step S203 of the second embodiment will be described using FIG. 11.

グラフ構築部110は、ターゲット文書データ500の段落データ1301のループ処理を開始する(ステップS1101)。 The graph construction unit 110 starts loop processing of the paragraph data 1301 of the target document data 500 (step S1101).

具体的には、グラフ構築部110は、ターゲット文書データ500の複数の段落データ1301の中から一つのターゲット段落データ1301を選択する。 Specifically, the graph construction unit 110 selects one target paragraph data 1301 from among the plurality of paragraph data 1301 of the target document data 500.

ターゲット段落データ1301が図面である場合、グラフ構築部110は、図面に光学文字認識(OCR)を適用して、テキストを抽出する(ステップS1102)。ターゲット段落データ1301が図面ではない場合、ステップS1102の処理は省略される。 If the target paragraph data 1301 is a drawing, the graph construction unit 110 applies optical character recognition (OCR) to the drawing to extract text (step S1102). If the target paragraph data 1301 is not a drawing, the process of step S1102 is omitted.

次に、グラフ構築部110は、ターゲット段落データ1301のテキストを形態素の単位に分解する(ステップS1103)。ステップS1103の処理はステップS302の処理と同一である。 Next, the graph construction unit 110 decomposes the text of the target paragraph data 1301 into units of morphemes (step S1103). The processing in step S1103 is the same as the processing in step S302.

次に、グラフ構築部110は、ターゲット段落データ1301の単語から単語Ngramを抽出し、段落Ngramデータ504としてターゲット文書データ500に格納する(ステップS1104)。ステップS1104の処理は、ステップS303の処理と同一である。 Next, the graph construction unit 110 extracts the word Ngram from the words of the target paragraph data 1301, and stores it in the target document data 500 as the paragraph Ngram data 504 (step S1104). The processing in step S1104 is the same as the processing in step S303.

次に、グラフ構築部110は、ターゲット文書データ500に含まれる全ての段落データ1301について処理を実行したか否かを判定する(ステップS1105)。 Next, the graph construction unit 110 determines whether processing has been performed on all paragraph data 1301 included in the target document data 500 (step S1105).

処理を実行していない段落データ1301が少なくとも一つ存在する場合、グラフ構築部110は、ステップS1101に戻り、同様の処理を実行する。全ての段落データ1301について処理を実行したと判定された場合、グラフ構築部110は、文書データの前処理を終了し、ステップS204に進む。 If there is at least one piece of paragraph data 1301 that has not been processed, the graph construction unit 110 returns to step S1101 and executes the same process. If it is determined that all the paragraph data 1301 have been processed, the graph construction unit 110 ends the preprocessing of the document data and proceeds to step S204.

次に、図12を用いて実施例2のステップS208において実行される処理について説明する。 Next, the process executed in step S208 of the second embodiment will be described using FIG. 12.

グラフ構築部110は、文書-文書行列522(Ad-d)を更新する(ステップS1201)。ステップS1201の処理はステップS401の処理と同一である。 The graph construction unit 110 updates the document-document matrix 522 (A dd ) (step S1201). The processing in step S1201 is the same as the processing in step S401.

次に、グラフ構築部110は、文書-段落行列523(Ad-p)を更新する(ステップS1202)。ステップS1202の処理はステップS402の処理と同一である。 Next, the graph construction unit 110 updates the document-paragraph matrix 523 (A dp ) (step S1202). The processing in step S1202 is the same as the processing in step S402.

次に、グラフ構築部110は、文書-Ngram行列524(Ad-w)を更新する(ステップS1203)。ステップS1203の処理はステップS403の処理と同一である。 Next, the graph construction unit 110 updates the document-Ngram matrix 524 (A dw ) (step S1203). The processing in step S1203 is the same as the processing in step S403.

次に、グラフ構築部110は、段落辞書530を更新する(ステップS1204)。ステップS1204の処理はステップS404の処理と同一である。 Next, the graph construction unit 110 updates the paragraph dictionary 530 (step S1204). The processing in step S1204 is the same as the processing in step S404.

次に、グラフ構築部110は、ターゲット文書データ500の段落Ngramデータ504のループ処理を開始する(ステップS1205)。ステップS1205の処理はステップS405の処理と同一である。 Next, the graph construction unit 110 starts loop processing of the paragraph Ngram data 504 of the target document data 500 (step S1205). The processing in step S1205 is the same as the processing in step S405.

次に、グラフ構築部110は、段落-段落行列525(Ap-p)を更新する(ステップS1206)。具体的には、以下のような処理が実行される。 Next, the graph construction unit 110 updates the paragraph-paragraph matrix 525 (A pp ) (step S1206). Specifically, the following processing is executed.

(処理F1)グラフ構築部110は、各文書の段落の合計値と同じ要素数の零ベクトルを段落-段落行列525(Ap-p)のc行目に追加する。 (Process F1) The graph construction unit 110 adds a zero vector with the same number of elements as the total value of the paragraphs of each document to the cth row of the paragraph-paragraph matrix 525 (A pp ).

(処理F2)グラフ構築部110は、段落-段落行列525(Ap-p)のc行c列の要素に1を格納する。この1は段落から段落への自己ループに相当する。 (Processing F2) The graph construction unit 110 stores 1 in the element in the c row and c column of the paragraph-paragraph matrix 525 (A pp ). This 1 corresponds to a self-loop from paragraph to paragraph.

(処理F3)ターゲット段落Ngramデータ504が画像の段落データ1301に由来する場合、グラフ構築部110は、ターゲット段落Ngramデータ504に対応する段落データ1301の図番号を照応している各段落について、段落カウンタcに対応する該段落の番号がc’であるとき、段落-段落行列525(Ap-p)のc行c’列の要素とc’行c列の要素に1を格納する。ターゲット段落Ngramデータ504に対応する段落データ1301の図番号を照応している各段落は、例えば図番号が1である場合は正規表現「図1[^0-9]」などによって取得することできる。 (Processing F3) When the target paragraph Ngram data 504 is derived from the paragraph data 1301 of the image, the graph construction unit 110 constructs the paragraph When the number of the paragraph corresponding to counter c is c', 1 is stored in the element at row c and column c' and the element at row c' and column c of the paragraph-paragraph matrix 525 (A pp ). For example, if the figure number is 1, each paragraph corresponding to the figure number of the paragraph data 1301 corresponding to the target paragraph Ngram data 504 can be obtained using the regular expression "Figure 1 [^0-9]". .

(処理F4)ターゲット段落Ngramデータ504が画像の段落データ1301に由来し、かつ、当該段落データ1301が幾何学的な情報を有する図等の種別である場合、グラフ構築部110は、ターゲット段落Ngramデータ504に対応する段落データ1301に類似している各段落データ1301について、当該画像に対応する段落の段落カウンタcに対応する番号がc’であるとき、段落-段落行列525(Ap-p)のc行c’列の要素とc’行c列の要素に類似度の値を格納する。類似度の値は画像のHOG特徴量のBag-of-Visual-Wordsなどによって算出できる。ある二つの画像が類似しているか否かは、類似度と閾値の比較結果に基づいて判定できる。以上がステップS1206の処理の説明である。 (Processing F4) If the target paragraph Ngram data 504 is derived from the image paragraph data 1301, and the paragraph data 1301 is of a type such as a diagram having geometric information, the graph construction unit 110 For each paragraph data 1301 that is similar to the paragraph data 1301 corresponding to the data 504, when the number corresponding to the paragraph counter c of the paragraph corresponding to the image is c', the paragraph-paragraph matrix 525 (A pp ), the similarity value is stored in the element in row c and column c' and the element in row c' and column c. The similarity value can be calculated using Bag-of-Visual-Words of the HOG feature amount of the image. Whether or not two images are similar can be determined based on the comparison result between the degree of similarity and the threshold value. The above is the explanation of the processing in step S1206.

次に、グラフ構築部110は、段落-Ngram行列526(Ap-w)を更新する(ステップS1207)。ステップS1207の処理は、ステップS407の処理と同一である。 Next, the graph construction unit 110 updates the paragraph-Ngram matrix 526 (A pw ) (step S1207). The processing in step S1207 is the same as the processing in step S407.

次に、グラフ構築部110は、全ての段落Ngramデータ504について処理を実行したか否かを判定する(ステップS1208)。 Next, the graph construction unit 110 determines whether processing has been performed on all paragraph Ngram data 504 (step S1208).

処理を実行していない段落Ngramデータ504が少なくとも一つ存在すると判定された場合、グラフ構築部110は、ステップS1205に戻り、同様の処理を実行する。 If it is determined that there is at least one paragraph Ngram data 504 that has not been processed, the graph construction unit 110 returns to step S1205 and executes the same process.

全ての段落Ngramデータ504について処理を実行したと判定された場合、グラフ構築部110はステップS208の処理を終了し、ステップS209に進む。 If it is determined that the process has been executed for all the paragraph Ngram data 504, the graph construction unit 110 ends the process of step S208 and proceeds to step S209.

実施例2の分類モデル学習部112、分類部114、文書再構築部115、及び表示部116が実行する処理は実施例1と同一である。 The processing executed by the classification model learning section 112, the classification section 114, the document reconstruction section 115, and the display section 116 of the second embodiment is the same as that of the first embodiment.

実施例2によれば、計算機システムは、図、表、及び式等の非テキスト要素を含む文書に対して分類結果を付与するとともに、分類の付与の根拠となった段落等の根拠箇所をユーザに提示できる。 According to the second embodiment, the computer system assigns a classification result to a document that includes non-text elements such as figures, tables, and formulas, and also provides the user with the basis for assigning the classification, such as a paragraph. can be presented.

実施例3では、計算機100-2は、段落とは異なる粒度の根拠箇所をユーザに提示する。以下、実施例1との差異を中心に実施例3について説明する。 In the third embodiment, the computer 100-2 presents the user with evidence points that have a different granularity than paragraphs. The third embodiment will be described below, focusing on the differences from the first embodiment.

実施例3の計算機システムの構成は実施例1と同一である。実施例3の計算機100-1のハードウェア構成及びソフトウェア構成は実施例1と同一である。実施例3の計算機100-2のハードウェア構成及びソフトウェア構成は実施例1と同一である。また、実施例3の分類モデル学習部112、分類モデル情報113、分類部114、文書再構築部115が実行する処理は実施例1と同一である。 The configuration of the computer system of the third embodiment is the same as that of the first embodiment. The hardware configuration and software configuration of the computer 100-1 in the third embodiment are the same as those in the first embodiment. The hardware configuration and software configuration of the computer 100-2 in the third embodiment are the same as those in the first embodiment. Further, the processing executed by the classification model learning section 112, classification model information 113, classification section 114, and document reconstruction section 115 of the third embodiment is the same as that of the first embodiment.

実施例3のグラフ構築部110、分類モデル学習部112、分類モデル情報113、分類部114、文書再構築部115が実行する処理は実施例1と同一である。 The processes executed by the graph construction unit 110, classification model learning unit 112, classification model information 113, classification unit 114, and document reconstruction unit 115 of the third embodiment are the same as those of the first embodiment.

実施例3では、表示部116が、段落ではなく単語の粒度で根拠箇所をユーザに提示する点が異なる。具体的には、図10のステップS1004の処理が異なる。 The third embodiment differs in that the display unit 116 presents the evidence to the user in word granularity rather than in paragraphs. Specifically, the processing in step S1004 in FIG. 10 is different.

図14を用いて、実施例3の表示部116が実行する処理について説明する。図14は、実施例3の表示部116が実行する処理におけるユーザインタフェース1400を説明する図である。 Processing executed by the display unit 116 of the third embodiment will be described using FIG. 14. FIG. 14 is a diagram illustrating a user interface 1400 in processing executed by the display unit 116 of the third embodiment.

実施例3におけるユーザインタフェース1400は、入力欄901、表示欄902、及び表示欄903から構成される。実施例3では、表示欄903の根拠箇所1401の粒度が実施例1と異なる。 The user interface 1400 in the third embodiment is composed of an input field 901, a display field 902, and a display field 903. In the third embodiment, the granularity of the evidence point 1401 in the display field 903 is different from that in the first embodiment.

図14に示すユーザインタフェース1400は一例であり、異なる構成要素、構成要素の位置関係、根拠箇所1401の強調方式、表示の媒体、及びインタフェースの媒体を有していてもよい。また、文書全体を縮小表示する縮小表示欄905、文書全体の表示部分を示すウィンドウ906を含んでもよい。ウィンドウ906で指定された箇所が表示欄903に拡大表示される。 The user interface 1400 shown in FIG. 14 is an example, and may have different components, positional relationships of the components, emphasis method for the evidence point 1401, display medium, and interface medium. It may also include a reduced display field 905 that displays the entire document in reduced size, and a window 906 that shows the displayed portion of the entire document. The location specified in the window 906 is enlarged and displayed in the display field 903.

実施例3におけるステップS1004では、以下のような処理が実行される。 In step S1004 in the third embodiment, the following processing is executed.

(処理G1)表示部116は、ターゲット段落データ805の単語データ809のループ処理を開始する。具体的には、表示部116は、ターゲット段落データ805の単語データ809の中から一つのターゲット単語データ809を選択する。ここでは、ターゲット単語データ809の単語インデックス810をt、ターゲット単語データ809の単語スコア812をd,p,tとする。 (Processing G1) The display unit 116 starts loop processing of the word data 809 of the target paragraph data 805. Specifically, the display unit 116 selects one target word data 809 from among the word data 809 of the target paragraph data 805. Here, the word index 810 of the target word data 809 is assumed to be t, and the word score 812 of the target word data 809 is assumed to be W q d, p, t .

(処理G2)表示部116は、ターゲット単語データ809の背景色を算出する。具体的には、式(17)及び式(18)から算出した値lに基づいて、色相0度、輝度l×100%、彩度100%を背景色に設定する。 (Processing G2) The display unit 116 calculates the background color of the target word data 809. Specifically, based on the value l calculated from equations (17) and (18), the background color is set to a hue of 0 degrees, a brightness of l×100%, and a saturation of 100%.

Figure 0007358132000017
Figure 0007358132000017

Figure 0007358132000018
Figure 0007358132000018

(処理G3)表示部116は、ターゲット段落データ805の全ての単語データ809について背景色を算出したか否かを判定する。少なくとも一つの単語データ809について背景色が算出されていない場合、表示部116は、処理G1に戻り、同様の処理を実行する。 (Process G3) The display unit 116 determines whether the background color has been calculated for all word data 809 of the target paragraph data 805. If the background color has not been calculated for at least one word data 809, the display unit 116 returns to process G1 and executes the same process.

実施例3によれば、計算機システムは、分類結果ととともに、単語等、段落とは異なる粒度の根拠箇所をユーザに提示できる。 According to the third embodiment, the computer system can present to the user, along with the classification results, evidence points such as words that have a different granularity than paragraphs.

実施例4では、計算機100-2は、分類結果及び根拠箇所に加えて、文書又は文書の構成要素に関係性がある文書又は文書の構成要素をユーザに提示する。以下、実施例1との差異を中心に実施例4について説明する。 In the fourth embodiment, the computer 100-2 presents the user with documents or document components that are related to the document or document components, in addition to the classification result and the basis location. The fourth embodiment will be described below, focusing on the differences from the first embodiment.

実施例4の計算機システムの構成は実施例1と同一である。実施例4の計算機100-1のハードウェア構成及びソフトウェア構成は実施例2と同一である。実施例4の計算機100-2のハードウェア構成は実施例1と同一である。 The configuration of the computer system of the fourth embodiment is the same as that of the first embodiment. The hardware configuration and software configuration of the computer 100-1 in the fourth embodiment are the same as those in the second embodiment. The hardware configuration of the computer 100-2 in the fourth embodiment is the same as that in the first embodiment.

実施例4では、計算機100-2のソフトウェア構成が一部異なる。図15は、実施例4の計算機100-2の構成例を示す図である。 In the fourth embodiment, the software configuration of the computer 100-2 is partially different. FIG. 15 is a diagram showing an example of the configuration of the computer 100-2 according to the fourth embodiment.

実施例4の計算機100-2のメモリ102には、分類モデル学習部112、分類モデル情報、分類部114、文書再構築部115、及び表示部116を実現するプログラムに加えて関連要素表示部1501を実現するプログラムを格納する。 The memory 102 of the computer 100-2 of the fourth embodiment includes a related element display section 1501 in addition to programs for realizing the classification model learning section 112, classification model information, classification section 114, document reconstruction section 115, and display section 116. Stores the program that realizes this.

実施例4の分類モデル学習部112、分類モデル情報、分類部114、文書再構築部115、及び表示部116は、実施例1と同一の機能である。また、実施例4の分類モデル情報113は実施例1と同一である。 The classification model learning section 112, classification model information, classification section 114, document reconstruction section 115, and display section 116 of the fourth embodiment have the same functions as those of the first embodiment. Furthermore, the classification model information 113 of the fourth embodiment is the same as that of the first embodiment.

関連要素表示部1501は、文書及び根拠箇所に対応する文書の構成要素の特徴量に基づいて、選択された文書又は選択された文書の構成要素に関係性がある文書又は文書の構成要素をユーザに提示する。 The related element display unit 1501 displays documents or document components that are related to the selected document or the selected document components to the user based on the feature amounts of the document components corresponding to the document and the basis location. to be presented.

図16から図18を用いて、実施例4の関連要素表示部1501が実行する処理について説明する。図16は、実施例4の関連要素表示部1501が実行する処理におけるユーザインタフェース1600を説明する図である。図17は、実施例4の関連要素表示部1501が実行する処理の一例を説明するフローチャートである。図18は、実施例4の関連要素表示部1501が実行する処理で使用するデータのデータ構造1800を説明する図である。 Processing executed by the related element display unit 1501 of the fourth embodiment will be described using FIGS. 16 to 18. FIG. 16 is a diagram illustrating a user interface 1600 in the process executed by the related element display unit 1501 of the fourth embodiment. FIG. 17 is a flowchart illustrating an example of processing executed by the related element display unit 1501 of the fourth embodiment. FIG. 18 is a diagram illustrating a data structure 1800 of data used in processing executed by the related element display unit 1501 of the fourth embodiment.

実施例4のユーザインタフェース1600は、ユーザによって選択された文書データ500の入力を受け付ける入力欄1601、選択された文書の代表段落を表示する表示欄1602、選択された文書のキーワードを表示する表示欄1603、選択された文書の代表図面を表示する表示欄1604、選択された文書の関連文書を表示する表示欄1605から構成される。 The user interface 1600 of the fourth embodiment includes an input field 1601 that accepts input of document data 500 selected by the user, a display field 1602 that displays representative paragraphs of the selected document, and a display field that displays keywords of the selected document. 1603, a display field 1604 that displays representative drawings of the selected document, and a display field 1605 that displays related documents of the selected document.

実施例4のユーザインタフェース1600は一例であり、異なる構成要素、構成要素の位置関係、表示の媒体、インタフェースの媒体を有していてもよい。 The user interface 1600 of the fourth embodiment is an example, and may have different components, positional relationships of the components, display medium, and interface medium.

実施例4の関連要素表示部1501が実行する処理で使用するデータのデータ構造1800は、関連段落を格納する所定の長さの優先度付きキュー(Priority Queue)1801、関連画像を格納する所定の長さの優先度付きキュー1802、関連単語を格納する所定の長さの優先度付きキュー1803、関連文書を格納する所定の長さの優先度付きキュー1804から構成される。 A data structure 1800 of data used in the process executed by the related element display unit 1501 of the fourth embodiment includes a priority queue 1801 of a predetermined length for storing related paragraphs, and a predetermined priority queue for storing related images. It consists of a priority queue 1802 of length, a priority queue 1803 of a predetermined length for storing related words, and a priority queue 1804 of a predetermined length for storing related documents.

関連要素表示部1501は、文書再構築部115によって生成された再構築文書データ800を取得する(ステップS1701)。 The related element display unit 1501 acquires the reconstructed document data 800 generated by the document reconstruction unit 115 (step S1701).

次に、関連要素表示部1501は、対象となる再構築文書データ800を指定するユーザ入力を受け付ける(ステップS1702)。 Next, the related element display unit 1501 receives a user input specifying the target reconstructed document data 800 (step S1702).

具体的には、関連要素表示部1501は、入力欄1601への再構築文書データ800のインデックス801の入力を受け付ける。このとき、関連要素表示部1501は、受け付けたインデックス801を変数dに設定する。ここで、選択された再構築文書データ800の文書特徴量804をとする。以下の説明では、選択された再構築文書データ800を選択文書データ800とも記載する。 Specifically, the related element display unit 1501 accepts input of the index 801 of the reconstructed document data 800 into the input field 1601. At this time, the related element display unit 1501 sets the received index 801 to the variable d. Here, it is assumed that the document feature amount 804 of the selected reconstructed document data 800 is D e d . In the following description, the selected reconstructed document data 800 will also be referred to as selected document data 800.

なお、入力欄1601には、公開番号、出願人、又は検索キーワード等を入力してもよい。この場合、関連要素表示部1501は、入力された値に基づいて再構築文書データ800を検索し、検索結果をユーザに提示する。ユーザは、検索結果に基づいて文書を選択する。 Note that the publication number, applicant, search keyword, etc. may be entered in the input field 1601. In this case, the related element display unit 1501 searches the reconstructed document data 800 based on the input value and presents the search results to the user. The user selects documents based on the search results.

次に、関連要素表示部1501は、選択文書データ800の段落データ805のループ処理を開始する(ステップS1703)。 Next, the related element display unit 1501 starts loop processing of the paragraph data 805 of the selected document data 800 (step S1703).

具体的には、関連要素表示部1501は、選択文書データ800の段落データ805の中から一つのターゲット段落データ805を選択する。ここで、ターゲット段落データ805の段落インデックス806をp、ターゲット段落データ805の段落特徴量808をd,pとする。 Specifically, the related element display unit 1501 selects one target paragraph data 805 from among the paragraph data 805 of the selected document data 800. Here, the paragraph index 806 of the target paragraph data 805 is assumed to be p, and the paragraph feature amount 808 of the target paragraph data 805 is assumed to be P e d,p .

次に、関連要素表示部1501は、選択文書データ800及びターゲット段落データ805の類似度を算出する(ステップS1704)。具体的には、以下のような処理が実行される。 Next, the related element display unit 1501 calculates the degree of similarity between the selected document data 800 and the target paragraph data 805 (step S1704). Specifically, the following processing is executed.

関連要素表示部1501は、選択文書データ800の文書特徴量804及びターゲット段落データ805の段落特徴量808を用いて、式(19)に示すコサイン類似度sim(d,p)を類似度として算出する。 The related element display unit 1501 uses the document feature amount 804 of the selected document data 800 and the paragraph feature amount 808 of the target paragraph data 805 to calculate the cosine similarity sim( D e d , P e d,p ) is calculated as the degree of similarity.

Figure 0007358132000019
Figure 0007358132000019

ターゲット段落データ805が画像でなく、かつ、コサイン類似度が所定の閾値より大きい場合、関連要素表示部1501は、関連段落を格納する優先度付きキュー1801に、コサイン類似度を優先度としてターゲット段落データ805の段落インデックス806を挿入する。ターゲット段落データ805が画像であり、かつ、コサイン類似度が所定の閾値より大きい場合、関連要素表示部1501は、関連画像を格納する優先度付きキュー1802に、コサイン類似度を優先度としてターゲット段落データ805の段落インデックス806を挿入する。以上がステップS1704の処理の説明である。 If the target paragraph data 805 is not an image and the cosine similarity is greater than a predetermined threshold, the related element display unit 1501 stores the target paragraph in the priority queue 1801 that stores related paragraphs with the cosine similarity as the priority. A paragraph index 806 of data 805 is inserted. If the target paragraph data 805 is an image and the cosine similarity is larger than a predetermined threshold, the related element display unit 1501 stores the target paragraph in the priority queue 1802 that stores related images with the cosine similarity as the priority. A paragraph index 806 of data 805 is inserted. The above is the explanation of the process in step S1704.

次に、関連要素表示部1501は、ターゲット段落データ805の単語データ809のループ処理を開始する(ステップS1705)。 Next, the related element display unit 1501 starts loop processing of the word data 809 of the target paragraph data 805 (step S1705).

具体的には、関連要素表示部1501は、ターゲット段落データ805の単語データ809の中から一つのターゲット単語データ809を選択する。ここで、ターゲット単語データ809の単語インデックス810をt、ターゲット単語データ809の単語特徴量813をとする。 Specifically, the related element display unit 1501 selects one target word data 809 from among the word data 809 of the target paragraph data 805. Here, the word index 810 of the target word data 809 is t, and the word feature amount 813 of the target word data 809 is Wet .

次に、関連要素表示部1501は、選択文書データ800及びターゲット単語データ809の類似度を算出する(ステップS1706)。具体的には、以下のような処理が実行される。 Next, the related element display unit 1501 calculates the degree of similarity between the selected document data 800 and the target word data 809 (step S1706). Specifically, the following processing is executed.

関連要素表示部1501は、選択文書データ800の文書特徴量804及びターゲット単語データ809の単語特徴量813を用いて、式(19)に示すコサイン類似度を類似度として算出する。 The related element display unit 1501 uses the document feature amount 804 of the selected document data 800 and the word feature amount 813 of the target word data 809 to calculate the cosine similarity shown in equation (19) as the similarity.

コサイン類似度が所定の閾値より大きい場合、関連要素表示部1501は、関連単語を格納する優先度付きキュー1803に、コサイン類似度を優先度としてターゲット単語データ809の単語インデックス810を挿入する。以上がステップS1706の処理の説明である。 If the cosine similarity is greater than a predetermined threshold, the related element display unit 1501 inserts the word index 810 of the target word data 809 into the priority queue 1803 that stores related words, with the cosine similarity as the priority. The above is the explanation of the process in step S1706.

次に、関連要素表示部1501は、ターゲット段落データ805の全ての単語データ809について処理を実行したか否かを判定する(ステップS1707)。 Next, the related element display unit 1501 determines whether processing has been performed on all word data 809 of the target paragraph data 805 (step S1707).

処理を実行していない単語データ809が少なくとも一つ存在すると判定された場合、関連要素表示部1501は、ステップS1705に戻り、同様の処理を実行する。 If it is determined that there is at least one piece of word data 809 that has not been processed, the related element display unit 1501 returns to step S1705 and executes the same process.

ターゲット段落データ805の全ての単語データ809の処理を実行したと判定された場合、関連要素表示部1501は、選択文書データ800の全ての段落データ805について処理を実行したか否かを判定する(ステップS1708)。 If it is determined that all the word data 809 of the target paragraph data 805 have been processed, the related element display unit 1501 determines whether or not all the paragraph data 805 of the selected document data 800 have been processed ( Step S1708).

処理を実行していない段落データ805が少なくとも一つ存在すると判定された場合、関連要素表示部1501は、ステップS1703に戻り、同様の処理を実行する。 If it is determined that there is at least one piece of paragraph data 805 that has not been processed, the related element display unit 1501 returns to step S1703 and executes the same process.

選択文書データ800の全ての段落データ805について処理を実行したと判定された場合、関連要素表示部1501は、選択文書データ800を除く再構築文書データ800のループ処理を開始する(ステップS1709)。 If it is determined that the process has been executed for all paragraph data 805 of the selected document data 800, the related element display unit 1501 starts loop processing of the reconstructed document data 800 excluding the selected document data 800 (step S1709).

具体的には、関連要素表示部1501は、選択文書データ800を除く再構築文書データ800の中から一つのターゲット再構築文書データ800を選択する。ここで、ターゲット再構築文書データ800のインデックス801をd’、ターゲット再構築文書データ800の文書特徴量804をd’とする。 Specifically, the related element display unit 1501 selects one target reconstructed document data 800 from among the reconstructed document data 800 excluding the selected document data 800. Here, it is assumed that the index 801 of the target reconstructed document data 800 is d', and the document feature amount 804 of the target reconstructed document data 800 is D e d' .

次に、関連要素表示部1501は、選択文書データ800及びターゲット再構築文書データ800の類似度を算出する(ステップS1710)。具体的には、以下のような処理が実行される。 Next, the related element display unit 1501 calculates the degree of similarity between the selected document data 800 and the target reconstructed document data 800 (step S1710). Specifically, the following processing is executed.

関連要素表示部1501は、選択文書データ800の文書特徴量804及びターゲット再構築文書データ800の文書特徴量804を用いて、式(19)に示すコサイン類似度を類似度として算出する。 The related element display unit 1501 uses the document feature amount 804 of the selected document data 800 and the document feature amount 804 of the target reconstructed document data 800 to calculate the cosine similarity shown in equation (19) as the similarity.

コサイン類似度が所定の閾値より大きい場合、関連要素表示部1501は、関連文書を格納する優先度付きキュー1804に、コサイン類似度を優先度としてターゲット再構築文書データ800のインデックス801を挿入する。以上がステップS1710の処理の説明である。 If the cosine similarity is greater than a predetermined threshold, the related element display unit 1501 inserts the index 801 of the target reconstructed document data 800 into the priority queue 1804 that stores related documents, with the cosine similarity as the priority. The above is the explanation of the process in step S1710.

次に、関連要素表示部1501は、ユーザインタフェース1600を表示する(ステップS1712)。 Next, the related element display unit 1501 displays the user interface 1600 (step S1712).

具体的には、関連要素表示部1501は、優先度付きキュー1801に格納された各段落インデックス806に対応する段落文章データ503を表示欄1602に表示する。関連要素表示部1501は、優先度付きキュー1802に格納された各段落インデックス806に対応する段落データ1301を表示欄1604に表示する。関連要素表示部1501は、優先度付きキュー1803に格納された各単語インデックス810に対応する単語テキスト811を表示欄1603に表示する。また、関連要素表示部1501は、優先度付きキュー1804に格納された各インデックス801を表示欄1605に表示する。 Specifically, the related element display unit 1501 displays paragraph text data 503 corresponding to each paragraph index 806 stored in the priority queue 1801 in the display column 1602. The related element display unit 1501 displays paragraph data 1301 corresponding to each paragraph index 806 stored in the priority queue 1802 in a display column 1604. The related element display unit 1501 displays word text 811 corresponding to each word index 810 stored in the priority queue 1803 in a display column 1603. Further, the related element display unit 1501 displays each index 801 stored in the priority queue 1804 in a display column 1605.

実施例4では、ループ処理に基づいて文書又は文書の構成要素に関係性がある文書又は文書の構成要素をユーザに提示する方法について説明したが、ループ処理の代わりにFLANN等の近似K近傍探索法を用いてもよい。 In the fourth embodiment, a method of presenting documents or document components related to documents or document components to the user based on loop processing was described, but instead of loop processing, an approximate K-neighbor search such as FLANN is used. You may also use the law.

実施例4によれば、計算機システムは、選択された文書又は選択された文書の構成要素に関係性がある文書又は文書の構成要素をユーザに提示することができる。 According to the fourth embodiment, the computer system can present to the user documents or document components that are related to the selected document or the components of the selected document.

実施例5では、分類モデル学習部112が、文書及び文の構成要素の各々に付与された一つ以上の正解ラベルに基づいて分類モデルを学習する。以下、実施例1との差異を中心に実施例5について説明する。 In the fifth embodiment, the classification model learning unit 112 learns a classification model based on one or more correct labels given to each of the constituent elements of a document and a sentence. Example 5 will be described below, focusing on the differences from Example 1.

実施例5の計算機システムの構成は実施例1と同一である。実施例5の計算機100-1、100-2のハードウェア構成及びソフトウェア構成は実施例1と同一である。 The configuration of the computer system of the fifth embodiment is the same as that of the first embodiment. The hardware and software configurations of computers 100-1 and 100-2 in the fifth embodiment are the same as those in the first embodiment.

実施例5の分類モデル学習部112、分類部114、文書再構築部115、及び表示部116が実行する処理は実施例1と同一である。 The processing executed by the classification model learning section 112, the classification section 114, the document reconstruction section 115, and the display section 116 of the fifth embodiment is the same as that of the first embodiment.

実施例5のグラフ構築部110は、文書に付与された正解ラベルだけではなく、構想要素に付与された一つ以上の正解ラベルも受けつける点が異なる。具体的には、図2のステップS203及びステップS211の処理が異なる。 The graph construction unit 110 of the fifth embodiment differs in that it accepts not only the correct label given to the document but also one or more correct labels given to the conceptual elements. Specifically, the processes in step S203 and step S211 in FIG. 2 are different.

ここで、構成要素に付与される正解ラベルは根拠箇所か否かを示すラベルに相当する。以下の説明では、文書に付与された正解ラベルを文書ラベルと記載し、構成要素の一つである段落に付与された正解ラベルを段落ラベルと記載する。 Here, the correct label given to the component corresponds to a label indicating whether it is a basis part or not. In the following description, a correct label given to a document will be referred to as a document label, and a correct label given to a paragraph, which is one of the constituent elements, will be referred to as a paragraph label.

図3、図19A、図19B、及び図20を用いて、実施例5のグラフ構築部110が実行する処理について説明する。図19A及び図19Bは、実施例5のグラフ構築部110が実行する処理におけるデータの入出力を説明する図である。図20は、実施例5のグラフ構築部110が実行するステップS211の一例を説明するフローチャートである。 Processing executed by the graph construction unit 110 of the fifth embodiment will be described using FIG. 3, FIG. 19A, FIG. 19B, and FIG. 20. 19A and 19B are diagrams illustrating data input/output in processing executed by the graph construction unit 110 of the fifth embodiment. FIG. 20 is a flowchart illustrating an example of step S211 executed by the graph construction unit 110 of the fifth embodiment.

実施例5におけるステップS203では、以下のような処理が実行される。 In step S203 in the fifth embodiment, the following processing is executed.

グラフ構築部110は、ターゲット文書データ500の段落データ1901のループ処理を開始する(ステップS301)。 The graph construction unit 110 starts loop processing of the paragraph data 1901 of the target document data 500 (step S301).

具体的には、グラフ構築部110は、ターゲット文書データ500に含まれる複数の段落データ1901の中から一つのターゲット段落データ1901を選択する。 Specifically, the graph construction unit 110 selects one target paragraph data 1901 from a plurality of paragraph data 1901 included in the target document data 500.

次に、グラフ構築部110は、ターゲット段落データ1901のテキストデータ1902を形態素の単位に分解する(ステップS302)。 Next, the graph construction unit 110 decomposes the text data 1902 of the target paragraph data 1901 into units of morphemes (step S302).

なお、分割の単位は文字及びバイト対符号化等、形態素以下の単位、又は複数の単語から構成されるフレーズ等でもよい。このとき、文章に頻出する句読点及び助動詞等のストップワードを除去する処理、並びに、形態素を原型に戻す処理が行われてもよい。 Note that the unit of division may be a unit smaller than a morpheme, such as character and byte pair encoding, or a phrase composed of a plurality of words. At this time, processing may be performed to remove stop words such as punctuation marks and auxiliary verbs that frequently appear in sentences, and processing to return morphemes to their original forms.

次に、グラフ構築部110は、ターゲット段落データ1901の単語から単語Ngramを抽出し、段落Ngramデータ504としてターゲット文書データ500に格納する(ステップS303)。 Next, the graph construction unit 110 extracts the word Ngram from the words of the target paragraph data 1901, and stores it in the target document data 500 as the paragraph Ngram data 504 (step S303).

次に、グラフ構築部110は、ターゲット文書データ500に含まれる全ての段落データ1901について処理を実行したか否かを判定する(ステップS304)。 Next, the graph construction unit 110 determines whether processing has been performed on all paragraph data 1901 included in the target document data 500 (step S304).

処理を実行していない段落データ1901が少なくとも一つ存在すると判定された場合、グラフ構築部110は、ステップS301に戻り、同様の処理を実行する。 If it is determined that there is at least one piece of paragraph data 1901 that has not been processed, the graph construction unit 110 returns to step S301 and executes the same process.

ターゲット文書データ500に含まれる全ての段落データ1901について処理を実行したと判定された場合、グラフ構築部110は、文書データの前処理を終了し、ステップS204に進む。 If it is determined that all the paragraph data 1901 included in the target document data 500 have been processed, the graph construction unit 110 ends the preprocessing of the document data and proceeds to step S204.

実施例5におけるステップS211では、以下のような処理が実行される。 In step S211 in the fifth embodiment, the following processing is executed.

グラフ構築部110は、正解ラベルベクトル540を初期化する(ステップS2001)。 The graph construction unit 110 initializes the correct label vector 540 (step S2001).

具体的には、グラフ構築部110は、要素数がNかつ全ての要素が0であるベクトルを正解ラベルベクトル540として設定する。また、グラフ構築部110は、段落番号カウンタcを0に初期化する。 Specifically, the graph construction unit 110 sets a vector in which the number of elements is N and all elements are 0 as the correct label vector 540. The graph construction unit 110 also initializes the paragraph number counter c to 0.

次に、グラフ構築部110は、文書データ500のループ処理を開始する(ステップS2002)。 Next, the graph construction unit 110 starts loop processing of the document data 500 (step S2002).

具体的には、グラフ構築部110は、複数の文書データ500の中から一つのターゲット文書データ500を選択する。ここで、ターゲット文書データ500のインデックス501をdとする。 Specifically, the graph construction unit 110 selects one target document data 500 from among the plurality of document data 500. Here, the index 501 of the target document data 500 is assumed to be d.

次に、グラフ構築部110は、正解ラベルベクトル540のd番目の要素にターゲット文書データ500のラベル502の値を格納する(ステップS2003)。 Next, the graph construction unit 110 stores the value of the label 502 of the target document data 500 in the d-th element of the correct label vector 540 (step S2003).

次に、グラフ構築部110は、ターゲット文書データ500の段落データ1901のループ処理を開始する(ステップS2004)。 Next, the graph construction unit 110 starts loop processing of the paragraph data 1901 of the target document data 500 (step S2004).

具体的には、グラフ構築部110は、ターゲット文書データ500の複数の段落データ1901の中から一つのターゲット段落データ1901を選択する。 Specifically, the graph construction unit 110 selects one target paragraph data 1901 from among the plurality of paragraph data 1901 of the target document data 500.

次に、グラフ構築部110は、正解ラベルベクトル540の(N+N+p)番目の要素にターゲット段落データ1901のラベル1903の値を格納する(ステップS2005)。 Next, the graph construction unit 110 stores the value of the label 1903 of the target paragraph data 1901 in the (N A +N Q +p)th element of the correct label vector 540 (Step S2005).

次に、グラフ構築部110は、cをインクリメントし、ターゲット文書データ500の全ての段落データ1901について処理を実行したか否かを判定する(ステップS2006)。 Next, the graph construction unit 110 increments c and determines whether the process has been executed for all paragraph data 1901 of the target document data 500 (step S2006).

処理を実行していない段落データ1901が少なくとも一つ存在すると判定された場合、グラフ構築部110は、ステップS2004に戻り、同様の処理を実行する。 If it is determined that there is at least one piece of paragraph data 1901 that has not been processed, the graph construction unit 110 returns to step S2004 and executes the same process.

全ての段落データ1901について処理を実行したと判定された場合、グラフ構築部110は、全ての文書データ500の文書ラベルを格納したか否かを判定する(ステップS2007)。 If it is determined that the process has been executed for all the paragraph data 1901, the graph construction unit 110 determines whether the document labels of all the document data 500 have been stored (step S2007).

文書ラベルを格納していない文書データ500が少なくとも一つ存在すると判定された場合、グラフ構築部110は、ステップS2002に戻り、同様の処理を実行する。 If it is determined that there is at least one piece of document data 500 that does not store a document label, the graph construction unit 110 returns to step S2002 and executes the same process.

全ての文書データ500の文書ラベルを格納したと判定された場合、グラフ構築部110はステップS211の処理を終了する。 If it is determined that the document labels of all document data 500 have been stored, the graph construction unit 110 ends the process of step S211.

実施例5によれば、計算機システムは、文書に付与された正解ラベル及び根拠箇所となる構成要素に付与された正解ラベルに基づいて、分類モデルを学習することができる。これによって、分類精度及び根拠箇所の提示の精度を向上できる。 According to the fifth embodiment, the computer system can learn a classification model based on the correct label given to the document and the correct label given to the component serving as the basis. This makes it possible to improve the accuracy of classification and the accuracy of presentation of evidence points.

実施例1と同様に、グラフ構築部110によって生成されるグラフ600では文書及び構成要素(段落及び段落)はグラフ600を構成する一つの頂点として扱われるため、従来技術のように、根拠箇所提示の適切さと分類精度との間のトレードオフの関係が生じることなく、分類結果及び根拠を提示できる。 Similar to the first embodiment, in the graph 600 generated by the graph construction unit 110, documents and constituent elements (paragraphs and paragraphs) are treated as one vertex that constitutes the graph 600. The classification results and rationale can be presented without creating a trade-off relationship between the appropriateness of the data and classification accuracy.

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。 Further, each of the above-mentioned configurations, functions, processing units, processing means, etc. may be partially or entirely realized in hardware by designing, for example, an integrated circuit. Further, the present invention can also be realized by software program codes that realize the functions of the embodiments. In this case, a storage medium on which a program code is recorded is provided to a computer, and a processor included in the computer reads the program code stored on the storage medium. In this case, the program code itself read from the storage medium realizes the functions of the embodiments described above, and the program code itself and the storage medium storing it constitute the present invention. Examples of storage media for supplying such program codes include flexible disks, CD-ROMs, DVD-ROMs, hard disks, SSDs (Solid State Drives), optical disks, magneto-optical disks, CD-Rs, magnetic tapes, A non-volatile memory card, ROM, etc. are used.

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Python、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。 Further, the program code for realizing the functions described in this embodiment can be implemented in a wide range of program or script languages such as assembler, C/C++, Perl, Shell, PHP, Python, and Java (registered trademark).

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。 Furthermore, by distributing the software program code that realizes the functions of the embodiment via a network, it can be stored in a storage means such as a computer's hard disk or memory, or a storage medium such as a CD-RW or CD-R. Alternatively, a processor included in the computer may read and execute the program code stored in the storage means or the storage medium.

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。 In the above-described embodiments, the control lines and information lines are those considered necessary for explanation, and not all control lines and information lines are necessarily shown in the product. All configurations may be interconnected.

100 計算機
101 プロセッサ
102 メモリ
103 ネットワークインタフェース
110 グラフ構築部
111 グラフ情報
112 分類モデル学習部
113 分類モデル情報
114 分類部
115 文書再構築部
116 表示部
120 ネットワーク
500 文書データ
510 Ngram辞書
520 隣接行列
530 段落辞書
540 正解ラベルベクトル
600 グラフ
800 再構築文書データ
900、1400、1600 ユーザインタフェース
1501 関連要素表示部
100 Computer 101 Processor 102 Memory 103 Network interface 110 Graph construction unit 111 Graph information 112 Classification model learning unit 113 Classification model information 114 Classification unit 115 Document reconstruction unit 116 Display unit 120 Network 500 Document data 510 Ngram dictionary 520 Adjacency matrix 530 Paragraph dictionary 540 Correct label vector 600 Graph 800 Reconstructed document data 900, 1400, 1600 User interface 1501 Related element display section

Claims (4)

少なくとも一つの計算機を備える計算機システムであって、
前記少なくとも一つの計算機は、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるインタフェースを有し、
前記計算機システムは、
文書のデータの入力を受け付け、前記文書及び前記文書の要素を頂点とするグラフを生成するグラフ構築部と、
前記複数の頂点の各々について、前記文書を複数のクラスのいずれかに分類するために用いる指標を算出する分類部と、
少なくとも一つの前記頂点の前記指標に基づいて前記文書を分類し、前記分類に寄与した少なくとも一つの前記文書の要素から構成される、前記文書上の根拠箇所を特定し、前記分類の結果及び前記文書上の根拠箇所を提示する文書再構築部と、を備え、
前記文書の要素は、一つの単語、図、表、式、及び複数の単語から構成される文の少なくともいずれかであり、
前記分類部は、前記グラフを入力とし、当該グラフの特徴を表すベクトルを出力するグラフ畳み込みネットワークと、前記ベクトルを変数とし、前記複数のクラスの各々の該当確率を表す値を出力する関数とを用いて、前記各クラスの該当確率を表す値を前記指標として算出し、
前記文書再構築部は、
前記文書に対応する前記頂点の前記指標の大きさに基づいて、前記文書が属する前記クラスを決定し、
前記文書の要素に対応する前記頂点の、前記文書が属する前記クラスの前記指標の大きさに基づいて、前記文書上の根拠箇所となる前記文書の要素を特定することを特徴とする計算機システム。
A computer system comprising at least one computer,
The at least one computer has a processor, a memory connected to the processor, and an interface connected to the processor,
The computer system is
a graph construction unit that receives input of document data and generates a graph having the document and the elements of the document as vertices;
a classification unit that calculates, for each of the plurality of vertices, an index used to classify the document into one of the plurality of classes;
classifying the document based on the index of at least one of the vertices, identifying evidence points on the document consisting of at least one element of the document that contributed to the classification; A document reconstruction unit that presents a basis on the document,
The element of the document is at least one of a word, a diagram, a table, a formula, and a sentence composed of multiple words,
The classification unit includes a graph convolution network that receives the graph as input and outputs a vector representing the characteristics of the graph, and a function that uses the vector as a variable and outputs a value representing the probability of each of the plurality of classes. Calculate a value representing the probability of each class as the index using
The document reconstruction unit includes:
determining the class to which the document belongs based on the size of the index of the vertex corresponding to the document;
A computer system that identifies an element of the document that is a basis on the document based on the magnitude of the index of the class to which the document belongs , of the vertex corresponding to the element of the document.
請求項1に記載の計算機システムであって、
前記計算機システムは、クラスが付与された、学習用の文書を表す前記グラフを用いた機械学習によって、前記グラフ畳み込みネットワークを生成する分類モデル学習部を含むことを特徴とする計算機システム。
The computer system according to claim 1,
The computer system is characterized in that the computer system includes a classification model learning unit that generates the graph convolution network by machine learning using the graph representing a learning document to which a class has been assigned.
少なくとも一つの計算機を含む計算機システムが実行する文書の分類方法であって、 A document classification method executed by a computer system including at least one computer, the method comprising:
前記少なくとも一つの計算機は、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるインタフェースを有し、 The at least one computer has a processor, a memory connected to the processor, and an interface connected to the processor,
前記文書の分類方法は、 The method of classifying the documents is as follows:
前記プロセッサが、文書のデータの入力を受け付け、前記文書及び前記文書の要素を頂点とするグラフを表すデータを生成し、前記メモリに格納する第1のステップと、 a first step in which the processor receives input of document data, generates data representing the document and a graph having the elements of the document as vertices, and stores the data in the memory;
前記プロセッサが、前記複数の頂点の各々について、前記文書を複数のクラスのいずれかに分類するために用いる指標を算出し、前記メモリに格納する第2のステップと、 a second step in which the processor calculates, for each of the plurality of vertices, an index used to classify the document into one of a plurality of classes, and stores the index in the memory;
前記プロセッサが、少なくとも一つの前記頂点の前記指標に基づいて、前記文書を分類し、前記分類の結果を前記メモリに格納する第3のステップと、 a third step of the processor classifying the document based on the index of at least one of the vertices and storing the results of the classification in the memory;
前記プロセッサが、前記分類に寄与した少なくとも一つの前記文書の要素から構成される、前記文書上の根拠箇所を特定し、前記特定の結果を前記メモリに格納する第4のステップと、 a fourth step in which the processor identifies evidence points on the document that are comprised of at least one element of the document that contributed to the classification, and stores the identified results in the memory;
前記プロセッサが、前記分類の結果及び前記文書上の根拠箇所を提示するための表示情報を生成する第5のステップと、を含み、 a fifth step in which the processor generates display information for presenting the classification results and the evidence points on the document;
前記文書の要素は、一つの単語、図、表、式、及び複数の単語から構成される文の少なくともいずれかであり、 The element of the document is at least one of a word, a diagram, a table, a formula, and a sentence composed of multiple words,
前記第2のステップは、前記プロセッサが、前記グラフを入力とし、当該グラフの特性を表すベクトルを出力するグラフ畳み込みネットワークと、前記ベクトルを変数とし、前記クラスに該当する確率を表す値を出力する関数とを用いて、前記各クラスについて、前記クラスに該当する確率を表す値を前記指標として算出するステップを含み、 In the second step, the processor inputs the graph and outputs a graph convolution network that outputs a vector representing the characteristics of the graph, and uses the vector as a variable and outputs a value representing the probability of falling into the class. the step of calculating, for each of the classes, a value representing the probability of falling into the class as the index using a function;
前記第3のステップは、前記プロセッサが、前記文書に対応する頂点の前記指標に基づいて、前記文書を分類するステップを含み、 The third step includes the processor classifying the document based on the index of the vertex corresponding to the document,
前記第4のステップは、前記プロセッサが、前記文書の要素に対応する頂点の、前記文書が分類されたクラスの前記指標の大きさに基づいて、前記文書上の根拠箇所を特定するステップを含むことを特徴とする文書の分類方法。 The fourth step includes the step of the processor identifying a base location on the document based on the magnitude of the index of the class into which the document is classified, of the vertex corresponding to the element of the document. A document classification method characterized by:
請求項3に記載の文書の分類方法であって、 A method for classifying documents according to claim 3, comprising:
前記文書の分析方法は、前記プロセッサが、クラスが付与された、学習用の文書を表す前記グラフを用いた機械学習によって、前記グラフ畳み込みネットワークを生成するステップを含むことを特徴とする文書の分類方法。 The document analysis method includes the step of the processor generating the graph convolution network by machine learning using the graph representing a learning document to which a class has been assigned. Method.
JP2019167016A 2019-09-13 2019-09-13 Computer systems and document classification methods Active JP7358132B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019167016A JP7358132B2 (en) 2019-09-13 2019-09-13 Computer systems and document classification methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019167016A JP7358132B2 (en) 2019-09-13 2019-09-13 Computer systems and document classification methods

Publications (2)

Publication Number Publication Date
JP2021043849A JP2021043849A (en) 2021-03-18
JP7358132B2 true JP7358132B2 (en) 2023-10-10

Family

ID=74861717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019167016A Active JP7358132B2 (en) 2019-09-13 2019-09-13 Computer systems and document classification methods

Country Status (1)

Country Link
JP (1) JP7358132B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792144B (en) * 2021-09-16 2024-03-12 南京理工大学 Text classification method of graph convolution neural network based on semi-supervision

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014056331A (en) 2012-09-11 2014-03-27 Hitachi Advanced Systems Corp Document classification method, document classification program and document classification device
WO2014064777A1 (en) 2012-10-24 2014-05-01 株式会社 日立製作所 Document evaluation assistance system and document evaluation assistance method
JP2016206748A (en) 2015-04-16 2016-12-08 株式会社日立製作所 Classification adding method and classification adding system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014056331A (en) 2012-09-11 2014-03-27 Hitachi Advanced Systems Corp Document classification method, document classification program and document classification device
WO2014064777A1 (en) 2012-10-24 2014-05-01 株式会社 日立製作所 Document evaluation assistance system and document evaluation assistance method
JP2016206748A (en) 2015-04-16 2016-12-08 株式会社日立製作所 Classification adding method and classification adding system

Also Published As

Publication number Publication date
JP2021043849A (en) 2021-03-18

Similar Documents

Publication Publication Date Title
Zhang et al. Text understanding from scratch
US10311092B2 (en) Leveraging corporal data for data parsing and predicting
Mihaylov et al. SemanticZ at SemEval-2016 Task 3: Ranking relevant answers in community question answering using semantic similarity based on fine-tuned word embeddings
US6415283B1 (en) Methods and apparatus for determining focal points of clusters in a tree structure
Comber et al. Machine learning innovations in address matching: A practical comparison of word2vec and CRFs
KR101999152B1 (en) English text formatting method based on convolution network
JP2020123318A (en) Method, apparatus, electronic device, computer-readable storage medium, and computer program for determining text relevance
US20130007020A1 (en) Method and system of extracting concepts and relationships from texts
Gupta et al. Product classification in e-commerce using distributional semantics
US10678769B2 (en) Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
KR20130056207A (en) Relational information expansion device, relational information expansion method and program
US11023503B2 (en) Suggesting text in an electronic document
CN110705304B (en) Attribute word extraction method
CN111753082A (en) Text classification method and device based on comment data, equipment and medium
CN111368555B (en) Data identification method and device, storage medium and electronic equipment
Jo Using K Nearest Neighbors for text segmentation with feature similarity
Abainia et al. Effective language identification of forum texts based on statistical approaches
Dobrovolskyi et al. Collecting the Seminal Scientific Abstracts with Topic Modelling, Snowball Sampling and Citation Analysis.
JP7358132B2 (en) Computer systems and document classification methods
Alothman et al. Managing and retrieving bilingual documents using artificial intelligence-based ontological framework
Nguyen et al. A model of convolutional neural network combined with external knowledge to measure the question similarity for community question answering systems
Chowdhury et al. Detection of compatibility, proximity and expectancy of Bengali sentences using long short term memory
Dobrovolskyi et al. Probabilistic topic modelling for controlled snowball sampling in citation network collection
CN111753199B (en) User portrait construction method and device, electronic device and medium
Kmetty et al. The presence of occupational structure in online texts based on word embedding NLP models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230407

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230719

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230927

R150 Certificate of patent or registration of utility model

Ref document number: 7358132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150