JP6885211B2 - Information analyzer, information analysis method and information analysis program - Google Patents
Information analyzer, information analysis method and information analysis program Download PDFInfo
- Publication number
- JP6885211B2 JP6885211B2 JP2017119773A JP2017119773A JP6885211B2 JP 6885211 B2 JP6885211 B2 JP 6885211B2 JP 2017119773 A JP2017119773 A JP 2017119773A JP 2017119773 A JP2017119773 A JP 2017119773A JP 6885211 B2 JP6885211 B2 JP 6885211B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- elements
- target variable
- information
- average value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本件は、情報分析装置、情報分析方法および情報分析プログラムに関する。 This case relates to information analyzers, information analysis methods and information analysis programs.
テキスト分析において、クラスタリングを行う技術が開示されている(例えば、特許文献1,2参照)。テキスト分析においては、例えば、分析したいテキスト情報を名前や原因などの要素ごとに分割し、それぞれの要素について形態素分析さらには特徴語抽出を実施し、その後、含まれる特徴語が類似した内容を持つテキスト内の要素同士が同一のクラスタに分類される。
A technique for performing clustering in text analysis is disclosed (see, for example,
クラスタリングが行われると、便宜的に各クラスタにクラスタ番号が付与されることになる。しかしながら、この番号の順番ならびに大きさには意味がなく、番号が隣り合うクラスタ同士に意味的な相関性はない。したがって、このクラスタ情報をもとにパス分析により、ダイアグラムを作成、可視化を実現した場合にも、パスが複雑となり、直感的にわかりにくいダイアグラムとなる。そのため、フィルタリングなどにより分析対象を限定するなどの追加措置が必要になってしまう。 When clustering is performed, a cluster number is assigned to each cluster for convenience. However, the order and size of the numbers are meaningless, and there is no semantic correlation between clusters with adjacent numbers. Therefore, even if a diagram is created and visualized by path analysis based on this cluster information, the path becomes complicated and the diagram becomes difficult to understand intuitively. Therefore, additional measures such as limiting the analysis target by filtering or the like are required.
1つの側面として、本件の目的は、近接するクラスタ間に意味的な相関性を付与することを可能にする情報分析装置、情報分析方法および情報分析プログラムを提供することとする。 As one aspect, an object of the present invention is to provide an information analyzer, an information analysis method, and an information analysis program that can impart a semantic correlation between adjacent clusters.
1つの態様では、情報分析装置は、同一のテキストサンプルから、複数の要素に対し、特徴語を示す複数の因子を抽出し、当該複数の要素のうち1以上の要素に対して順序尺度からなるターゲット変数を付与するターゲット変数抽出部と、前記ターゲット変数を用い、前記複数の要素に対する多次元対応分析を行うことによって、クラスタ分類を実施するクラスタ分類部と、前記クラスタ分類部によって、前記多次元対応分析後に形成された各クラスタに仮の識別子を付与し、前記ターゲット変数が付与された要素以外の各要素について、前記仮の識別子ごとに全テキストサンプルの前記順序尺度の平均値を算出して、前記平均値の昇順に前記クラスタの識別子を並び替え、新たな識別子番号を付与する、並び替え部と、を備える。 In one embodiment, the information analyzer extracts a plurality of factors indicating characteristic words for a plurality of elements from the same text sample, and consists of an order scale for one or more of the plurality of elements. the target variable extraction unit to impart target variable, using the target variable, by performing multidimensional correspondence analysis for said plurality of elements, and cluster classification unit to perform the cluster classification, by the cluster classification unit, the multidimensional A tentative identifier is assigned to each cluster formed after the correspondence analysis, and the average value of the order scale of all text samples is calculated for each tentative identifier for each element other than the element to which the target variable is assigned. A sorting unit that sorts the identifiers of the clusters in ascending order of the average value and assigns a new identifier number is provided.
近接するクラスタ間に意味的な相関性を付与することを可能とする。 It is possible to give a semantic correlation between adjacent clusters.
実施例の説明に先立って、パス分析の概要について説明する。図1(a)および図1(b)は、パス分析を例示する図である。パス分析においては、まず、テキスト情報を含む同一のテキストサンプルから、要素ごとに特徴語を意味する複数の因子を抽出する。その後、全てのテキストサンプルについて、同様の処理を行い、全てのテキストサンプルの全ての要素について、因子を抽出した後、テキストクラスタリングによって、要素別に、各テキストサンプルから抽出された複数の因子を複数のクラスタに分類する。具体的には、要素Aについて、テキスト情報の各因子がクラスタA1、クラスタA2、クラスタA3、…、に分類される。ここで、これらのクラスタ番号は、便宜的に付された番号であるが、各クラスタ内に振り分けられた各因子は、互いに類似した特徴語情報からなる。なお、図1(a)および図1(b)の各クラスタには、該当する因子が記載されたサンプルの番号が記載されている。例えば、テキストサンプルNo.1は、要素AのクラスタA1に分類されている。 Prior to the description of the embodiment, the outline of the path analysis will be described. 1 (a) and 1 (b) are diagrams illustrating path analysis. In the path analysis, first, a plurality of factors meaning feature words are extracted for each element from the same text sample including text information. After that, the same processing is performed for all text samples, factors are extracted for all elements of all text samples, and then a plurality of factors extracted from each text sample are extracted for each element by text clustering. Classify into clusters. Specifically, for element A, each factor of text information is classified into cluster A1, cluster A2, cluster A3, .... Here, these cluster numbers are numbers assigned for convenience, but each factor assigned within each cluster consists of characteristic word information similar to each other. In each cluster of FIGS. 1 (a) and 1 (b), the number of the sample in which the corresponding factor is described is described. For example, the text sample No. 1 is classified into cluster A1 of element A.
まず、要素ごとに、クラスタ番号の昇順に並び替える。例えば、要素Aについては、クラスタA1、クラスタA2、クラスタA3、…の順に配置する。次に、サンプルごとに、要素Aの因子、要素Bの因子、要素Cの因子、…、を線(パス)で結ぶことによってダイアグラムを作成する。それにより、各テキストサンプルに含まれる要素間のつながりを、座標を意味するクラスタ番号によって可視化することができる。 First, sort by element in ascending order of cluster number. For example, the element A is arranged in the order of cluster A1, cluster A2, cluster A3, and so on. Next, for each sample, a diagram is created by connecting the factor of element A, the factor of element B, the factor of element C, ..., With a line (path). Thereby, the connection between the elements included in each text sample can be visualized by the cluster number meaning the coordinates.
しかしながら、分類されたクラスタの並び順(クラスタA1、クラスタA2、クラスタA3、…)において、隣接するクラスタ同士は、相関性を有していない。この場合、図1(a)で例示するように、作成されたダイアグラムは、パスが入り組んだ形となる。例えば、サンプルNo.1は、要素AのクラスタA1から要素BのクラスタB2を通り、要素CのクラスタC4に至る。サンプルNo.xでは、要素AのクラスタA2から要素BのクラスタB4を通り、要素CのクラスタC1に至る。このように、分類されたクラスタ同士が相関を有していないと、要素間(横方向)を結ぶパスが、要素内(縦方向)に大きく移動することになる。それにより、直感的にわかりにくいダイアグラムが作成されてしまう。したがって、パス分析結果から有効的な知見を得るためには、データのフィルタリングが必要など、追加のデータ加工が必要となる。 However, in the order of the classified clusters (cluster A1, cluster A2, cluster A3, ...), Adjacent clusters do not have a correlation. In this case, as illustrated in FIG. 1A, the created diagram has a complicated path. For example, sample No. 1 passes from cluster A1 of element A to cluster B2 of element B to cluster C4 of element C. Sample No. At x, the cluster A2 of the element A passes through the cluster B4 of the element B and reaches the cluster C1 of the element C. In this way, if the classified clusters do not have a correlation, the path connecting the elements (horizontal direction) will move significantly within the element (vertical direction). As a result, a diagram that is difficult to understand intuitively is created. Therefore, in order to obtain effective knowledge from the path analysis results, additional data processing such as data filtering is required.
一方、図1(b)は、各クラスタに順序尺度を付与し、並べ替えた例である。この例では、隣接するクラスタ同士が相関を有するようになる。この例では、サンプルごとに因子をパスで結ぶと、要素間(横方向)を結ぶ際に、要素内(縦方向)の移動量が小さくなる。それにより、直感的にわかりやすいダイアグラムが作成されることになる。以下の実施例では、近接するクラスタ間に意味的な相関性を付与することを可能とすることで、直感的にわかりやすいパス分析結果を作成可能な情報分析装置、情報分析方法および情報分析プログラムについて説明する。 On the other hand, FIG. 1B is an example in which an order scale is given to each cluster and rearranged. In this example, adjacent clusters will have a correlation. In this example, if the factors are connected by a path for each sample, the amount of movement within the elements (vertical direction) becomes small when connecting the elements (horizontal direction). This will create an intuitively easy-to-understand diagram. In the following examples, an information analyzer, an information analysis method, and an information analysis program that can create intuitive path analysis results by making it possible to give a semantic correlation between adjacent clusters. explain.
図2(a)は、実施例1に係る情報分析装置100のハードウェア構成を説明するためのブロック図である。図2(a)で例示するように、情報分析装置100は、CPU101、RAM102、記憶装置103、入力機器104、表示装置105などを備える。これらの各機器は、バスなどによって接続されている。CPU(Central Processing Unit)101は、中央演算処理装置である。CPU101は、1以上のコアを含む。RAM(Random Access Memory)102は、CPU101が実行するプログラム、CPU101が処理するデータなどを一時的に記憶する揮発性メモリである。記憶装置103は、不揮発性記憶装置である。記憶装置103として、例えば、ROM(Read Only Memory)、フラッシュメモリなどのソリッド・ステート・ドライブ(SSD)、ハードディスクドライブに駆動されるハードディスクなどを用いることができる。入力機器104は、キーボード、マウスなどである。表示装置105は、液晶ディスプレイ、エレクトロルミネッセンスパネルなどであり、情報分析装置100の処理結果などを表示する。
FIG. 2A is a block diagram for explaining the hardware configuration of the
図2(b)は、CPU101が記憶装置103に記憶されているプログラムを実行することによって実現される各部の機能ブロック図である。図2(b)で例示するように、情報分析装置100は、分析処理部10、データベース部20などとして機能する。分析処理部10は、ターゲット変数抽出部11、クラスタ分類部12、並び替え部13、ダイアグラム作成部14などを備える。データベース部20は、テキスト情報格納部21などを備える。
FIG. 2B is a functional block diagram of each part realized by the
図3は、情報分析装置100による情報分析処理の一例を表すフローチャートである。以下、図2(b)および図3を参照しつつ、情報分析装置100による情報分析処理について説明する。
FIG. 3 is a flowchart showing an example of information analysis processing by the
まず、ターゲット変数抽出部11は、テキスト情報格納部21からテキスト情報を含む複数のテキストサンプルを読み込む(ステップS1)。本実施例においては、一例として、テキスト情報を含むサンプルとして、製造ラインの報告書について説明する。例えば、報告書には、以下のように、要素ごとに因子がテキストとして記載されている。以下の例では、「報告書番号」、「発生日時」、「停止時間」、「名前」、「対応方法」、「原因」が要素、「報告書番号」の「1」や、「発生日時」の「2017年1月1日」が因子である。サンプルごとに異なる事象に関する報告内容が記載されているため、各要素について、サンプルごとに異なる因子が含まれることになる。例えば、以下のような記載内容となる。
[報告書番号] 1
[発生日時] 2017年1月1日
[停止時間] 15分
[名前] 部品A
[対応方法] 交換
[原因] 断線
First, the target
[Report number] 1
[Date and time of occurrence] January 1, 2017
[Stop time] 15 minutes
[Name] Part A
[Correspondence method] Replacement
[Cause] Disconnection
次に、ターゲット変数抽出部11は、各サンプルから、複数の要素を抽出した後、いずれかの要素を順序尺度で置き換えた後、ターゲット変数に設定する(ステップS2)。本実施例においては、複数の要素として、「停止時間」、「名前」、「原因」、「対応方法」を抽出し、これらの中で「停止時間」をターゲット変数として設定する。一例として、ここではターゲット変数として停止時間を選定し、停止時間が30min以下のサンプルをクラスタ1に分類、31min以上60min以下のサンプルをクラスタ2に分類、61min以上90min以下のサンプルをクラスタ3に分類、91min以上120min以下のサンプルをクラスタ4に分類、121min以上のサンプルをクラスタ5に分類した(ステップS3)。ここでは、例えば、クラスタに割り付けられるサンプル数がクラスタ間で略均一となるようにする。これらのクラスタ番号を、ターゲット変数のクラスタ番号と称する。
Next, the target
次に、クラスタ分類部12において、「名前」、「原因」、「対応方法」の各要素をテキスト分析対象として、順序尺度を有する「停止時間」をターゲット変数とした多次元対応分析を行うことによってクラスタ分類を実施し、各因子に仮クラスタ番号を付す(ステップS4)。ここで、仮クラスタ番号は、形成されたクラスタを識別するための識別子を意味する。なお、ステップS4のクラスタ分類の際には、各要素の因子に含まれる特徴語を用いて分類を行うこととする。テキスト分析における多次元対応分析として、本実施例においては、例えば、期待最大アルゴリズムを用いる。
Next, in the
図4は、「原因」に対して、「停止時間」をターゲット変数とした場合のクラスタ分類結果を例示する図である。図4で例示するように、仮クラスタ番号1では、特徴語として「ヘッド不良」、「ヘッド不能」などを含む特徴語が分類されており、仮クラスタ番号2では、「落下」、「ボルト」などを含む特徴語が分類されている。これによって、各要素に属する各因子に対し、仮クラスタ番号が付与されることになる。なお、「名前」および「対応方法」についても、同様の手順を踏むことによって、クラスタ分類結果を得られる。
FIG. 4 is a diagram illustrating a cluster classification result when "stop time" is used as a target variable for "cause". As illustrated in FIG. 4, in the
次に、並び替え部13においては、前記「仮クラスタ番号」にテキストサンプルのターゲット変数の「クラスタ番号」を紐付け、仮クラスタ番号ごとに、全サンプルにおけるターゲット変数のクラスタ番号の平均値を算出する(ステップS5)。図5(a)の例では、「名前」に対して「停止時間」をターゲット変数とした場合のクラスタ分類結果では、サンプル番号1においては、ターゲット変数のクラスタ1が仮クラスタ番号2に紐付けられ、サンプル3においてクラスタ3が仮クラスタ番号9に紐づけられている。その後、図5(b)の例で、「名前」に対して「停止時間」をターゲット変数とした場合のクラスタ分類結果において、仮クラスタ番号1についての平均値の算出を例示している。同様に、「原因」に対して「停止時間」をターゲット変数とした場合のクラスタ分類結果においては、サンプル1においてクラスタ1が仮クラスタ番号2に紐づけられ、サンプル3においてクラスタ3が仮クラスタ番号6に紐づけられ、「停止時間」をターゲット変数とした場合のクラスタ分類結果において、各仮クラスタ番号についての平均値を算出する。
Next, in the
次に、クラスタ分類部12は、ターゲット変数のクラスタ番号の平均値が大きい順に、大きい「本クラスタ番号」を付する(ステップS6)。図5(c)は、「名前」に対して「停止時間」をターゲット変数とした場合のクラスタ分類結果における本クラスタ番号を例示する図である。図6(a)は、「名前」における「仮クラスタ番号」、「ターゲット変数のクラスタ番号の平均値」、「本クラスタ番号」の一覧を示す。図6(b)は、「原因」における「仮クラスタ番号」、「ターゲット変数のクラスタ番号の平均値」、「本クラスタ番号」の一覧を示す。図6(c)は、「対応方法」における「仮クラスタ番号」、「ターゲット変数のクラスタ番号の平均値」、「本クラスタ番号」の一覧を示す。
Next, the
次に、ダイアグラム作成部14は、得られた「名前」、「原因」、「対応方法」のそれぞれの本クラスタ番号に基づいて、パス分析結果を作成する(ステップS7)。図7は、作成されたダイアグラムを例示する図である。ダイアグラムにおいては、サンプルごとに、「名前」の因子、「原因」の因子、「対応方法」の因子、「停止時間」の因子がそれぞれ線で結ばれている。なお、「停止時間」については、ターゲット変数のクラスタ番号の順に配置される。図7においては、同一の経路を通るパスの本数が多いほど太い線に見えるようになる。なお、作成されたダイアグラムは、表示装置105に表示される。その後、フローチャートの実行が終了する。図7で例示するように、作成されたダイアグラムにおいては、要素間においてパスの縦方向の移動量が少なくなっている。それにより、直感的にわかりやすいダイアグラムになっている。
Next, the
図8は、「停止時間」をターゲット変数とせずに、クラスタ分類を行った結果として得られたダイアグラムである(比較例)。図8の例では、要素間において縦方向の移動量が多くなっている。それにより、入り組んだ形状となり、直感的にわかりにくいダイアグラムになっている。 FIG. 8 is a diagram obtained as a result of performing cluster classification without using "stop time" as a target variable (comparative example). In the example of FIG. 8, the amount of movement in the vertical direction is large between the elements. As a result, the shape becomes intricate and the diagram is difficult to understand intuitively.
次に、図7のダイアグラム(実施例)および図8のダイアグラム(比較例)について検証を行う。検証を行うに際して、例えば、クラスタの分散度を第1指標とし、リンクの移動度を第2指標とする。 Next, the diagram of FIG. 7 (example) and the diagram of FIG. 8 (comparative example) are verified. In the verification, for example, the dispersion degree of the cluster is used as the first index, and the mobility of the link is used as the second index.
クラスタの分散度とは、要素間を結ぶリンクの総和である。リンクとは、1本以上のパスが結ぶ同一の要素間のことである。図9(a)で例示するように、名前「1」から原因「1」、原因「2」、原因「6」の3か所に1本以上のパスが結ばれている。この場合、延びるリンク数は3本である。同様に、名前「2」から延びるリンク数は6本である。これらを(1,0)=3、(2,0)=6のように算出し、すべての要素から要素につながっているリンクの総和を求める。リンク数の総和が少ないほど、パスの数が少なくまとまっているように見えるため、このリンクの総和をクラスタの分散度とする。計算した結果、表1に示すように、図7の例で168本となり、図8の例では167本と、両者で分散度はほぼ同じになった。
次に、リンクの移動度とは、リンクの始点と終点の本クラスタ番号の差分である。この移動度が大きければ、クラスタが離れている(分散している)ことになる。図9(b)で例示するように、リンクAは、名前「1」と原因「1」とを結ぶため、本クラスタ番号の差、すなわち移動度は0である。リンクBは、名前「1」と原因「2」とを結ぶため、本クラスタ番号の差、すなわち移動度は1である。このようにしてすべてのリンクについての移動度の総和を計算し、リンクの移動度とする。表1に示すように、図7の例では521となり、図8の例では、596となった。これにより、図7の例では、図8の例と比較して分散度が15%程度小さくなった。したがって、図8の例と比較して、図7の例では、直感的にわかりやすいダイアグラムとなったことがわかった。 Next, the mobility of the link is the difference between the cluster numbers at the start and end points of the link. If this mobility is high, the clusters are separated (distributed). As illustrated in FIG. 9B, since the link A connects the name “1” and the cause “1”, the difference between the cluster numbers, that is, the mobility is 0. Since the link B connects the name "1" and the cause "2", the difference between the cluster numbers, that is, the mobility is 1. In this way, the sum of the mobility of all the links is calculated and used as the mobility of the link. As shown in Table 1, it was 521 in the example of FIG. 7, and 596 in the example of FIG. As a result, in the example of FIG. 7, the dispersity was reduced by about 15% as compared with the example of FIG. Therefore, it was found that the diagram in FIG. 7 was intuitively easy to understand as compared with the example in FIG.
本実施例によれば、各テキストサンプルの要素ごとに特徴語からなる因子情報が抽出されるとともに、少なくとも1つ以上の要素において、序尺度が付されたターゲット変数群を抽出することができる。その後、抽出された複数の要素のうち、ターゲット変数以外の各要素に対して、多次元対応分析が行われて、クラスタ分類が実施される。このようにすることで、ターゲット変数の順序尺度を分類結果に反映させることによって、分類されたクラスタ同士に相関を持たせることができる。このクラスタ情報をもとにパス分析によるダイアグラムを作成して可視化を実施すると、パスの複雑さが解消されて、直感的にわかりやすいダイアグラムとなる。 According to this embodiment, factor information consisting of feature words can be extracted for each element of each text sample, and a target variable group with an introductory scale can be extracted for at least one or more elements. After that, among the extracted plurality of elements, each element other than the target variable is subjected to multidimensional correspondence analysis and cluster classification is performed. By doing so, the order scale of the target variable is reflected in the classification result, so that the classified clusters can be correlated with each other. By creating a diagram by path analysis based on this cluster information and performing visualization, the complexity of the path is eliminated and the diagram becomes intuitive and easy to understand.
なお、本実施例においては、順序尺度として、停止時間などの互いに連続する数値範囲を用いたが、それに限られない。数値範囲以外にも、間隔尺度、比例尺度などを適用することができる。
(変形例)
In this embodiment, a numerical range that is continuous with each other, such as a stop time, is used as an order scale, but the order is not limited to this. In addition to the numerical range, an interval scale, a proportional scale, and the like can be applied.
(Modification example)
ターゲット変数のクラスタ番号の平均値を算出する際に、ターゲット変数の順序尺度の影響が大きくなるようにしてもよい。例えば、停止時間が30min以下をクラスタ番号を「1」、31min以上60min以下のクラスタ番号を「2」、61min以上90min以下のクラスタ番号を「3」、91min以上120min以下のクラスタ番号を「8」、121min以上のクラスタ番号を「10」とし、長い停止時間に重み付けを行ってもよい。この場合のクラスタリング結果を図10(a)〜図10(c)に示す。図10(a)は、「名前」における「仮クラスタ番号」、「ターゲット変数のクラスタ番号の平均値」、「本クラスタ番号」の一覧を示す。図10(b)は、「原因」における「仮クラスタ番号」、「ターゲット変数のクラスタ番号の平均値」、「本クラスタ番号」の一覧を示す。図10(c)は、「対応方法」における「仮クラスタ番号」、「ターゲット変数のクラスタ番号の平均値」、「本クラスタ番号」の一覧を示す。また、得られた「名前」、「原因」、「対応方法:のそれぞれのクラスタ番号をダイアグラム化した図を図11に示す。 When calculating the average value of the cluster numbers of the target variables, the influence of the ordinal scale of the target variables may be large. For example, a cluster number of 30 min or less is "1", a cluster number of 31 min or more and 60 min or less is "2", a cluster number of 61 min or more and 90 min or less is "3", and a cluster number of 91 min or more and 120 min or less is "8". , The cluster number of 121 min or more may be set to "10", and the long stop time may be weighted. The clustering results in this case are shown in FIGS. 10 (a) to 10 (c). FIG. 10A shows a list of “temporary cluster number”, “average value of cluster number of target variable”, and “main cluster number” in “name”. FIG. 10B shows a list of “temporary cluster number”, “average value of cluster number of target variable”, and “main cluster number” in “cause”. FIG. 10C shows a list of the “temporary cluster number”, the “average value of the cluster numbers of the target variables”, and the “main cluster number” in the “correspondence method”. Further, FIG. 11 shows a diagram diagram of each cluster number of the obtained "name", "cause", and "countermeasure method:".
図6(a)〜図6(c)と図10(a)〜図10(c)とを比較すると、本クラスタ番号に差が生じている。図11の結果に対して、上述した第1指標および第2指標を算出した。その結果を表2に示す。表2に示すように、第1指標が小さい値となり、第2指標がさらに小さい値となった。これは、重み付けを行ったことで、順序尺度の影響をより反映できるようになったためである。
なお、上記各例において、ターゲット変数抽出部11が、同一のテキストサンプルから、複数の要素に対し、特徴語を示す複数の因子を抽出し、当該複数の要素のうち1以上の要素に対して順序尺度からなるターゲット変数を付与するターゲット変数抽出部の一例として機能する。クラスタ分類部12が、前記ターゲット変数を用い、前記複数の要素に対する多次元対応分析を行うことによって、クラスタ分類を実施するクラスタ分類部の一例として機能する。並び替え部13が、前記クラスタ分類部によって、前記多次元対応分析後に形成された各クラスタに仮の識別子を付与し、前記ターゲット変数が付与された要素以外の各要素について、前記仮の識別子ごとに全テキストサンプルの前記順序尺度の平均値を算出して、前記平均値の昇順に前記クラスタの識別子を並び替え、新たな識別子番号を付与する、並び替え部の一例として機能する。ダイアグラム作成部14が、前記並び替え部が並び替えた前記クラスタを要素ごとに配置し、同一のテキストサンプルに属する因子同士を隣接する要素間を線で結ぶことでダイアグラムを作成するダイアグラム作成部の一例として機能する。
In each of the above examples, the target
以上、本発明の実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the examples of the present invention have been described in detail above, the present invention is not limited to the specific examples, and various modifications and modifications are made within the scope of the gist of the present invention described in the claims. It can be changed.
10 分析処理部
11 ターゲット変数抽出部
12 クラスタ分類部
13 並び替え部
14 ダイアグラム作成部
20 データベース部
21 テキスト情報格納部
100 情報分析装置
10
Claims (5)
前記ターゲット変数を用い、前記複数の要素に対する多次元対応分析を行うことによって、クラスタ分類を実施するクラスタ分類部と、
前記クラスタ分類部によって、前記多次元対応分析後に形成された各クラスタに仮の識別子を付与し、前記ターゲット変数が付与された要素以外の各要素について、前記仮の識別子ごとに全テキストサンプルの前記順序尺度の平均値を算出して、前記平均値の昇順に前記クラスタの識別子を並び替え、新たな識別子番号を付与する、並び替え部と、を備えることを特徴とする情報分析装置。 A target variable extraction unit that extracts a plurality of factors indicating characteristic words for a plurality of elements from the same text sample and assigns a target variable consisting of an order scale to one or more of the plurality of elements. ,
A cluster classification unit that performs cluster classification by performing multidimensional correspondence analysis on the plurality of elements using the target variables.
The cluster classification unit assigns a tentative identifier to each cluster formed after the multidimensional correspondence analysis, and for each element other than the element to which the target variable is assigned, the above-mentioned of all text samples for each tentative identifier. An information analyzer comprising a sorting unit that calculates an average value of an ordinal scale, sorts the identifiers of the clusters in ascending order of the average values, and assigns a new identifier number.
前記ターゲット変数を用い、前記各要素に対する多次元対応分析を行うことによって、クラスタ分類を実施する処理と、
前記多次元対応分析後に形成された各クラスタに仮の識別子を付与し、前記ターゲット変数が付与された要素以外の各要素について、前記仮の識別子ごとに全テキストサンプルの前記順序尺度の平均値を算出して、前記平均値の昇順に前記クラスタの識別子を並び替え、新たな識別子番号を付与する処理と、をコンピュータが実行することを特徴とする情報分析方法。 A process of extracting a plurality of factors indicating characteristic words for a plurality of elements from the same text sample and assigning a target variable consisting of an order scale to one or more of the plurality of elements.
A process of performing cluster classification by performing a multidimensional correspondence analysis for each of the elements using the target variable, and
A tentative identifier is assigned to each cluster formed after the multidimensional correspondence analysis, and for each element other than the element to which the target variable is assigned, the average value of the ordinal scale of all text samples is calculated for each tentative identifier. An information analysis method characterized in that a computer executes a process of calculating, rearranging the identifiers of the clusters in ascending order of the average value, and assigning a new identifier number.
同一のテキストサンプルから、複数の要素に対し、特徴語を示す複数の因子を抽出し、前記複数の要素のうち1以上の要素に対して、順序尺度からなるターゲット変数を付与する処理と、
前記ターゲット変数を用いて、前記複数の要素に対する多次元対応分析を行うことによって、クラスタ分類を実施する処理と、
前記多次元対応分析後に形成された各クラスタに仮の識別子を付与し、前記ターゲット変数が付与された要素以外の各要素について、前記仮の識別子ごとに全テキストサンプルの前記順序尺度の平均値を算出して、前記平均値の昇順に前記クラスタの識別子を並び替え、新たな識別子番号を付与する処理と、を実行させることを特徴とする情報分析プログラム。 On the computer
A process of extracting a plurality of factors indicating characteristic words for a plurality of elements from the same text sample and assigning a target variable consisting of an order scale to one or more of the plurality of elements.
A process of performing cluster classification by performing a multidimensional correspondence analysis on the plurality of elements using the target variables, and
A tentative identifier is assigned to each cluster formed after the multidimensional correspondence analysis, and for each element other than the element to which the target variable is assigned, the average value of the ordinal scale of all text samples is calculated for each tentative identifier. An information analysis program characterized in that a process of calculating, rearranging the identifiers of the cluster in ascending order of the average value, and assigning a new identifier number is executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017119773A JP6885211B2 (en) | 2017-06-19 | 2017-06-19 | Information analyzer, information analysis method and information analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017119773A JP6885211B2 (en) | 2017-06-19 | 2017-06-19 | Information analyzer, information analysis method and information analysis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019003553A JP2019003553A (en) | 2019-01-10 |
JP6885211B2 true JP6885211B2 (en) | 2021-06-09 |
Family
ID=65005944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017119773A Active JP6885211B2 (en) | 2017-06-19 | 2017-06-19 | Information analyzer, information analysis method and information analysis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6885211B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019142862A1 (en) | 2018-01-19 | 2019-07-25 | 三菱ケミカル株式会社 | Method of producing (meth)acrylic acid or ester thereof |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003242161A (en) * | 2002-02-15 | 2003-08-29 | Sumitomo Mitsui Card Co Ltd | Claim data processing system, claim data processing method, program, and recording medium |
JP5402188B2 (en) * | 2008-09-30 | 2014-01-29 | 新日鐵住金株式会社 | Operation support method, operation support system, and computer program |
WO2016147219A1 (en) * | 2015-03-18 | 2016-09-22 | 日本電気株式会社 | Text visualization system, text visualization method, and recording medium |
KR101688829B1 (en) * | 2015-07-24 | 2016-12-22 | 삼성에스디에스 주식회사 | Method and apparatus for providing documents reflecting user pattern |
-
2017
- 2017-06-19 JP JP2017119773A patent/JP6885211B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019003553A (en) | 2019-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4382526B2 (en) | Sentence classification apparatus and method | |
JP2008134705A (en) | Data processing method and data analysis device | |
JP6714152B2 (en) | Analytical apparatus, analytical method and analytical program | |
CN108780309B (en) | Recording medium for recording visualization program of manufacturing process, visualization method of manufacturing process, and visualization system of manufacturing process | |
JP2019101644A (en) | Data analysis system and data analysis device | |
JP2018195231A (en) | Learning model creation device, learning model creation method, and learning model creation program | |
Bajić et al. | Chart classification using simplified VGG model | |
JP2012073812A (en) | Data analysis support system and method | |
JP6419667B2 (en) | Test DB data generation method and apparatus | |
JP5391637B2 (en) | Data similarity calculation system, data similarity calculation method, and data similarity calculation program | |
US20110202855A1 (en) | Gui evaluation system, gui evaluation method, and gui evaluation program | |
JP6885211B2 (en) | Information analyzer, information analysis method and information analysis program | |
JP5571528B2 (en) | Production information management apparatus and production information management method | |
KR102024829B1 (en) | System and Method for Fault Isolation in Industrial Processes using CART based variable ranking | |
US11727214B2 (en) | Sentence classification apparatus, sentence classification method, and sentence classification program | |
JP6356015B2 (en) | Gene expression information analyzing apparatus, gene expression information analyzing method, and program | |
JP5967017B2 (en) | Method and program for extracting influence factors | |
DE102016104839A1 (en) | Layout verification system and method | |
EP3580694A1 (en) | Method for computer-implemented determination of the performance of a classification model | |
CN110226160A (en) | State analysis device, state analysis method and storage medium | |
CN104462139A (en) | User behavior clustering method and system | |
US20100280759A1 (en) | Mass spectrometer output analysis tool for identification of proteins | |
WO2018092317A1 (en) | Selection device, selection method and selection program | |
CN111341390A (en) | Quantitative structure-activity relationship assisted matching molecule pair analysis method | |
JP2002217260A (en) | Device and method for fabrication of semiconductor wafer test map chart |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210413 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6885211 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |