JP7380078B2

JP7380078B2 - 名称抽出プログラム，情報処理装置及び名称抽出方法

Info

Publication number: JP7380078B2
Application number: JP2019193593A
Authority: JP
Inventors: 啓介矢野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2023-11-15
Anticipated expiration: 2039-10-24
Also published as: JP2021068226A

Description

本発明は、名称抽出プログラム，情報処理装置及び名称抽出方法に関する。

顧客のアプリケーション資産の現状課題を見える化し、品質改善や保守効率化を図るサービスとして、資産分析サービスが存在する。

図１は、関連例としての資産分析サービスを例示する図である。

資産分析サービスでは、符号Ａ１で示すようなアプリケーションの品質劣化等の現状の課題を入力として、符号Ａ２に示すようなアプリケーション資産の見せる化が行なわれる。例えば、稼働資産分析や類似分析，システム相関分析，資産特性分析に対して、改善施策の立案が行なわれる。そして、符号Ａ３に示すような、品質安定された理想とする姿のアプリケーションが出力される。

資産分析サービスのメニューの１つとして、ソフトウェア地図が存在する。

図２は、関連例としてのソフトウェア地図を例示する図である。

ソフトウェア地図では、プログラムがビル（別言すれば、建物）で表され、プログラムの複雑さがビルの高さで表され、サブシステムの種類がビルの色で表され、プログラム間の関係性がビル間の距離で表される。

符号Ｂ１に示すような高層ビル群では、複雑なアプリケーションが入り乱れ保守性が悪い。すなわち、高層ビル群が現れているアプリケーションは、構造が複雑なため、改善が必要である。

符号Ｂ２に示すような色が乱れた町並みでは、複数あるサブシステムのアプリケーションが入り乱れ保守性が悪い。すなわち、色が乱れた町並みが現れているアプリケーションは、構造が複雑なため、改善が必要である。

符号Ｂ３に示すような整然とした低層ビルの町並みでは、サブシステムの範囲が定まっており、保守がしやすい。すなわち、整然とした低層ビルの町並みが現れているアプリケーションは、構造が簡単で、影響範囲を特定しやすい。

このようなアプリケーション地図により、アプリケーションの保守や開発に関わるリスクを把握できる。また、経営層から開発者まで巻き込んだ議論が可能となる。更に、モダナイゼーションすべきアプリケーションの優先順位が判る。

図３は、関連例としてのソフトウェアクラスタリングを例示する図である。

図３において、符号Ｃ１で示すノードはプログラムに対応し、符号Ｃ２で示すノード間のエッジは依存関係（例えば、関数呼出し）に対応する。すなわち、プログラムを接点とし、プログラム間の依存関係を辺とするグラフ構造に対して、グラフクラスタリング技術が適用される。

ソフトウェアクラスタリングでは、大規模なソフトウェアが、何らかの基準に従って、構成するプログラム（例えば、ソースやファイル，クラス）のより小さな集まりに分割される。理解や管理のしやすいサイズに分割され、図３に示す例では、符号Ｃ３に示すように、依存関係の密な箇所がクラスタとして抽出される。

しかしながら、顧客にとって、クラスタが何を意味するか分かりにくいことがある。計算によって得られたクラスタは、一般にはソフトウェアの設計者が定義した分類と一致しないため、どの様な意味を持つ集合なのか分かりにくい場合がある。

そこで、プログラム名に含まれる単語からクラスタに特徴的なものを点数付けして上位のもの数語を抽出し、キーワードとして提示し、理解の助けとする技術がある。

特開２００４－３００２１号公報特開２０１９－２１２３２号公報

しかしながら、業務用語等、連続した文字列を分割して単語として扱うと結果が判りにくいことがある。例えば、プログラム名「物品リスト情報の削除機能」の中から「リスト」や「物品」等の個々の単語がバラバラに出力されても、業務上何を意味しているか理解しづらい。

１つの側面では、クラスタの内容を代表する簡潔な名称を出力することを目的とする。

１つの側面では、名称抽出プログラムは、コンピュータに、同一のクラスタに属する複数のプログラムの名称に含まれる単語の出現頻度に基づき、前記複数のプログラムの中から少なくとも２つのプログラムを選択し、選択された前記少なくとも２つのプログラムの名称に含まれる共通の単語の配列を前記クラスタの名称として抽出する、処理を実行させる。

１つの側面では、クラスタの内容を代表する簡潔な名称を出力できる。

関連例としての資産分析サービスを例示する図である。関連例としてのソフトウェア地図を例示する図である。関連例としてのソフトウェアクラスタリングを例示する図である。実施形態の一例における分析支援装置のハードウェア構成例を模式的に示すブロック図である。図４に示した分析支援装置の機能構成例を模式的に示すブロック図である。図５に示したプログラム名格納部におけるデータ例をテーブル形式で示す例である。図５に示した単語得点格納部におけるデータ例をテーブル形式で示す例である。図５に示したトータルスコア格納部におけるデータ例をテーブル形式で示す例である。図５に示した代表プログラム格納部におけるデータ例をテーブル形式で示す例である。図５に示したクラスタ名称格納部におけるデータ例をテーブル形式で示す例である。図４に示した分析支援装置におけるソフトウェア地図の出力例を示す図である。図４に示した分析支援装置におけるクラスタ名抽出処理を説明するフローチャートである。図１２に示したトータルスコア算出処理の詳細を説明するフローチャートである。図１２に示した代表プログラム選出処理の詳細を説明するフローチャートである。図１２に示した共通部分列計算処理の詳細を説明するフローチャートである。第１変形例における単語得点格納部におけるデータ例をテーブル形式で示す図である。第１変形例における共通部分列計算処理を説明するフローチャートである。第２変形例におけるクラスタ名抽出処理を説明するフローチャートである。図１８に示した語順反転整列処理の詳細を説明するフローチャートである。

以下、図面を参照して一実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。

また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

以下、図中において、同一の各符号は同様の部分を示しているので、その説明は省略する。

〔Ａ〕実施形態の一例
〔Ａ－１〕システム構成例
図４は、実施形態の一例における分析支援装置１のハードウェア構成例を模式的に示すブロック図である。

図４に示すように、分析支援装置１は、情報処理装置の一例であり、Central Processing Unit（ＣＰＵ）１１，メモリ１２，表示制御部１３，記憶装置１４，入力Interface（Ｉ／Ｆ）１５，読み書き処理部１６及び通信Ｉ／Ｆ１７を備える。

メモリ１２は、記憶部の一例であり、例示的に、Read Only Memory（ＲＯＭ）及びRandom Access Memory（ＲＡＭ）を含む記憶装置である。メモリ１２のＲＯＭには、Basic Input/Output System（ＢＩＯＳ）等のプログラムが書き込まれてよい。メモリ１２のソフトウェアプログラムは、ＣＰＵ１１に適宜に読み込まれて実行されてよい。また、メモリ１２のＲＡＭは、一次記録メモリあるいはワーキングメモリとして利用されてよい。

表示制御部１３は、表示装置１３０と接続され、表示装置１３０を制御する。表示装置１３０は、液晶ディスプレイやOrganic Light-Emitting Diode（ＯＬＥＤ）ディスプレイ，Cathode Ray Tube（ＣＲＴ），電子ペーパーディスプレイ等であり、オペレータ等に対する各種情報を表示する。表示装置１３０は、入力装置と組み合わされたものでもよく、例えば、タッチパネルでもよい。

記憶装置１４は、例示的に、データを読み書きして記憶する装置であり、例えば、Hard Disk Drive（ＨＤＤ）やSolid State Drive（ＳＳＤ），Storage Class Memory（ＳＣＭ）が用いられてよい。記憶装置１４は、図５等を用いて後述するプログラム名格納部１４１，単語得点格納部１４２，トータルスコア格納部１４３，代表プログラム格納部１４４及びクラスタ名称格納部１４５として機能して良い。

入力Ｉ／Ｆ１５は、マウス１５１やキーボード１５２等の入力装置と接続され、マウス１５１やキーボード１５２等の入力装置を制御してよい。マウス１５１やキーボード１５２は、入力装置の一例であり、これらの入力装置を介して、オペレータが各種の入力操作を行なう。

読み書き処理部１６は、記録媒体１６０が装着可能に構成される。読み書き処理部１６は、記録媒体１６０が装着された状態において、記録媒体１６０に記録されている情報を読み取り可能に構成される。本例では、記録媒体１６０は、可搬性を有する。例えば、記録媒体１６０は、フレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、又は、半導体メモリ等である。

通信Ｉ／Ｆ１７は、外部装置との通信を可能にするためのインタフェースである。

ＣＰＵ１１は、種々の制御や演算を行なう処理装置であり、メモリ１２に格納されたOperating System（ＯＳ）やプログラムを実行することにより、種々の機能を実現する。

分析支援装置１全体の動作を制御するための装置は、ＣＰＵ１１に限定されず、例えば、ＭＰＵやＤＳＰ，ＡＳＩＣ，ＰＬＤ，ＦＰＧＡのいずれか１つであってもよい。また、分析支援装置１全体の動作を制御するための装置は、ＣＰＵ，ＭＰＵ，ＤＳＰ，ＡＳＩＣ，ＰＬＤ及びＦＰＧＡのうちの２種類以上の組み合わせであってもよい。なお、ＭＰＵはMicro Processing Unitの略称であり、ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific Integrated Circuitの略称である。また、ＰＬＤはProgrammable Logic Deviceの略称であり、ＦＰＧＡはField Programmable Gate Arrayの略称である。

図５は、図４に示した分析支援装置１の機能構成例を模式的に示すブロック図である。

図５に示すように、分析支援装置１のＣＰＵ１１は、プログラム（別言すれば、名称抽出プログラム）を実行することにより、トータルスコア算出部１１１，代表プログラム選出部１１２及び共通部分列計算部１１３として機能する。また、分析支援装置１の記憶装置１４は、プログラム名格納部１４１，単語得点格納部１４２，トータルスコア格納部１４３，代表プログラム格納部１４４及びクラスタ名称格納部１４５として機能する。

トータルスコア算出部１１１は、プログラム名格納部１４１のプログラム名と、単語得点格納部１４２の各単語の得点とに基づき、各プログラムのトータルスコアを算出して、トータルスコアをトータルスコア格納部１４３に格納する。

別言すれば、トータルスコア算出部１１１は、算出部の一例であり、複数のプログラムの名称に含まれる単語のそれぞれについて設定された得点を参照し、複数のプログラムの名称それぞれに対して得点の和を算出する。

代表プログラム選出部１１２は、トータルスコア格納部１４３における各プログラムのトータルスコアに基づき、代表プログラムを例えば２つ選出し、選出した代表プログラムの名称を代表プログラム格納部１４４に格納する。

別言すれば、代表プログラム選出部１１２は、選択部の一例であり、同一のクラスタに属する複数のプログラムの名称に含まれる単語の出現頻度に基づき、複数のプログラムの中から少なくとも２つのプログラムを選択する。また、代表プログラム選出部１１２は、算出された得点の和が上位のプログラムを、少なくとも２つのプログラムとして選択してよい。

共通部分列計算部１１３は、代表プログラム格納部１４４における複数の代表プログラムの名称に基づき、クラスタ名称を生成して、クラスタ名称をクラスタ名称格納部１４５に格納する。

別言すれば、共通部分列計算部１１３は、選択された少なくとも２つのプログラムの名称に含まれる共通の単語の配列をクラスタの名称として抽出する。

図６は、図５に示したプログラム名格納部１４１におけるデータ例をテーブル形式で示す例である。図７は、図５に示した単語得点格納部１４２におけるデータ例をテーブル形式で示す例である。

図６に示すように、プログラム名格納部１４１には、クラスタＩＤとプログラム名とが対応付けられたデータが格納される。

図７に示すように、単語得点格納部１４２には、クラスタＩＤと単語と得点とが対応付けられたデータが格納される。

トータルスコア算出部１１１は、プログラム名格納部１４１のプログラム名と、単語得点格納部１４２の各単語の得点とに基づき、各プログラムのトータルスコアを算出する。

例えば、図６に示すプログラム名「物品リスト情報の削除機能」は、図７に示す「物品」，「リスト」，「情報」，「削除」及び「機能」の各単語により構成される。各単語の得点の和は、0.014+0.006+0.009+0.214+0.006=0.249となる。

ここで、単語毎の得点は、既存技術であるｔｆ－ｉｄｆを用いて出現頻度に基づいて計算されてよい。

ｔｆ－ｉｄｆは、文書におけるある単語の重要度を表す計算である。ｔｆ－ｉｄｆは、文書における単語の頻度（term frequency）と、その単語がどれだけ多くの文書に現れるありふれたものであるかの指標（inverse document frequency）とが掛け合わされることによって計算される。

図８は、図５に示したトータルスコア格納部１４３におけるデータ例をテーブル形式で示す例である。

図８に示すように、トータルスコア格納部１４３には、クラスタＩＤとプログラム名とトータルスコアとが対応付けられたデータが格納される。

トータルスコア算出部１１１は、算出した各プログラム名のトータルスコアをトータルスコア格納部１４３に格納する。

図９は、図５に示した代表プログラム格納部１４４におけるデータ例をテーブル形式で示す例である。

図９に示すように、代表プログラム格納部１４４には、クラスタＩＤとプログラム名とが対応付けられたデータが格納される。

代表プログラム選出部１１２は、トータルスコア格納部１４３からトータルスコアが例えば上位２つのプログラム名を選出して、代表プログラム格納部１４４に格納する。

図８に示したトータルスコア格納部１４３では、「物品リスト情報の削除機能」が0.249であり、「物品リスト削除確認」が0.238であり、上位２つのトータルスコアを有する。そこで、代表プログラム選出部１１２は、「物品リスト情報の削除機能」及び「物品リスト削除確認」を代表プログラム格納部１４４に格納する。

ここで、代表プログラムとは、名称が当該クラスタを代表すると考えられるプログラムである。

なお、ｔｆ－ｉｄｆのような単語の得点を用いず、他の方法によって代表プログラムが選出されてもよい。例えば、クラスタ内のコールグラフに基づいて、大本の呼出元に近いプログラムから順に代表プログラムとして選出されてもよい。

図１０は、図５に示したクラスタ名称格納部１４５におけるデータ例をテーブル形式で示す例である。

図１０に示すように、クラスタ名称格納部１４５には、クラスタＩＤとプログラム名とが対応付けられたデータが格納される。

共通部分列計算部１１３は、代表プログラム格納部１４４におけるプログラム名から、単語の共通部分を計算する。

共通部分の計算は、順序を保って共通部分を取り出す、Longest Common Subsequence（ＬＣＳ；最長共通部分列）のロジックによって実施されてよい。例えば、２つの文字列「ＡＢＣＤＥ」と「ＡＢＤＦ」とのＬＣＳは、「ＡＢＤ」となる。

また、日本語のプログラム名が形態素解析によって単語に分割され、特定の品詞（別言すれば、名詞）の単語に限って取り出されてＬＣＳの対象として用いられてよい。例えば、プログラム名「物品リスト情報の削除機能」のうち、用いられる単語列は「物品，リスト，情報，削除，機能」とされてよい。

図９に示した代表プログラム格納部１４４では、「物品リスト情報の削除機能」及び「物品リスト削除確認」について、「物品，リスト，情報，削除，機能」及び「物品，リスト，削除，確認」の名詞の単語の列がそれぞれ生成される。２つの名詞の単語の列に対してＬＣＳが適用されて「物品，リスト，削除」が残され、図１０に示すクラスタ名称格納部１４５にクラスタ名称「物品リスト削除」として格納される。

図１１は、図４に示した分析支援装置１におけるソフトウェア地図の出力例を示す図である。

図１１に示すソフトウェア地図では、個々の建物（図示する正方形；符号Ｄ１参照）がソースファイルを表し、街区（図する二重枠の長方形；符号Ｄ２参照）がクラスタを表す。

街区（別言すれば、クラスタ）のそれぞれに対して、共通部分列計算部１１３によって計算されたクラスタ名称が応付けて表示される（符号Ｄ３参照）。これにより、各クラスタがどんな機能を実装しているか理解しやすくなる。

〔Ａ－２〕動作例
図４に示した分析支援装置１におけるクラスタ名抽出処理を、図１２に示すフローチャート（ステップＳ１～Ｓ３）に従って説明する。

トータルスコア算出部１１１は、各プログラム名のトータルスコアを算出する（ステップＳ１）。なお、ステップＳ１における処理の詳細は、図１３を用いて後述する。

代表プログラム格納部１４４は、算出された各プログラムのトータルスコアに基づき、例えば２つの代表プログラムを算出する（ステップＳ２）。なお、ステップＳ２における処理の詳細は、図１４を用いて後述する。

共通部分列計算部１１３は、例えば２つの代表プログラムの名称について、共通部分列を計算し（ステップＳ３）、処理は終了する。なお、ステップＳ３における処理の詳細は、図１５を用いて後述する。

次に、図１２に示したトータルスコア算出処理の詳細を、図１３に示すフローチャート（ステップＳ１１～Ｓ１７）に従って説明する。

トータルスコア算出部１１１は、プログラム名格納部１４１から、注目クラスタに属するプログラム名を１つ取り出す（ステップＳ１１）。

トータルスコア算出部１１１は、プログラム名を単語に分割し、採用する品詞（例えば、名詞）以外の語を除去する（ステップＳ１２）。

トータルスコア算出部１１１は、プログラム名の単語からまだ確認していない単語を１つ取り出す（ステップＳ１３）。

トータルスコア算出部１１１は、単語得点格納部１４２から、注目クラスタにおける注目単語の得点を取り出す（ステップＳ１４）。

トータルスコア算出部１１１は、プログラム名において確認していない単語がまだあるかを判定する（ステップＳ１５）。

確認していない単語がまだある場合には（ステップＳ１５のＹＥＳルート参照）、処理はステップＳ１３へ戻る。

一方、確認していない単語がもうない場合には（ステップＳ１５のＮＯルート参照）、トータルスコア算出部１１１は、そのプログラム名の得点として、トータルスコア格納部１４３に格納する（ステップＳ１６）。

トータルスコア算出部１１１は、注目クラスタに未処理のプログラム名があるかを判定する（ステップＳ１７）。

未処理のプログラム名がある場合には（ステップＳ１７のＹＥＳルート参照）、処理はステップＳ１１へ戻る。

一方、未処理のプログラム名がない場合には（ステップＳ１７のＮＯルート参照）、トータルスコア算出処理は終了する。

次に、図１２に示した代表プログラム選出処理の詳細を、図１４に示すフローチャート（ステップＳ２１～Ｓ２３）に従って説明する。

代表プログラム選出部１１２は、注目クラスタについて、トータルスコア格納部１４３から、プログラム名とそのトータルスコアとの組を全部取り出す（ステップＳ２１）。

代表プログラム選出部１１２は、最もトータルスコアが大きなプログラム名を代表プログラム格納部１４４に格納する（ステップＳ２２）。

代表プログラム選出部１１２は、２番目にトータルスコアが大きなプログラム名を代表プログラム格納部１４４に格納する（ステップＳ２３）。そして、代表プログラム選出処理は終了する。

次に、図１２に示した共通部分列計算処理の詳細を、図１５に示すフローチャート（ステップＳ３１～Ｓ３６）に従って説明する。

共通部分列計算部１１３は、注目クラスタについて、代表プログラム格納部１４４から代表プログラム名を２つ取り出す（ステップＳ３１）。

共通部分列計算部１１３は、両方のプログラム名についてそれぞれ、文字列を要素にとる配列を用意する（ステップＳ３２）。

共通部分列計算部１１３は、各プログラム名を単語に分解し、注目する品詞（例えば、名詞）に限って、当該プログラム名のために用意された配列に格納する（ステップＳ３３）。

共通部分列計算部１１３は、プログラム名に対応する２つの配列に対して、ＬＣＳの計算を行ない、結果を配列として得る（ステップＳ３４）。

共通部分列計算部１１３は、結果の配列の要素（別言すれば、文字列）を連結し、クラスタ名称を得る（ステップＳ３５）。

共通部分列計算部１１３は、注目しているクラスタＩＤに対するクラスタ名称をクラスタ名称格納部１４５に格納する（ステップＳ３６）。そして、共通部分列計算処理は終了する。

〔Ａ－３〕効果
上述した実施形態の一例における情報処理装置，名称抽出プログラム及び名称抽出方法によれば、例えば、以下の作用効果を奏することができる。

代表プログラム選出部１１２は、同一のクラスタに属する複数のプログラムの名称に含まれる単語の出現頻度に基づき、複数のプログラムの中から少なくとも２つのプログラムを選択する。共通部分列計算部１１３は、選択された少なくとも２つのプログラムの名称に含まれる共通の単語の配列をクラスタの名称として抽出する。

これにより、クラスタの内容を代表する簡潔な名称を出力できる。具体的には、代表的な複数のプログラム名の間の共通部分を抽出することにより、クラスタ内で共通に現れる処理内容の中心部分を残すことができる。また、元のプログラム名の語順を保持しているため、クラスタの機能に対する理解が容易になる。

トータルスコア算出部１１１は、複数のプログラムの名称に含まれる単語のそれぞれについて設定された得点を参照し、複数のプログラムの名称それぞれに対して得点の和を算出する。代表プログラム選出部１１２は、算出された得点の和が上位のプログラムを、少なくとも２つのプログラムとして選択する。

これにより、代表プログラムを効率的に選択できる。

単語の得点は、クラスタにおける出現頻度が高い単語ほど、大きく設定される。

これにより、同一のクラスタ内で頻出の単語を含むプログラムが代表プログラムとして選択されやすくなり、適切なクラスタの名称を抽出できる。

単語の得点は、複数のクラスタにおける共通した出現頻度が高い単語ほど、小さく設定される。

これにより、複数のクラスタ間で共通して頻出する単語を含むプログラムが代表プログラムとして選択されにくくなり、適切なクラスタの名称を抽出できる。

〔Ｂ〕第１変形例
代表プログラム名の共通部分に限って抽出されても、生成されるクラスタ名称が長くなってしまう場合がある。

例えば、２つの代表プログラム名として、「物品リスト情報内容の編集画面共通機能」と「物品リスト情報内容編集確認画面共通機能」とが抽出された場合を想定する。２つの代表プログラム名の名詞の列についてＬＣＳを取ると、「物品リスト情報内容編集画面共通機能」となり、クラスタ名称が長くなってしまう。

そこで、本第１変形例では、ＬＣＳを取って残った単語であっても、単語得点格納部１４２における得点が低い単語については、クラスタ名称に採用しない。

すなわち、共通部分列計算部１１３は、得点が閾値未満である単語について、クラスタの名称として抽出する単語の配列から除外する。

図１６は、第１変形例における単語得点格納部１４２におけるデータ例をテーブル形式で示す図である。

「物品リスト情報内容の編集画面共通機能」と「物品リスト情報内容編集確認画面共通機能」とのプログラム名からＬＣＳを取った結果得られる単語列は、［物品，リスト，情報，内容，編集，画面，共通，機能］となる。

共通部分列計算部１１３は、図１６に例示する単語得点格納部１４２から、それぞれの単語の当該クラスタ内におけるｔｆ－ｉｄｆスコアを参照する。

共通部分列計算部１１３は、閾値（例えば、０．００５）未満の単語を除いて、残った単語を連結する。これにより、当該クラスタにおける出現頻度が低い単語が省略され（ｔｆの効果）、他の多数のクラスタに現れるありふれた単語が省略される（ｉｄｆの効果）。

図１６に示す例では、共通部分列計算部１１３は、クラスタ名称として、「物品リスト情報編集」を抽出する。

第１変形例における共通部分列計算処理を、図１７に示すフローチャート（ステップＳ４１～Ｓ４７）に従って説明する。

共通部分列計算部１１３は、注目クラスタについて、代表プログラム格納部１４４から代表プログラム名を２つ取り出す（ステップＳ４１）。

共通部分列計算部１１３は、両方のプログラム名についてそれぞれ、文字列を要素に取る配列を用意する（ステップＳ４２）。

共通部分列計算部１１３は、各プログラム名を単語に分解し、注目する品詞（例えば、名詞）に限って、当該プログラム名のために用意された配列に格納する（ステップＳ４３）。

共通部分列計算部１１３は、配列の各要素の単語について単語得点格納部１４２を参照して得点を所得し、所定の閾値に満たない単語については配列から取り除く（ステップＳ４４）。

共通部分列計算部１１３は、プログラム名に対応する２つの配列に対して、ＬＣＳの計算を行ない、結果を配列として得る（ステップＳ４５）。

共通部分列計算部１１３は、結果の配列の要素（別言すれば、文字列）を連結し、クラスタ名称を得る（ステップＳ４６）。

共通部分列計算部１１３は、注目しているクラスタＩＤに対するクラスタ名称をクラスタ名称格納部１４５に格納する（ステップＳ４７）。

本第１変形例によれば、上述した実施形態の一例において奏することができる効果に加えて、例えば以下の作用効果を奏することができる。

プログラム名の枝葉の部分である単語をクラスタの名称から除外することができ、クラスタの機能の中心部を表す簡潔なフレーズを得ることができる。

〔Ｃ〕第２変形例
２つの代表プログラム名がほぼ同じ内容を表しているものの、語順が逆転している単語が含まれている場合がある。本第２変形例では、２つの代表プログラム名において語順が逆転している単語が含まれる場合にも、クラスタ名称を計算できるようにする。

例えば、代表プログラム名として、「オンライン会員登録画面」と「会員オンライン共通機能」とが抽出されたことを想定する。この２つの代表プログラム名のＬＣＳを適用すると、「オンライン」又は「会員」がクラスタ名称から欠落してしまう。

共通部分列計算部１１３は、２つの代表プログラム名の間で単語の逆転があるかを判定し、単語の反転がある場合には、いずれかの代表プログラム名の語順に揃えてから２つの代表プログラム名に対してＬＣＳを適用する。

単語の逆転の検出には、例えば既存技術であるDamerau-Levenshtein距離が用いられてよい。Damerau-Levenshtein距離は、２つの文字列間の違いの大きさを表し、一方の文字列に対して、１文字の追加・削除・置換・転置（transposition；別言すれば、隣接する文字の交換）が何回行なわれると他方の文字列と同一となるかの回数を示す。例えば、文字列＃１「ＡＢＣ」と文字列＃２「ＡＢＸＣ」とは、文字列＃１に「Ｘ」を１文字追加することで文字列＃２となるため、Damerau-Levenshtein距離は１となる。また、「ＡＢＣ」と「ＡＣＢ」とは１回の転置であるため、Damerau-Levenshtein距離は１となる。

Damerau-Levenshtein距離の計算の際に転置が認識できるため、共通部分列計算部１１３は、転置の位置を記録しておき、転置の位置において一方のプログラム名の語順を反転させることで、他方のプログラム名の語順に揃える。

「オンライン会員登録画面」と「会員オンライン登録機能」とでは、位置１（別言すれば、先頭）において、「オンライン」と「単語」との語順の転置がある。そこで、共通部分列計算部１１３は、「会員オンライン登録機能」の語順を反転させて「オンライン会員登録機能」に変換する。そして、共通部分列計算部１１３は、「オンライン会員登録画面」と「オンライン会員登録機能」との間における共通部分を抽出する。この場合には、共通部分列計算部１１３は、クラスタ名称として、「オンライン会員登録」を抽出する。

すなわち、共通部分列計算部１１３は、少なくとも２つのプログラムの間において語順が反転している単語がある場合には、少なくとも２つのプログラムのうちの一方のプログラムについて、当該単語の語順を転置させる。

第２変形例におけるクラスタ名抽出処理を、図１８に示すフローチャート（ステップＳ５１～Ｓ５４）に従って説明する。

トータルスコア算出部１１１は、各プログラム名のトータルスコアを算出する（ステップＳ５１）。なお、ステップＳ５１における処理の詳細は、図１３を用いて前述した。

代表プログラム格納部１４４は、算出された各プログラムのトータルスコアに基づき、例えば２つの代表プログラムを算出する（ステップＳ５２）。なお、ステップＳ５２における処理の詳細は、図１４を用いて前述した。

共通部分列計算部１１３は、２つの代表プログラムにおける名称の語順反転を整列させる（ステップＳ５３）。なお、ステップＳ５３における処理の詳細は、図１９を用いて後述する。

共通部分列計算部１１３は、例えば２つの代表プログラムの名称について、共通部分列を計算し（ステップＳ５４）、処理は終了する。なお、ステップＳ５４における処理の詳細は、図１５又は図１７を用いて前述した。

次に、図１８に示した語順反転整列処理の詳細を、図１９に示すフローチャート（ステップＳ６１～Ｓ６７）に従って説明する。

共通部分列計算部１１３は、注目クラスタについて、代表プログラム格納部１４４から、代表プログラム名を２つ取り出す（ステップＳ６１）。

共通部分列計算部１１３は、各プログラム名を単語に分解し、注目する品詞（例えば、名詞）に限って、当該プログラム名のために用意された配列＃１に格納する（ステップＳ６２）。

共通部分列計算部１１３は、２つのプログラム名に対応する配列＃１のDamerau-Levenshtein距離を計算する。その際に、共通部分列計算部１１３は、転置を検出した時点の配列＃１の２つ目のプログラム名の単語の位置を配列＃２に格納していく（ステップＳ６３）。

共通部分列計算部１１３は、配列＃２の先頭の要素から順に１つずつ取り出す（ステップＳ６４）。

共通部分列計算部１１３は、配列＃２の注目している要素に従って、配列＃１の２つ目の単語の転置の位置を特定し、語順を入れ替える（ステップＳ６５）。

共通部分列計算部１１３は、配列＃２の要素がまだあるかを判定する（ステップＳ６６）。

配列＃２の要素がまだある場合には（ステップＳ６６のＹＥＳルート参照）、処理はステップＳ６４へ戻る。

一方、配列＃２の要素がもうない場合には（ステップＳ６６のＮＯルート参照）、共通部分列計算部１１３は、語順入れ替えの完了した配列の要素を文字列に連結し、そのプログラム名を代表プログラム格納部１４４に格納する（ステップＳ６７）。そして、語順反転整列処理は終了する。

本第２変形例によれば、上述した実施形態の一例において奏することができる効果に加えて、例えば以下の作用効果を奏することができる。

複数の代表プログラム間において語順が判定している単語が含まれている場合にも、適切なクラスタの名称を抽出できる。

〔Ｄ〕その他
開示の技術は上述した実施形態及び変形例に限定されるものではなく、本実施形態及び変形例の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態及び変形例の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

〔Ｅ〕付記
以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
コンピュータに、
同一のクラスタに属する複数のプログラムの名称に含まれる単語の出現頻度に基づき、前記複数のプログラムの中から少なくとも２つのプログラムを選択し、
選択された前記少なくとも２つのプログラムの名称に含まれる共通の単語の配列を前記クラスタの名称として抽出する、
処理を実行させる、名称抽出プログラム。

（付記２）
前記複数のプログラムの名称に含まれる単語のそれぞれについて設定された得点を参照し、前記複数のプログラムの名称それぞれに対して前記得点の和を算出し、
算出された前記得点の和が上位のプログラムを、前記少なくとも２つのプログラムとして選択する、
処理を前記コンピュータに実行させる、付記１に記載の名称抽出プログラム。

（付記３）
前記得点は、前記クラスタにおける出現頻度が高い単語ほど、大きく設定される、
付記２に記載の名称抽出プログラム。

（付記４）
前記得点は、前記クラスタを含む複数のクラスタにおける共通した出現頻度が高い単語ほど、小さく設定される、
付記２又は３に記載の名称抽出プログラム。

（付記５）
前記得点が閾値未満である単語について、前記配列から除外する、
処理を前記コンピュータに実行させる、付記２～４のいずれか１項に記載の名称抽出プログラム。

（付記６）
前記少なくとも２つのプログラムの間において語順が反転している単語がある場合には、前記少なくとも２つのプログラムのうちの一方のプログラムについて、当該単語の語順を転置させる、
処理を前記コンピュータに実行させる、付記１～５のいずれか１項に記載の名称抽出プログラム。

（付記７）
同一のクラスタに属する複数のプログラムの名称に含まれる単語の出現頻度に基づき、前記複数のプログラムの中から少なくとも２つのプログラムを選択する選択部と、
前記選択部によって選択された前記少なくとも２つのプログラムの名称に含まれる共通の単語の配列を前記クラスタの名称として抽出する抽出部と、
を備える、情報処理装置。

（付記８）
前記複数のプログラムの名称に含まれる単語のそれぞれについて設定された得点を参照し、前記複数のプログラムの名称それぞれに対して前記得点の和を算出する算出部を更に備え、
前記選択部は、前記算出部によって算出された前記得点の和が上位のプログラムを、前記少なくとも２つのプログラムとして選択する、
付記７に記載の情報処理装置。

（付記９）
前記得点は、前記クラスタにおける出現頻度が高い単語ほど、大きく設定される、
付記８に記載の情報処理装置。

（付記１０）
前記得点は、前記クラスタを含む複数のクラスタにおける共通した出現頻度が高い単語ほど、小さく設定される、
付記８又は９に記載の情報処理装置。

（付記１１）
前記抽出部は、前記得点が閾値未満である単語について、前記配列から除外する、
付記８～１０のいずれか１項に記載の情報処理装置。

（付記１２）
前記抽出部は、前記少なくとも２つのプログラムの間において語順が反転している単語がある場合には、前記少なくとも２つのプログラムのうちの一方のプログラムについて、当該単語の語順を転置させる、
付記７～１１のいずれか１項に記載の情報処理装置。

（付記１３）
同一のクラスタに属する複数のプログラムの名称に含まれる単語の出現頻度に基づき、前記複数のプログラムの中から少なくとも２つのプログラムを選択し、
選択された前記少なくとも２つのプログラムの名称に含まれる共通の単語の配列を前記クラスタの名称として抽出する、
を備える、名称抽出方法。

（付記１４）
前記複数のプログラムの名称に含まれる単語のそれぞれについて設定された得点を参照し、前記複数のプログラムの名称それぞれに対して前記得点の和を算出し、
算出された前記得点の和が上位のプログラムを、前記少なくとも２つのプログラムとして選択する、
付記１３に記載の名称抽出方法。

（付記１５）
前記得点は、前記クラスタにおける出現頻度が高い単語ほど、大きく設定される、
付記１４に記載の名称抽出方法。

（付記１６）
前記得点は、前記クラスタを含む複数のクラスタにおける共通した出現頻度が高い単語ほど、小さく設定される、
付記１４又は１５に記載の名称抽出方法。

（付記１７）
前記得点が閾値未満である単語について、前記配列から除外する、
付記１４～１６のいずれか１項に記載の名称抽出方法。

（付記１８）
前記少なくとも２つのプログラムの間において語順が反転している単語がある場合には、前記少なくとも２つのプログラムのうちの一方のプログラムについて、当該単語の語順を転置させる、
付記１３～１７のいずれか１項に記載の名称抽出方法。

１：分析支援装置
１１：ＣＰＵ
１１１：トータルスコア算出部
１１２：代表プログラム選出部
１１３：共通部分列計算部
１２：メモリ
１３：表示制御部
１３０：表示装置
１４：記憶装置
１４１：プログラム名格納部
１４２：単語得点格納部
１４３：トータルスコア格納部
１４４：代表プログラム格納部
１４５：クラスタ名称格納部
１５：入力Ｉ／Ｆ
１５１：マウス
１５２：キーボード
１６：読み書き処理部
１６０：記録媒体
１７：通信Ｉ／Ｆ

Claims

コンピュータに、
同一のクラスタに属する複数のプログラムの名称に含まれる単語の出現頻度に基づき、前記複数のプログラムの中から少なくとも２つのプログラムを選択し、
選択された前記少なくとも２つのプログラムの名称に含まれる共通の単語の配列を前記クラスタの名称として抽出する、
処理を実行させる、名称抽出プログラム。
前記複数のプログラムの名称に含まれる単語のそれぞれについて設定された得点を参照し、前記複数のプログラムの名称それぞれに対して前記得点の和を算出し、
算出された前記得点の和が上位のプログラムを、前記少なくとも２つのプログラムとして選択する、
処理を前記コンピュータに実行させる、請求項１に記載の名称抽出プログラム。
前記得点は、前記クラスタにおける出現頻度が高い単語ほど、大きく設定される、
請求項２に記載の名称抽出プログラム。
前記得点は、前記クラスタを含む複数のクラスタにおける共通した出現頻度が高い単語ほど、小さく設定される、
請求項２又は３に記載の名称抽出プログラム。
前記得点が閾値未満である単語について、前記配列から除外する、
処理を前記コンピュータに実行させる、請求項２～４のいずれか１項に記載の名称抽出プログラム。
前記少なくとも２つのプログラムの間において語順が反転している単語がある場合には、前記少なくとも２つのプログラムのうちの一方のプログラムについて、当該単語の語順を転置させる、
処理を前記コンピュータに実行させる、請求項１～５のいずれか１項に記載の名称抽出プログラム。
同一のクラスタに属する複数のプログラムの名称に含まれる単語の出現頻度に基づき、前記複数のプログラムの中から少なくとも２つのプログラムを選択する選択部と、
前記選択部によって選択された前記少なくとも２つのプログラムの名称に含まれる共通の単語の配列を前記クラスタの名称として抽出する抽出部と、
を備える、情報処理装置。
コンピュータは、
同一のクラスタに属する複数のプログラムの名称に含まれる単語の出現頻度に基づき、前記複数のプログラムの中から少なくとも２つのプログラムを選択し、
選択された前記少なくとも２つのプログラムの名称に含まれる共通の単語の配列を前記クラスタの名称として抽出する、
処理を実行する、名称抽出方法。