JP2001005650A

JP2001005650A - コンピュータプログラムのコメント文生成方法及び装置

Info

Publication number: JP2001005650A
Application number: JP11176914A
Authority: JP
Inventors: Rintaro Owaki; 林太郎尾脇
Original assignee: Kawasaki Steel Corp
Current assignee: JFE Steel Corp
Priority date: 1999-06-23
Filing date: 1999-06-23
Publication date: 2001-01-12

Abstract

(57)【要約】【課題】構造が曖昧なプログラムであっても、その内
容を適切に表わすコメント文を生成する。【解決手段】プログラム８のソースコードを読み出
し、該ソースコードの意味を解析して推論し、対応する
コメント文がモジュール毎に蓄積された辞書３４と対照
し、対応するコメント文を選択して組合せることによ
り、コメント文を自動的に生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータプロ
グラムのコメント文生成方法及び装置に係り、特に、構
造が曖昧なプログラムも対象に含めたプログラム理解支
援を行うことによって、ソフトウェアの保守負荷の軽減
を図るために、プログラムに手を加えることなく、ソー
スコードを解析し、モジュール単位でその意味をコメン
ト文として自動的に生成することが可能な、コンピュー
タプログラムのコメント文生成方法及び装置に関する。

【０００２】

【従来の技術】近年、計算機システム開発において、ソ
フトウェア保守の負荷が大きな問題となっている。ソフ
トウェア保守負荷の増大は、基本的に、システムの成長
によって生じるが、成長による歪みが保守作業の増加に
拍車をかけている一面もある。

【０００３】即ち、計算機システム開発の現場では、既
存システムの保守のために過去のプログラムソースコー
ドの変更が行われている。このとき、変更後の動作を確
実に保証するため、大幅な修正は避け、最小範囲の改造
に留める傾向にある。そのため、実際に使われているプ
ログラムは、プログラム構造化手法が確立する以前に作
成されたもの、異言語間にコンバートしたもの、幾多の
部分的修正が重ねられたものとなる。これがプログラム
理解、ひいては修正に過大な負担をかけ、この環境改善
が急務になっている。

【０００４】そこで、ソフトウェアの保守負荷を軽減す
るための方策として、計算機によるプログラム理解が着
目されている。即ち、プログラムの保守を効率化するた
めには、プログラムから仕様への逆生成が重要である。
人口知能の先端研究分野では、ファイル処理例題に対す
るＣＯＢＯＬプログラムから形式的な要求仕様（いわゆ
る非手続仕様）を逆生成するリバースエンジニアリング
手法が提案されると共に、それを実現するシステムＣＯ
ＢＯＬ Reverse Engineer for Modules：ＣＯＲＥ
／Ｍ（情報処理学会誌：１９９５．Mar. Vol.36 No.
3）が開発されている。

【０００５】この従来技術では、事務処理の中のファイ
ル処理を対象に、プログラム理解の結果を表わす要求仕
様としては、ファイル処理例題における実体や関連の属
性項目間の関係と出力・更新要求を等関係式と称する数
式の集合で表わした等関係式仕様を採用している。この
仕様は、要求を非手続的に表現している。ここでは、各
計算式の項目は、“・”を介して、それが所属する実体
の識別子によって、又、“ ”を介して、それが格納さ
れているファイル名によって修飾されている。従って、
等関係式は、その左辺項目の意味定義になっている。こ
の手法では、まずＣＯＢＯＬプログラムを構文解析し
て、ブロック構造に展開し、次に、ブロックが処理対象
とする実体や関連を表わす照合基準を抽出する。この照
合基準を基に、実体識別子とファイル修飾子を導出し、
ブロックに含まれる処理文内の項目を適切に修飾して等
関係式に変換し出力する。これらによって、事務処理の
ファイル処理を中心に、解説書を自動生成しようとして
いる。

【０００６】又、特開平８−２７２５９６には、ソース
プログラムの各文字を順次的に読み込んで字句解析し、
ソースプログラムの構成要素を抽出する字句解析機能部
と、抽出されたプログラムの構成要素を予め登録されて
いるプログラム言語の文法と照合することにより、文単
位で切り出す構文解析機能部と、切り出された各文を予
め登録されている注釈挿入ルールに従って１つにまとめ
て処理ブロックとして構成する処理ブロック構成機能部
と、処理ブロック構成機能部が構成した各処理ブロック
に対して、その処理に対応する図形パターンを貼り付
け、更に処理ブロック配置ルールを参照して各図形パタ
ーンを配置することにより、プログラム設定書を生成す
る整形出力機能部とを備えることにより、注釈が不完全
な状態でしか挿入されていないようなソースプログラム
からでも、プログラム設計書を作成し得るプログラム設
計書生成装置が提案されている。

【０００７】このように、プログラムの構文解析手法は
既に確立されたものがあり、解析結果をプログラム構造
化支援のための構文視覚化、あるいは自動構造化に利用
する手法が提案されている。複雑なソースコードを構造
化して読み易くすることは、間接的にプログラム理解へ
の支援となっている。

【０００８】

【発明が解決しようとする課題】しかし、実働している
システムのプログラムを、人間の手を介さずに変更する
ことは、万が一不具合が生じた場合の被害を考慮すれ
ば、現場では受け入れられない。

【０００９】そこで、従来技術で述べたプログラム理解
の支援を目的として、ソースコードを理解し、モジュー
ル単位で、その意味を解説書として生成する手法が求め
られている。即ち、プログラムのソースコードを解析
し、適切な大きさのモジュールの意味を理解してコメン
ト文を自動的に生成する方法が要求される。更に、コメ
ント文が生成不可能な場合には、その旨をユーザに提示
し、逆に人手による修正を反映させて知識ベースを精練
・拡張するための機械学習手法、ならびにユーザインタ
ーフェイスのあり方が重要である。しかしながら、従来
技術では、推論を行っていないため、必ずしも十分な効
果を上げることができなかった。

【００１０】本発明は、前記従来の問題点を解決するべ
くなされたもので、構造が曖昧なプログラムであって
も、プログラムに手を加えることなく、適切なコメント
文を自動的に生成することを課題とする。

【００１１】

【課題を解決するための手段】本発明は、コンピュータ
プログラムの内容を表わすコメント文を生成するに際し
て、プログラムのソースコードを読み出し、該ソースコ
ードの意味を解析して推論し、対応するコメント文がモ
ジュール毎に蓄積された辞書と対照し、対応するコメン
ト文を選択して組合せることにより、コメント文を自動
的に生成するようにして、前記課題を解決したものであ
る。

【００１２】又、前記辞書に蓄積された情報が不足し
て、適切なコメント文を選択できない場合は、適切なコ
メント文を学習し、教師情報として辞書に追加するよう
にしたものである。

【００１３】本発明は、又、コンピュータプログラムの
内容を表わすコメント文を生成する装置において、プロ
グラムのソースコードに対応するコメント文が、モジュ
ール毎に蓄積された辞書と、プログラムのソースコード
を読み出す手段と、読み出されたソースコードの意味を
解析して推論し、モジュール毎に辞書と対照して、対応
するコメント文を選択して組合せる手段とを備えること
により、前記課題を解決したものである。

【００１４】更に、前記辞書に蓄積された情報が不足し
て、適切なコメント文を選択できない場合は、適切なコ
メント文を学習し、教師情報として辞書に追加する学習
手段を備えたものである。

【００１５】又、前記ソースコードの意味の解析を、Ｐ
ｒｏｌｏｇ（ＰＲＯgramming inＬＯＧic）推論の手法
により行うようにしたものである。

【００１６】本発明は、プログラムそのものを変更する
ことなく、プログラムモジュールの意味をコメント文と
して生成して人間に提示するというアプローチで支援を
試みることに特色がある。但し、問題領域に特化するの
では無く、領域知識を入れ替えることによって、様々な
問題に適用可能な枠組であり、計算機システム開発が抱
えているソースコード理解の問題を広く解決できる。

【００１７】プログラムソース理解の研究分野において
は、枠組の一般性を指向するためには、構文解析の段階
で留めざるを得ず、プログラミング教育支援や構造化支
援への適用が試みられている。更に、意味解析の段階に
まで踏み込むために、いわゆるプログラミング一般に共
通する知識の導入も試みられているが、これは、解析ア
ルゴリズムに組み込まれるため、対象領域の変更が容易
ではない。いずれにせよ、これらの方向性では、開発現
場で求められているレベルのプログラム理解支援は困難
である。

【００１８】本発明は、領域固有の知識の導入が可能な
対象に焦点を絞ることによって、コメント文生成まで理
解を進めることのできる一般的な枠組を実現している。

【００１９】本発明で推論に用いることができるＰｒｏ
ｌｏｇ言語は、ＡＩプログラムの記述・開発に適してい
るＡＩ用言語の１つとして開発されたもので、データと
して、記号（シンボル）を取り扱うことができる記号処
理言語であり、又、リストと呼ばれる可変長のデータの
列を取り扱うことのできるリスト処理言語である。更
に、新たな述語を論理式で定義することによってプログ
ラムを作り上げていくもので、Ｐｒｏｌｏｇのプログラ
ムは、論理式の集まりである論理型言語である。このＰ
ｒｏｌｏｇやＬＩＳＰは、ＦＯＲＴＲＡＮやＢＡＳＩＣ
等の手続き型言語とは異なり、非手続型言語と呼ばれ
る。このＰｒｏｌｏｇシステムの主要形態は対話的であ
り、ユーザはＰｒｏｌｏｇシステムを立ち上げた後、シ
ステムと会話するような形で命令を与え、述語を定義し
たり実行したりできるという特徴を有する。

【００２０】

【発明の実施の形態】以下図面を参照して、本発明の実
施形態を詳細に説明する。

【００２１】本発明の動作を中心とする主要な構成を示
す第１実施形態は、図１に示す如く、構文解析によるフ
レーム生成部１０と、モジュール分割部１２と、コメン
ト生成部１６、説明木生成部１８及び辞書を収容したデ
ータベース部２０を含む、説明による一般化（ＥＢＧと
称する）部１４と、ユーザ２４に対するインターフェー
ス部２２とを含んでいる。

【００２２】前記フレーム生成部１０では、プログラム
言語として例えばyacc/lexを用いて、ソースプログラム
を、モジュール分割部１２及びＥＢＧ部１４で用いられ
ているプログラム言語Ｐｒｏｌｏｇで処理可能な表現と
なるフレームへの変換を行う。

【００２３】前記モジュール分割部１２及びＥＢＧ部１
４では、フレーム集合を入力として、処理が行われる。

【００２４】前記モジュール分割部１２では、ＥＢＧ部
１４のコメント生成部１６及び説明木生成部１８の要求
に応じ、ソースプログラムの制御フローグラフを基に、
モジュール分割を行う。モジュール分割は、ソースプロ
グラムに対し、大域的なモジュール分割から開始し、Ｅ
ＢＧ部１４の要求に応じて、より局所的なモジュール分
割へと移行する。

【００２５】前記ＥＢＧ部１４は、コメント生成部１６
及び説明木生成部１８とデータベース部２０に分けられ
る。コメント生成部１６は、ソースプログラムに対応す
るコメントを生成し、説明木生成部１８は、なぜそのコ
メントが生成されたかの説明を表わしている説明木の生
成を行う。ソースプログラム全体に対し、コメントの説
明が一意に決定されない場合は、モジュール分割部１２
を呼び出し、モジュール分割を行う。そのときのモジュ
ールに対し、説明木生成を試み、分割された全てのモジ
ュールに対し、説明木が一意に決定されると、それぞれ
の説明木をつなぎ合わせることによって、ソースプログ
ラム全体の説明木を生成する。

【００２６】前記データベース部２０では、領域知識の
追加を行う際に、データベース内の領域知識との整合性
を行う。

【００２７】最後に、前記ユーザインターフェース部２
２では、生成されたコメント及び説明をユーザ２４に提
示する。更に、辞書における知識の変更や追加も、この
ユーザインターフェース部２２を介して行われる。

【００２８】以下、解析対象プログラムをＣ言語とし、
それぞれのプロセスの説明を行う。ここで用いる知識表
現についての定義は、次のとおりである。

【００２９】領域知識は、ホーン節によって表現する。
ホーン節は、句:-句、句、…、句．で表現される。“:
-”をめだかマークと呼び、めだかマークの左辺をヘッ
ド部、右辺をボディ部と呼ぶ。ボディ部の句は全てＡｎ
ｄ関係にある。句には知識ａ（Ｘ，Ｙ）と、フレーム理
論に基づく知識表現により一つの場面や物事を表すデー
タ構造であるframe（Ｚ）が存在し、Ｘはコメント、Ｙ
はａ（Ｘ，Ｙ）をヘッド部に持つホーン節が格納されて
いるデータベースの種類を表わしている。Ｙにはメイン
データベース“ｍｄｂ”、サブデータベース“ｓｄ
ｂ”、新たに追加される領域知識を表わす“ｎｅｗ”の
いずれかが入る。又、Ｚには解析対象となるソースプロ
グラム−文の情報が格納される。

【００３０】集合｛frame（Ｚ1），frame（Ｚ2），…，
frame（Ｚn）｝をＦrame（Ｚi）（１≦ｉ≦ｎ）とす
る。更に、集合｛ａ（Ｘ1，ｍｄｂ），ａ（Ｘ2，ｍｄ
ｂ），…，ａ（Ｘm，ｍｄｂ）｝をＡ（Ｘj，ｍｄｂ）
（１≦ｊ≦ｍ）とする。

【００３１】ホーン節ａ（Ｘi，Ｙ）:-Ａ（Ｘj，Ｙ），
Ｆrame（Ｚk）（１≦ｊ≦ｎ，１≦ｋ≦ｍ，ｉ≠ｊ）を
知識知識ａ（Ｘi，Ｙ）と呼ぶ。

【００３２】ホーン節のヘッド部には知識ａ（Ｘi，
Ｙ）のみが入り、frame（Ｚj）が入ることはない。よっ
て、説明木が生成された時、葉の部分は必ずframe（Ｚ
j）となる。

【００３３】知識ａ（Ｘ，Ｙ）のボディ部からframe
（Ｚi）を全て除いた知識を知識ａ（Ｘ′，Ｙ）とす
る。

【００３４】関係演算子（包含関係）Ｃを、以下に定義
する。

【００３５】

【数１】

【００３６】ボディ部の句は全てＡｎｄ関係にあるた
め、包含関係にあるＦrame（Ｚi）とＦrame（Ｚj）とで
は要素数が多いＦrame（Ｚi）の方が領域が狭くなる。
更に、ａ（Ｘ1，Ｙ1）:-frame（Ｚ1），frame（Ｚ2），…，fr
ame（Ｚn+m）ａ（Ｘ2，Ｙ2）:-frame（Ｚ1），frame（Ｚ2），…，fr
ame（Ｚn）

【数２】のとき、となる。ここで、知識ａ（Ｘ，Ｙ）の包含関係
を調べる時は、知識ａ（Ｘ，Ｙ）をチャンク化し、ボデ
ィ部をframe（Ｚ）のみにする。

【００３７】解析対象となるソースプログラムは単なる
文字列にすぎない。よって、前記フレーム生成部１０
で、字句解析及び構文解析によって構文木を導出し、プ
ログラムとして解釈する。更に、ソースプログラムは,
Ｐｒｏｌｏｇでは直接扱えないため、フレーム生成部１
０で、ソースプログラムをフレームによって表現し、Ｐ
ｒｏｌｏｇ形式に変換する。フレームへの変換は、構文
木を基に行われる。

【００３８】本実施形態で用いるフレーム構造は、第１
引数が、フレームＩＤとなっており、一つのフレームに
対しＩＤは一対一対応となっている。ここで、フレーム
ＩＤとソースプログラムの行番号とは必ず対応している
とは限らないので、ＩＤと行番号との対応表を作成す
る。第２引数はプログラムにおける深さ情報を表してお
り、Ｃ言語では“｛”が出現する度に、１加算さ
れ、“｝”で１減算される。第３引数では、プログラム
情報を表現しており、第４引数では、第３引数でプログ
ラム情報として関数、ループ、条件分岐情報が表現され
ているときのみ、その有効範囲が格納される。

【００３９】前記モジュール分割部１２は、制御フロー
グラフを用いることによって、ソースプログラムに対し
モジュール分割を行う。以下にアルゴリズムを示す。

【００４０】（１）制御フローグラフを作成する（図２
参照）。（２）制御フローグラフからバックアークを除く（図３
参照）。（３）制御フローグラフをＥＮＴＲＹから辿り、複数
（ｎ本）のアークが存在するブロックまでの集合をモジ
ュールＰとし、そのアークを入力アークとするブロック
からＥＸＩＴまでに辿るブロックの集合をそれぞれモジ
ュールＣi（１≦ｉ≦ｎ）とする（図４参照）。（４）ＥＢＧ部１４からの要求があれば、それぞれのモ
ジュールＣiに対し、モジュールＣiの先頭のブロックか
ら辿り、（３）と同様にモジュール分割を行う（図５参
照）（５）ＥＢＧ部１４からの要求があり、且つ、モジュー
ルを分割できなくなる（モジュール内に複数のアークを
持つブロックが存在しない）まで、（４）を繰り替す。

【００４１】（２）ではバックアークが除かれるが、本
実施形態では、プログラムの流れに対する変数情報は考
慮せず、ＥＮＴＲＹからＥＸＩＴまでのブロックのつな
がりのみを基にモジュール分割を行う。従って、バック
アークが存在するブロック間ては、繰り返しは行われな
いものとする。

【００４２】本実施形態では、ＥＢＧの概念を、次のよ
うに設定する。

【００４３】目標概念：ソースプログラムに対する「コ
メント」であり、ａ（“コメント”，ｍｄｂ）によって
表現される。ここで、ｍｄｂは、知識が格納されている
データベースの種類を表わしている。

【００４４】説明対象事例、訓練例：ソースプログラム
を変換したフレーム集合とする。

【００４５】領域知識：ホーン節によって表現される。
ホーン節は目的・手段の関係を表現しており、ヘッド部
が目的、ボディ部が手段に対応する。

【００４６】操作性規範：説明木の葉（フレーム）の部
分とする。

【００４７】目標概念となるコメントは予め与えられて
いないため、領域知識から目標概念を選出する必要があ
る。領域知識の中から、証明が成功する知識のみ取り出
し、成功したｎ個の知識の中から、次の関係が成立する
ａ（Ｘi，ｍｄｂ）を目標概念として、説明木の生成を
行う。

【００４８】

【数３】

【００４９】このとき、領域知識が不足している場合
は、包含関係が成立しない知識の組合せが存在する。こ
の場合、包含関係が成立する知識同士で、最も葉が多い
知識を選択する。そして、選択された知識それぞれを目
標概念とする説明木を生成し、ユーザに複数の説明木の
根をつなぐ知識の追加を促す。

【００５０】領域知識に曖昧性が含まれている場合、葉
の部分のみ異なる説明木が複数生成される。領域知識で
定義されている目的・手段の関係は、図６に示すよう
に、目的処理Ａを実行するためには、手段処理Ｂ、処理
Ｃが必要であることが表現されている。従って、Ｐｒｏ
ｌｏｇでは、処理Ｂと処理Ｃの組合せの探索を行う。こ
の場合、組合せ１と組合せ２が存在するが、ｉｆ文の文
法規則から、組合せ２は成立しない。よって、このよう
なＰｒｏｌｏｇのマッチングを制約するために、モジュ
ール分割を行う。制御フローグラフは図７のようにな
り、図８に示すように、モジュール１とモジュール２に
分割される。それぞれのモジュールに対し、目的・手段
の関係を適用すると、モジュール１からは目的処理Ａが
導出されるが、モジュール２からは目的処理Ａは導出さ
れない。このように、説明木が一意に決定されない場
合、モジュール分割を行い、それぞれのモジュールに対
し、ＥＢＧを適用し、説明木生成を試みる。全てのモジ
ュールに対し、説明木が一意に決定された時、それぞれ
の説明木の根を説明対象事例として説明木をつなぎあわ
せることによって、プログラムの説明木を一意に生成す
ることができる。

【００５１】本実施形態では、領域知識を格納するため
に、前記データベース部２０で、メインデータベースｍ
ｄｂとサブデータベースｓｄｂの２つのデータベースを
用いる。あるコメントに対する領域知識が１つしか存在
しない場合には、ｍｄｂに格納する。複数存在する場合
は、同じコメントに対し、領域が最も広い領域知識をｍ
ｄｂに格納し、他の領域知識はｓｄｂに格納する。

【００５２】前記説明木生成部１８では、まず、ｍｄｂ
の知識のみを用いて、プログラムの最も基本的な説明を
表わす説明木を生成する。そして、必要に応じて（ユー
ザからの要求に応じて）更に詳しいｓｄｂの知識を用い
た説明木の生成を行う。２つのデータベースを用いる利
点としては、ｍｄｂで、１つのコメントに対し１つの知
識に限定することによって、同じコメントに対する複数
の説明木が生成された場合、コメント同士（説明木の葉
より上位）のつながりが一意に決定され、原因を説明木
の葉の部分に限定できることにある。これは、モジュー
ル分割を行うことによって解決される。更に、変数や関
数に関する情報を格納するためのデータベースを用意す
ることができる。変数データベースには、変数に付けら
れている固有の意味を格納する。１つの変数に複数の意
味が登録される場合もある。関数データベースには、関
数固有の意味、引数情報等が格納される。

【００５３】以下、初期データベースの作成方法を示
し、領域知識の獲得方法について定義する。

【００５４】プログラムモジュールの意味は、ソースコ
ードに含まれる情報からは得られない。一方、大量のソ
ースコードを使用している部署では、ファイル名、関数
名、識別子名を統一し、その意味を定めておくのが通例
である。そこで、これらの統一名称と、その意味を、断
片的な領域知識として初期データベースに登録する。更
に、機能仕様書とコメントのついたサンプルプログラム
を入手する。木構造で表現された機能仕様書の各部分木
は、目的−手段の関係に読み替えることが可能であり、
次に示す知識のコーディング方法に従って、データベー
スに登録することが可能である。

【００５５】本実施形態では、領域知識の追加には、次
の２つの場合が考えられる。

【００５６】（１）領域知識不足の場合（２）コメントに対するソースプログラムの領域が不十
分な場合

【００５７】（１）の領域知識不足の場合、説明木が生
成されなかったり、不完全な説明木が生成される。ここ
で用いる不完全な説明木とは、１つのプログラムに対し
て、複数の説明木が生成される場合を指す。１つのプロ
グラムで全くつながりのない処理を複数行っている場
合、複数の説明木が生成されるが、通常１つのプログラ
ムでは複数の処理のつながりによって、１つのより大き
な処理を行っていると考えられる。よって、複数の説明
木が生成された場合、領域知識不足とみなし、システム
が領域知識の追加を要求する。

【００５８】（２）のコメントに対するソースプログラ
ムの領域が不十分な場合は、説明対象事例に対し、十分
な説明木を生成することができない。よって、同じコメ
ントに対し、異なる領域の知識を複数登録することによ
って、柔軟性を増やし、より葉が多い（詳しい）説明木
を生成することができる。

【００５９】以下、領域知識追加アルゴリズムについて
説明する。

【００６０】領域知識の追加は、説明木から、全てのfr
ame（Ｚi）を除いた説明木構造（図９参照）を保持しな
がら行われる。これは、無限ループを回避するためであ
る（図１０参照）。

【００６１】（１）新しい知識ａ（Ｘ，ｎｅｗ）と同じ
コメントの知識がｍｄｂに存在しないなら（２）へ、存
在する場合は（３）へ進む。

【００６２】（２）知識ａ（Ｘ，ｎｅｗ）を知識ａ
（Ｘ，ｍｄｂ）とし、ｍｄｂに格納する。

【００６３】（３）知識ａ（Ｘ，ｍｄｂ）の説明木にお
ける１つ上位（より根の方向）の知識を知識ａ（Ｘr，
ｍｄｂ）とし、ａ（Ｘ，ｎｅｗ）と知識ａ（Ｘ′，ｍｄ
ｂ）、更に知識ａ（Ｘr，ｍｄｂ）の関係を調べる。知
識ａ（Ｘr，ｍｄｂ）が知識ａ（Ｘ，ｎｅｗ）に包含さ
れ、この知識ａ（Ｘ，ｎｅｗ）が知識ａ（Ｘ′，ｍｄ
ｂ）に包含されれば（４）へ進み、そうでなければ、説
明木構造は崩れてしまうため、知識追加は行わない。

【００６４】（４）知識ａ（Ｘ，ｎｅｗ）と知識ａ
（Ｘ，ｍｄｂ）の関係を調べる。図１１より、以下の３
つの場合分けが行われる。ここで、Ｘ１、Ｘ２、Ｘ３、
Ｘ４には、全て同じコメントＸが入る。

【００６５】Ｓ１：両知識のボディ部に存在する句の集
合が斜線部となる。この場合、斜線部に含まれる句をボ
ディ部とする知識をｍｄｂに追加し、知識ａ（Ｘ１，ｍ
ｄｂ）を知識ａ（Ｘ１，ｓｄｂ）に変換し、ｍｄｂから
ｓｄｂに移す。更に、知識ａ（Ｘ２，ｎｅｗ）を知識ａ
（Ｘ２，ｓｄｂ）に変換し、ｓｄｂに追加する。

【００６６】Ｓ２：知識ａ（Ｘ３，ｎｅｗ）が知識ａ
（Ｘ１，ｍｄｂ）に包含される場合、知識ａ（Ｘ３，ｎ
ｅｗ）を知識ａ（Ｘ３，ｓｄｂ）に変換し、ｓｄｂに格
納する。

【００６７】Ｓ３：知識ａ（Ｘ１，ｍｄｂ）が知識ａ
（Ｘ４，ｎｅｗ）に包含される場合、知識ａ（Ｘ１，ｍ
ｄｂ）を知識ａ（Ｘ１，ｓｄｂ）に変換し、ｍｄｂから
ｓｄｂに移し、知識ａ（Ｘ４，ｎｅｗ）を知識ａ（Ｘ
４，ｍｄｂ）に変換し、ｍｄｂに格納する。

【００６８】上記アルゴリズム（１）、（２）では、領
域知識不足の場合における知識追加を行い、（３）以下
では、コメントに対するソースプログラムの領域を変更
し、候補となる場合の知識追加を行っている。（３）で
は、あるコメントに対する他の領域候補を登録すること
によって、コメントのみの（frame（Ｚ）の全てを除い
た）説明木構造が崩れないようにしている。更に（４）
では、同じコメントの中で、範囲が最も広い知識をｍｄ
ｂに登録する。よって、ｓｄｂ中の知識の証明が成功す
るとき、同じコメントに対応するｍｄｂ中の知識の証明
も必ず成功する。

【００６９】又、図１２に示すように、追加される知識
は、領域知識の知識構造に含まれていない。よって、図
１３に示すように、追加される知識を階層化し、領域知
識に登録する必要がある。

【００７０】以下に、知識階層化アルゴリズムを示す。

【００７１】（１）新しく登録された知識ａ（Ｘ，ｍｄ
ｂ）と、他の領域知識との包含関係を調べ、知識ａ
（Ｘ，ｍｄｂ）に対し、領域が狭い知識を選び、その中
から最も領域が広い知識ａ（Ｙi，ｍｄｂ）を選び出
す。

【００７２】（２）知識ａ（Ｙi，ｍｄｂ）のボディ部
から、知識ａ（Ｘ，ｍｄｂ）と同じ領域部分を削除し、
知識ａ（Ｘ，ｍｄｂ）を加える。

【００７３】（３）新しく登録された知識ａ（Ｘ，ｍｄ
ｂ）と、他の領域知識との包含関係を調べ、知識ａ
（Ｘ，ｍｄｂ）に対して、領域が広い知識を選び、その
中から最も領域が狭い知識ａ（Ｚj，ｍｄｂ）を選び出
す。

【００７４】（４）知識ａ（Ｘ，ｍｄｂ）のボディ部か
ら、知識ａ（Ｚj，ｍｄｂ）と同じ領域部分を削除し、
その知識ａ（Ｘ，ｍｄｂ）を加える。

【００７５】包含関係が成立しない場合、成立する知識
同士、最も広い、もしくは、最も狭い知識を選び出す。
ここで、図１２を用いてアルゴリズムの説明を行う。
（１）では、新しい知識ａ（処理Ｃ，ｍｄｂ）に対し、
知識ａ（処理Ｂ，ｍｄｂ）が選ばれる。（２）では、ａ（処理Ｂ，ｍｄｂ）:-ａ（処理Ｄ，ｍｄｂ），frame
(３），frame(４）．のボディ部から知識ａ（処理Ｃ，
ｍｄｂ）と同じ領域部分を削除し、ａ（処理Ｂ，ｍｄｂ）:-frame(４）．ａ（処理Ｃ，ｍｄ
ｂ）を追加するａ（処理Ｂ，ｍｄｂ）:-ａ（処理Ｃ，ｍｄｂ），frame
(４）．

【００７６】（３）、（４）についても同様にし、生成
された構造は図１３のようになる。

【００７７】知識獲得は、解析対象となるプログラムか
ら複数の文を選択し、選択された文にコメントを付ける
ことによって行われる。そのため、獲得された知識の変
数は特殊化されており、他のプログラムへの適用は困難
となる。よって、関数の働きを決定するような引数は特
殊化を行い、計算結果が代入される引数等、関数の働き
には直接関係ない引数は変数に置き換えることによって
一般化を行う。引数の情報は、関数データベースを参照
することによって得られる。

【００７８】前記ユーザインターフェース部２２は、例
えばプログラム言語ｔｃｌ／ｔｋで実装されており、Ｅ
ＢＧ部１４を実装しているＰｒｏｌｏｇプログラムから
動的に呼び出される。このユーザインターフェース部２
２では、ＥＢＧ部１４で生成された説明木構造を視覚的
に分かり易く表示する。更に、領域知識の追加、削除
は、このユーザインターフェース部２２を介して行わ
れ、知識追加の場合、ユーザ２４は、追加したい知識の
コメントを入力し、コメントに対応するプログラムの領
域を選択するだけで、知識の追加が行われる。

【００７９】次に、本発明の具体的な構成例である第２
実施形態について説明する。

【００８０】本実施形態に係る知識処理アプローチによ
るソフトウエア開発・保守支援装置３０は、図１４に示
す如く、ソースプログラム８を解析し、その意味を理解
して、Ｐｒｏｌｏｇ推論により知識要素を選んで組み合
わせることにより、コメント文４０を生成するための、
第１実施形態のフレーム生成部１０、モジュール分割部
１２及びＥＢＧ部１４のデータベース部２０及び学習機
構を除く構成に対応する文生成機構３２と、前記データ
ベース部２０に対応するプログラム、コメント等の断片
的な知識要素を集めた知識集合である辞書３４と、前記
Ｐｒｏｌｏｇ推論用の知識要素を拡張するための、ユー
ザからの修正要求に駆動される学習機構３６と、前記ユ
ーザインターフェース部２２に対応するユーザインター
フェース部３８とを含んで構成されている。

【００８１】以下、ある任意のタイミングでの本実施形
態の代表的な基本動作を説明する。

【００８２】まず、変換前のソースプログラム８を、外
部から、前記文生成機構３２により読み出し、前記辞書
３４を用いて変換し、変換可能であればコメント文４０
を生成する。前記辞書３４は、ユーザインターフェース
部３８を用いて、事前に内部データを作成しておく。

【００８３】変換ができない場合には、ユーザインター
フェース部３８を用いて、人手により教師情報を入力す
る。そして、教師情報を繰り返し利用するために、前記
学習機構３２により学習する。

【００８４】以上を繰り返すことにより、プログラム全
体として変換し、プログラムモジュールの意味をコメン
ト文として生成して、人に提示するというアプローチで
支援して、計算機保守を効率化する。

【００８５】

【実施例】図１４にて、ソースプログラム８に対して、
辞書３４内のフレーム及びソフト断片知識を用いて、文
生成機構３２によりフレーム知識を自動変換したとこ
ろ、良好な変換結果を得ることができた。

【００８６】

【発明の効果】本発明によれば、内容不明なシステムに
ついて、労力をかけることなく、プログラムレベルで構
造や機能等の基本的な理解が可能となる。又、コンピュ
ータソフトウェアの保守、改良又は新規開発作業におい
て、解説書作成時に大幅な労力軽減を図ることができ
る。

【００８７】逆に、人手を介して知識ベース（プログラ
ム部品群）を用いることで、プログラムを効率的に作成
することもできる。

【図面の簡単な説明】

【図１】本発明の動作を中心とする主要な構成を示す第
１実施形態の線図

【図２】第１実施形態のモジュール分割部により作成さ
れた制御フローグラフの例を示す線図

【図３】図２の制御フローグラフからバックアークを除
いた状態を示す線図

【図４】図３の制御フローグラフをモジュール化した状
態を示す線図

【図５】図４に従ってモジュール分割した状態を示す線
図

【図６】第１実施形態におけるＰｒｏｌｏｇのマッチン
グの例を示す線図

【図７】図６のマッチングを制約するためにモジュール
分割を行った時の制御フローグラフを示す線図

【図８】同じく分割後のモジュール状態を示す線図

【図９】第１実施形態におけるフレームを除いた説明木
構造の例を示す線図

【図１０】同じく無限ループが存在する知識の例を示す
線図

【図１１】同じく領域知識追加アルゴリズムで場合分け
した状態を示す線図

【図１２】同じく階層化されていない知識構造の例を示
す線図

【図１３】同じく階層化が行われた知識構造の例を示す
線図

【図１４】本発明の第２実施形態の構成例を示すブロッ
ク線図

【符号の説明】

８…ソースプログラム１０…フレーム生成部１２…モジュール分割部１４…説明による一般化（ＥＢＧ）部１６…コメント生成部１８…説明木生成部２０…データベース部２２、３８…ユーザインターフェース部２４…ユーザ３０…ソフトウエア開発・保守支援装置３２…文生成機構３４…辞書３６…学習機構４０…コメント文

Claims

【特許請求の範囲】

【請求項１】コンピュータプログラムの内容を表わすコ
メント文を生成するに際して、プログラムのソースコードを読み出し、該ソースコードの意味を解析して推論し、対応するコメント文がモジュール毎に蓄積された辞書と
対照し、対応するコメント文を選択して組合せることにより、コ
メント文を自動的に生成することを特徴とするコンピュ
ータプログラムのコメント文生成方法。
【請求項２】請求項１において、前記辞書に蓄積された
情報が不足して、適切なコメント文を選択できない場合
は、適切なコメント文を学習し、教師情報として辞書に
追加することを特徴とするコンピュータプログラムのコ
メント文生成方法。
【請求項３】請求項１又は２において、前記ソースコー
ドの意味の解析を、Ｐｒｏｌｏｇ推論の手法により行う
ことを特徴とするコンピュータプログラムのコメント文
生成方法。
【請求項４】コンピュータプログラムの内容を表わすコ
メント文を生成する装置において、プログラムのソースコードに対応するコメント文が、モ
ジュール毎に蓄積された辞書と、プログラムのソースコードを読み出す手段と、読み出されたソースコードの意味を解析して推論し、モ
ジュール毎に辞書と対照して、対応するコメント文を選
択して組合せる手段と、を備えたことを特徴とするコンピュータプログラムのコ
メント文生成装置。
【請求項５】請求項４において、更に、前記辞書に蓄積
された情報が不足して、適切なコメント文を選択できな
い場合は、適切なコメント文を学習し、教師情報として
辞書に追加する学習手段を備えたことを特徴とするコン
ピュータプログラムのコメント文生成装置。
【請求項６】請求項４又は５において、前記ソースコー
ドの意味の解析が、Ｐｒｏｌｏｇ推論の手法により行わ
れることを特徴とするコンピュータプログラムのコメン
ト文生成装置。