JP4588037B2 - ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム - Google Patents

ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム Download PDF

Info

Publication number
JP4588037B2
JP4588037B2 JP2007021095A JP2007021095A JP4588037B2 JP 4588037 B2 JP4588037 B2 JP 4588037B2 JP 2007021095 A JP2007021095 A JP 2007021095A JP 2007021095 A JP2007021095 A JP 2007021095A JP 4588037 B2 JP4588037 B2 JP 4588037B2
Authority
JP
Japan
Prior art keywords
check
document
character string
character
consistency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007021095A
Other languages
English (en)
Other versions
JP2008186356A (ja
Inventor
卓也 工藤
薫 村上
智昭 堀川
Original Assignee
株式会社日立情報システムズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立情報システムズ filed Critical 株式会社日立情報システムズ
Priority to JP2007021095A priority Critical patent/JP4588037B2/ja
Publication of JP2008186356A publication Critical patent/JP2008186356A/ja
Application granted granted Critical
Publication of JP4588037B2 publication Critical patent/JP4588037B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Stored Programmes (AREA)

Description

本発明は、ソフトウェア品質を高めるため、ドキュメントの整合性を効率的かつ正確に検査するドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラムに関する。
仕様書などのドキュメントは、最終的なソフトウェア品質を大きく左右する重要な成果物である。このドキュメントに対して、1)ドキュメントの整合性(仕様書間の記述に不整合が無いか)、2)設計および製造品質は確保できているか、という観点で検査を行っている。従来、1)のドキュメント整合性検査は、手作業により目視確認を行う必要があった。これに対して、例えば、特開平5−143304号公報(特許文献1参照)に記載の『整合性検査方式』は、検査を高速に行えるようにするとともに、仕様書データの形式の変更時にも検査部分を変更する必要がないようにしたものである。
上記整合性検査方式では、仕様書データ記憶手段が設けられ、この手段は仕様書データの作成時にキーボードやマウスから編集/検査指示入力手段を介して入力された関連データ作成指示に応じて起動され、仕様書データ編集手段が管理するメモリ上の仕様書データから整合性検査に必要な関連データを作成して、関連データ記憶/検索手段により外部記憶装置に記憶する。関連データ作成手段は、メモリ上のデータフロー図の仕様書データのデータ構造をもとに、規則を検査するための関連データを作成する。関連検査手段は、キーボードやマウスから編集/検査指示入力手段を介して入力された関連検査指示に応じて起動され、関連データ記憶/検索手段により外部記憶装置から整合性検査に必要な検索条件で関連データを検索する。検査としては、例えば、上位の処理に対してのデータフローの入出力と詳細化した下位のデータフロー図に対してのデータフローの入出力とが一致していなければならないので、これを検査により確認する。
特開平5−143304号公報
ところで、ドキュメントの整合性検査は、従来、目視確認により実施されており、いわゆる手作業で行われていたため、チェック漏れやチェック誤りなどが発生し、十分な検査ができなかった。また、検査作業に費やす工数が増大していた。特に、大規模開発プロジェクトでは、仕様書の頁数が数万ページになるため、数百時間もの工数を必要としている。
前記公報に記載の『整合性検査方式』は、仕様書を計算機自身で管理するCASEシステムにおいて記憶装置に記憶されている複数の仕様書データ間の整合性を検査する方式である。
しかし、以下の1)〜3)の技術は未だ開示されておらず、独自に解決する必要があった。
1)仕様書の中からチェック対象項目のみを抽出し、他仕様書との整合性をチェックする技術。
2)仕様書中の同一枠内に複数のチェック対象項目が記載されている場合、個々の項目名称を正しく抽出した上で、他仕様書との整合性チェックを行う技術。
3)フロー図等の図形からチェック対象項目のみを抽出し、他仕様書との整合性をチェックする技術。
(目的)
本発明の目的は、ドキュメント整合性検査において正確性を確保しながら、上記の各項目1)〜3)を効率的にチェックすることが可能なドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラムを提供することにある。
本発明のドキュメントの整合性検査支援システムは、イ)仕様書の文書中からキーワード文字を含む文字列を洗い出し、さらに不要文字の削除を行い、整合性チェックの対象となるチェック対象項目名称を抽出するとともに、チェック対象項目名称は他仕様書と比較して整合性チェックを行う。
チェック対象項目名称の抽出は、キーワード(例えば、「テーブル.」や「T.」)を使用して仕様書を検索し、キーワードを含む文字列を一旦洗い出す。この段階では不要な文字も含まれてしまうので、区切文字(*1)を使用して不要文字の削除を行い、チェック対象の文字列であるチェック対象項目名称のみを抽出する。
なお、1:区切文字とは、助詞、接続詞、助動詞、その他記号などの抽出対象文字列と不要文字との区切りを判定するのに使用する語のことである。
また、本発明のドキュメントの整合性検査支援システムは、ロ)仕様書中の特定座標(例えば、1つの枠の中)に項目名称が複数記載されている場合、分離してチェック対象項目名称のみを抽出する。チェック対象項目名称は、他仕様書と比較して整合性チェックを行う。1枠中に複数の項目名称が混在している場合には、改行コード、カンマなどの特定文字の前後で項目名を分離し、チェック対象となる項目名称を抽出する。
また、本発明のドキュメントの整合性検査支援システムは、ハ)フロー図などの図形を用いた仕様書を対象に図形に記載されている文字列からチェック対象項目名称のみを抽出する。チェック対象項目名称は、他仕様書と比較して整合性チェックを行う。図形からチェック対象項目名称を抽出するため、項目名称の記載パターンに応じた処理が必要となる。
以下、(a)〜(d)の処理を項目名称が抽出できるまで順に行い、抽出したチェック対象項目名称が他仕様書に存在し、かつ名称が一致するか否かをチェックする。
(a)図形に直接文字列が記入されている場合、その文字列を抽出する。
(b)図形の外接矩形と接し、かつ文字列が記入されている図が存在する場合、その図形に記載された文字列を抽出する。
(c)図形の外接矩形の左上、および右下の座標を求め、その座標の範囲内の下地(例えば、表計算ソフトのセル等に該当)に文字列が記載されている場合、該当の文字列を抽出する。
本発明によれば、ドキュメント整合性検査において、正確性を確保しつつ効率的にチェックすることが可能となった。
以下、図面に従って本発明の実施形態を説明する。
図1は、本発明の一実施形態に係るドキュメント整合性チェック装置の全体構成図である。
チェック対象項目名称を抽出するため、チェック対象ドキュメント1と比較対象となるもう一方の他仕様書であるチェックマスタドキュメント2を入力する。
ドキュメントの整合性チェック装置は、チェック対象ドキュメント1からチェック対象項目名称の抽出を行うチェック前処理部3、抽出した項目名称の整合性を確認し、確認結果をチェック結果DB5に登録するチェック処理部4、アウトプットとしてチェック結果を格納するチェック結果DB5、データ抽出処理の処理分類を格納している処理分類DB6、項目名称を抽出する際の検索キーとなる情報を格納したキーワードDB7、抽出した文字列中の項目名称を抽出するための情報を格納した区切・分離文字DB8から構成されている。
さらに、チェック前処理部3は、チェック内容判別処理部3aとデータ抽出処理部からなり、データ抽出処理部は、項目名称抽出処理部3b、項目名称分離処理部3c、図形とテキストの関連付け処理部3dからなる。また、チェック処理部4の整合性チェック処理部は、主項目の整合性チェック処理部4a、主+副項目の整合性チェック処理部4b、不良密度の算出処理部4cからなる。
図2は、図1に示すドキュメント整合性チェック装置の動作フローチャートであり、図3は処理分類DBの内部構成を示す図である。
図2のステップ201〜206がチェック前処理部3の処理に当該し、ステップ207〜210がチェック処理部4の処理に該当する。
図3の処理分類DB6の内部構成として、上方に項目説明があり、チェック処理ID、チェック名称、チェック対象ドキュメント、・・・等の項目名に対する内容説明が記載されている。また、データ例として、チェック名称と、各チェックにおけるドキュメントと処理パターン区分と対象分類や対象カラム301〜307が記載されている。
図2のステップ201にて検査担当者がチェックを行いたい内容に該当するチェック処理IDを指定すると、図3に示す処理分類DB6を参照して、チェック処理IDをキーとして、図3に示すチェック名称301〜307を取得する。ここで取得した項目(チェック対象ドキュメント301、チェックマスクドキュメント302、データ抽出処理パターン区分303、チェック処理パターン区分304、抽出対象分類306、チェック対象カラム306、チェックマスクカラム307)を各処理部でのパラメタとして使用する。
図17は、チェック結果DBの構成図である。
図17のチェック結果DBには、項目説明と、それらのデータ例として、1.出力例(ID/名称チェック(プログラム仕様書−DB))、2.出力例(ID/名称チェック(処理フロー処理))、3.出力例(項目I/Oチェック(帳票))の3つの例が示されている。
ステップ202にて、チェック対象ドキュメント301に該当する仕様書を入力し、ステップ203でチェック対象ドキュメント301の頁数をカウントする。また、ステップ204では、チェックマスタドキュメント302に該当する仕様書(または定義書など)を入力する。
ステップ205にて、処理分類DB6より取得したデータ抽出処理パターン区分303の処理を実行し、チェック対象ドキュメント1よりチェック対象の項目名称を抽出して、項目名称とその記載位置情報を図17に示すチェック結果DBの1701および1702へ格納する。
データ抽出処理パターンは、図4の項目名称抽出処理、図9の項目名称分離処理、および図12の図形とテキストの関連付け処理に分類される。これらについて、以下順次、入力例を挙げて説明する。
図2のステップ206にて、チェック結果の誤りを防止するために、ステップ205で抽出した項目名称の正規化を行う。全角に変換できる文字は全角に変換し、その他、スペースや改行コードなど、項目の名称として不要な記号などを取り除く。
チェック処理部4の処理に移り、ステップ207にて処理分類DB6より取得した「チェック処理パターン区分304」の処理を実行し、ステップ207で正規化を行った項目名称の整合性チェックを行う。
図15は、主項目の整合性チェック処理の動作フローチャートであり、図16は主+副項目の整合性チェック処理の動作フローチャートである。
ステップ207のチェック処理パターンは、図15の主項目の整合性チェック処理と、図16の主+副項目の整合性チェック処理とに分類される(これらについては、以降において入力例を挙げて説明する)。
図2のステップ208にて、ステップ207の処理でチェック結果が「×」または「一部一致」となった件数をカウントし、件数を図17に示すチェック結果DBの1703へ格納する。
ステップ209にて、ステップ208でカウントした不良件数と、ステップ203にてカウントしたチェック対象のドキュメントの頁数から不良密度を算出し、図17のチェック結果DBの1704に格納する。
〔項目名称抽出処理〕
図4は、項目名称抽出処理部3bの動作フローチャートである。
項目名称抽出処理は、主に文章にて記載された仕様書中からチェック対象項目名称を抽出する処理である。まず、キーワードDB7を参照し、抽出対象分類501が処理分類DBで取得した抽出対象分類305と一致するレコードを取得する(ステップ401)。なお、図5に、キーワードDB7のDB構成図が示されている。例えば、DBのチェックを行う場合には、抽出対象分類501が「DB」となっているレコード502を取得する。
図5のキーワードDBより取得したレコードのキーワード503で、チェック対象ドキュメント内のキーワード503を含む文字列を行単位に抽出する。
図6は、チェック対象ドキュメント例を示す図である。ここでは、チェック対象ドキュメント内の例えば、601などが行単位に抽出される。このとき、一つの行に複数回「キーワード」を含んでいる場合は(602など)、その回数分抽出する。ただし、2回目以降はキーワード以降の文字列のみを抽出する(ステップ402)。
図7は、区切・分離文字DBのDB構成図である。
図4において、区切・分離文字DB8を参照して、区切文字区分701=‘1’となるレコードを1件取得する(ステップ403)。なお、区切文字とは、助詞、接続詞、助動詞、その他記号など、形態素の区切りを判定するのに使用する語のことであり、以後、このように定義する。
図7の区切・分離文字DBから取得したレコードの区切・分離文字702が2チェックマスタドキュメントに記載されている項目名称中に存在するか否かの判定を行う(ステップ404)。具体的には、図3の処理分類DBより取得したチェックマスタカラム307の範囲に区分・分離文字702が存在するか否かというチェックを行う。
図8は、チェックマスタドキュメント例(テーブル定義書)を示す図である。
チェックマスタカラム307の範囲に区切・分離文字702が存在するかの判定は、例えば、図8では801の範囲に区切・分離文字702が記載されているか否かを判定する。
区切・分離文字702が801の範囲に存在しない場合には、区切・分離文字702が図6のチェック対象ドキュメントから抽出した文字列に含まれるか否かの判定を行う(ステップ405)。含まれる場合には、区切・分離文字702が文字列内にあるキーワード503より前にあるか後にあるかを判定し(ステップ406、408)、前にある場合には区切・分離文字702から前の文字列を削除する(ステップ407)。後方にある場合には区切・分離文字702から後にある文字列を削除する(ステップ409)。
次に、図7の区切・分離文字DBから取得したレコード全てについてステップ403〜409の処理を繰り返し行い(ステップ410)、チェック対象ドキュメント中のキーワードを含む全ての文字列についてステップ402〜410の処理を繰り返す(ステップ411)。
キーワードの前後にある文字列をそれぞれチェック対象項目名称として抽出し、図17のチェック結果DBの1701へ格納する(ステップ412)。例えば、603の文字列(図6)に対して、区切・分離文字による一連の処理を行うと、702の区切・分離文字にて文字列の削除を行い、図17のチェック結果DBの1705、1706、1707、1708のように抽出される。
〔項目名称分離処理〕
図9は、項目名称分離処理の動作フローチャートであり、図10はチェック対象ドキユメントの一例を示す図である。
項目名称分離処理は、チェック対象ドキュメント1中の特定の座標(例えば、1つの枠の中)にチェック対象項目名称が複数記載されている場合、それらを個別の名称に分離する処理である。
チェック対象ドキュメントのうち、図3の処理分類DBより取得したチェック対象カラムの範囲に記載された文字列を抽出する(ステップ901)。
図7の区切・分離文字DBを参照し、分離文字対象区分703=‘1’となるレコードを取得する(ステップ902)。ここで、分離文字とは、改行コード、カンマ等、個々の項目名称の境を判定するために使用する語のことであり、以後、この定義を用いる。
図11は、チェックマスタドキュメント例(ファイル編集仕様)を示す図である。
図7の区切・分離文字DBから取得したレコードの区切・分離文字702が、図11のチェックマスタドキュメントに記載されている項目名称中に存在するか否かの判定を行う(ステップ903)。具体的には、図3の処理分類DBより取得したチェックマスタカラム307の範囲に区切・分離文字702が存在するか否かのチェックを行う。例えば、図11では、1101の範囲に記載されているか否かを判定する。
1101の範囲に区切・分離文字702が存在しない場合には、区切・分離文字702が図10のチェック対象ドキュメント例から抽出した文字列に含まれるか否かの判定を行う(ステップ904)。含まれる場合には、区切・分離文字702が文字列中の何バイト目にあるかを取得する(ステップ905)。
文字列中にバイト位置を取得していない区切・分離文字702がなくなるまで、ステップ904〜905の処理を繰り返し行い(ステップ906)、図7の区切・分離文字DBから取得したレコード全てについてステップ902〜906の処理を繰り返す(ステップ907)。
取得したバイト数で、図10のチェック対象ドキュメント例から抽出した文字列を区切り、各々を項目名称として抽出し、図17のチェック結果DBの1701へ格納する(ステップ908)。また、抽出した文字列の記載位置情報を1702へ格納する。
例えば、1001の文字列に対して、ステップ901〜908の一連の処理を行うと、702の区切・分離文字にて文字列の分離を行い、1709、1710のように抽出される(図17)。
〔図形とテキストの関連付け処理〕
図12は、図形とテキストの関連付け処理の動作フローチャートであり、図13はチェック対象ドキュメント例(処理フロー)を示す図である。
図12の図形とテキストの関連付け処理は、チェック対象の項目が図形を使用して記載されている場合に、その項目名称を特定して抽出する処理である。例えば、図13のチェック対象ドキュメント中のDBをチェックしたい場合に、1301などのDBの図形をドキュメント中から全て抽出する(ステップ1201)。
抽出した図形に文字列が記入されているか否かを判定する(ステップ1202)。記入されている場合には、その文字列を項目名称として抽出し、図17のチェック結果DBの1701に格納する(ステップ1203)。また、図形に記載された文字列であるため、記載位置情報なしとして1702へ「−」を設定する。例えば、図13の1301では図形に「KSSN0020」と記載されているため、「KSSN0020」を項目名称、「−」を記載位置情報として抽出する。
記入されていない場合、抽出した図形の外接矩形内に文字列が記入された図が存在しないか否かを判定する(ステップ1204)。存在する場合、該当の図形に記入された文字列を項目名称として抽出し、1701に格納する(ステップ1205)。また、図形に記載された文字列であるため、記載位置情報なしとして1702へ「−」を設定する。例えば、図13の1302の場合、図形の外接矩形内に「住民税額算出」と記載された図形が存在するため、「住民税額算出」を項目名称、「−」を記載位置情報として抽出する(1302、1303の破線は無色の線を意味する)。
該当する図が存在しない場合、抽出した図形の外接矩形と接し、かつ文字列が記入されている図がないか否かを判定する(ステップ1206)。存在する場合、該当の図に記入された文字列を項目名称として抽出し、1701に格納する(ステップ1207)。
また、図形に記載された文字列であるため、記載位置情報なしとして1702へ「−」を設定する。例えば、図13の1303の場合、図形の外接矩形に「日次」と記載された図形が接しているため、「日次」を項目名称として抽出する。
該当する図形が存在しない場合、抽出した図形の外接矩形の左上、および右下の座標を求め、その座標の範囲内の下地(例えば、表計算ソフトのセル等に当る)に文字列が記載されていないか否かを判定する(ステップ1208)。記載されている場合は、該当の文字列を項目名称として抽出し、1701に格納する(ステップ1209)。また、抽出した文字列の記載位置情報を1702へ格納する。例えば、図13の1304のように図形の外接矩形の覆う範囲の下地に文字列が記載されている1305が項目名称の一つとして抽出される。
文字列が記載されていない場合には、項目名称抽出失敗として、「★抽出失敗★」の文字列を項目名称として1701に格納する(ステップ1210)。また、抽出できた文字列が存在しないので、記載位置情報として1702へ「−」を出力する。
〔主項目の整合性チェック処理〕
図15は、主項目の整合性チェック処理の動作フローチャートである。
主項目の整合性チェック処理は、抽出した主項目がチェックマスタドキュメント2中に存在するか、および、抽出した主項目の組合せがチェックマスタドキュメント2側に存在するか、をチェックする処理である。ここで、主項目とは、例えば、DB名称やファイルID等、使用するチェックマスタドキュメント2内でユニークとなる項目のことである。
チェック対象ドキュメント1から抽出した主項目を、1件取得する(ステップ1501)。次に、主項目がチェックマスタドキュメント2に存在するか否かの判定を行う(ステップ1502)。存在する場合には、チェック結果として、図17のチェック結果DBの1711に「○」を出力する(ステップ1504)。
存在しない場合、チェックマスタドキュメント2中に主項目を含む項目がないか否か、または、主項目の名称の一部と一致する項目がチェックマスタドキュメント2中に存在しないか否かの判定を行う(ステップ1503)。存在する場合には、チェック結果として、1711に「一部一致」を出力する(ステップ1505)。存在しない場合、1711に「×」を出力する(ステップ1506)。
図17のチェック結果DBのレコード内に主項目が残っている場合には、ステップ1604へ戻り、処理を繰り返す(ステップ1507)。例えば、1705と1706とが主項目の場合、1705をチェック後に1706についてもチェックを実行する。
主項目のチェック結果の全てを確認し(ステップ1508)、一つでも「×」,「一部一致」がある場合には、主項目組合せをチェック結果として、1711に「−」を出力する(ステップ1512)。これは、主項目の組合せがマスタ側にあるか否かと言うチェックは、各々の主項目が正しいことが前提であり、各主項目のチェックでNGとなっている状態でチェックを実行しても、妥当な結果を得られないためである。
主項目のチェック結果が全て「○」である場合、図17のチェック結果DBの1レコード内の主項目1705,1706について、主項目全体の組合せがチェックマスタドキュメント2側に存在するか否かの判定を行う(ステップ1509)。主項目の組合せがチェックマスタドキュメント2側に存在する場合には、チェック結果として1711に「○」を(ステップ1510)、存在しない場合には「×」を、それぞれ出力する(ステップ1511)。
〔主+副項目の整合性チェック処理〕
図16は、主+副項目の整合性チェック処理を示す動作フローチャートである。
図16の主+副項目の整合性チェック処理は、チェック処理対象ドキュメント1より抽出した項目名称に副項目が存在する場合に、主項目との組合せがチェックマスタドキュメント2側に存在するか否かをチェックする処理である。なお、副項目とは、例えばDBの属性名など、使用するチェックマスタドキュメント2内でユニークにならない可能性のある項目のことである。
図17のチェック結果DBの1レコードに対して、図15の主項目の整合チェック処理を実行する(ステップ1610)。実行した結果、1711のうち主項目のチェック結果に「×」や「一部一致」が存在するか否かを判定し(ステップ1602)、存在する場合には、1711の中にある副項目のチェック結果全てに対して「−」を出力する(ステップ1603)。副項目は、チェックマスタドキュメント2側でユニークではないため、主項目との組合せでチェックする必要があるが、主項目に誤りがあると正しいチェック結果が得られないため、チェックを行わない。
図17のチェック結果DBのレコード内の副項目を1件取得する(ステップ1604)。
主項目と副項目の組合せがチェックマスタドキュメント2に存在するか否かの判定を行う(ステップ1605)。存在する場合には、チェック結果として、1711に「○」を出力する(ステップ1606)。存在しない場合には、1711に「×」を出力する(ステップ1607)。
図17のチェック結果DBのレコード内に副項目が残っている場合には、ステップ1604に戻り、処理を繰り返す(ステップ1608)。
主+副項目の組合せチェック結果を除く全てのチェック結果を確認し(ステップ1609)、一つでも「×」,「一部一致」がある場合、主+副項目組合せ結果として1711に「−」を出力する(ステップ1613)。主+副項目全ての項目名称の組合せがマスタ側にあるか否かというチェックは、全てのチェック対象項目名称が正しいことが前提であり、各々の項目名称のチェックや主項目の組合せチェックでNGとなっている状態でチェックしても無意味なためである。
主+副項目の組合せチェック結果を除く全てのチェック結果が「○」の場合、図17のチェック結果DBの1レコード内の主項目と副項目全てについて、全体の組合せがチェックマスタドキュメント2側に存在するか否かの判定を行う(ステップ1610)。
図17のチェック結果DBのレコード内全ての組合せがチェックマスタドキュメント2側に存在する場合には、チェック結果として1711に「○」を(ステップ1611)、存在しない場合には「×」を、それぞれ出力する(ステップ1612)。
なお、図2、図4、図9、図12、図15、図16の各フローをプログラム化して、完成したプログラムをCD−ROMなどの記録媒体に格納し、これをコンピュータに装着して、記録媒体から読み出したプログラムをコンピュータのメモリにインストールし、これを実行することにより、本発明を容易に実現することができる。また、これらのプログラムを、インターネットを介して他のコンピュータにダウンロードすることを常時行うにより、プログラムの汎用化も可能となる。
本発明の一実施例に係るドキュメントの整合性検査支援システムの全体ブロック図である。 図1のドキュメントの整合性検査支援システムの一連の処理フローチャートである。 本発明で使用している内部DBである処理分類DBのデータ構成図である。 本発明で使用する項目名称抽出処理部の動作フローチャートである。 本発明で使用している内部DBであるキーワードDBのデータ構成図である。 本発明の項目名称抽出処理部でのチェック対象ドキュメント例を示す図である。 本発明で使用している内部DBである区分・分離文字DBのデータ構成図である。 本発明の項目名称抽出処理部でのチェックマスタドキュメント例を示す図である。 本発明の項目名称分離処理部の動作フローチャートである。 本発明の項目名称分離処理部でのチェック対象ドキュメント例を示す図である。 本発明の項目名称分離処理部でのチェックマスタドキュメント例を示す図である。 本発明における図形とテキストの関連付け処理の動作フローチャートである。 本発明の図形とテキストの関連付け処理部でのチェック対象ドキュメント例を示す図である。 本発明の図形とキテストの関連付け処理部でのチェックマスタドキュメント例を示す図である。 本発明の主項目の整合性チェック処理の動作フローチャートである。 本発明の主+副項目の整合性チェック処理の動作フローチャートである。 本発明のアウトプットであるチェック結果DBの構成図である。
符号の説明
1 チェック対象ドキュメント
2 チェックマスタドキュメント
5 チェック結果DB
6 処理分類DB
7 キーワードDB
8 区分・分離文字DB
3a チェック内容判別処理部
3b 項目名称抽出処理部
3c 項目名称分離処理部
3d 図形とテキストの関連付け処理部
4a 主項目の整合性チェック処理部
4b 主+副項目の整合性チェック処理部
4c 不良密度の算出処理部
301 チェック対象ドキュメント
302 チェックマスタドキュメント
303 データ抽出処理パターン区分
304 チェック処理パターン区分
305 抽出対象分類
306 チェック対象カラム
307 チェックマスタカラム

Claims (15)

  1. コンピュータの制御により、相互に関連する複数のドキュメントのそれぞれの整合性を、各ドキュメントにおいて用いられている文字列を照合して行うドキュメントの整合性検査支援システムであって、
    予め、関連する各ドキュメント単位に定められた複数のキーワードを記憶するキーワード記憶手段と、
    予め、関連する各ドキュメント単位に定められた上記照合に用いる複数の文字列(マスタ文字列)を記憶するチェックマスタ記憶手段と、
    予め定められた助詞と接続詞および助動詞を含む形態素の区切りの判定に用いる区切対象文字を記憶する区切・分離文字記憶手段と、
    入力された整合性検査対象のドキュメントから、上記キーワード記憶手段が記憶した各キーワードが存在する行を特定して当該行の文字列を抽出し、
    抽出した当該行における文字列から、上記区切・分離文字記憶手段が記憶した各区切対象文字を特定し、
    該特定した各区切対象文字が上記キーワードの前に有れば、当該区切対象文字から前の文字列を削除して、当該キーワードの後にある文字列をチェック対象項目名称として抽出し、
    上記特定した各区切対象文字が上記キーワードの後に有れば、当該区切対象文字から後にある文字列を削除して、当該キーワードの前にある文字列をチェック対象項目名称として抽出するチェック前処理手段と、
    該チェック前処理手段が抽出したチェック対象項目名称としての文字列を、上記チェックマスタ記憶手段において上記マスタ文字列として記憶されている文字列と、記憶されていない文字列とに分けて整合性チェック結果として出力する整合性チェック処理手段と
    を有することを特徴とするドキュメントの整合性検査支援システム。
  2. 請求項1に記載のドキュメントの整合性検査支援システムであって、
    上記整合性チェック処理手段は、
    上記マスタ文字列としてされていない文字列の数と当該ドキュメントの頁数から不良密度を算出する不良密度算出処理手段を有し、
    該不良密度算出処理手段で算出した不良密度を上記整合性チェック結果として出力することを特徴とするドキュメントの整合性検査支援システム。
  3. 請求項1もしくは請求項2のいずれかに記載のドキュメントの整合性検査支援システムであって、
    上記チェック前処理手段は、
    特定した同じ行の文字列に複数のキーワードが含まれていれば、
    各キーワード分、当該行における文字列を抽出し、かつ、
    2回目以降の当該行における文字列の抽出時には、当該キーワード以降の文字列のみを抽出する
    ことを特徴とするドキュメントの整合性検査支援システム。
  4. 請求項1から請求項3のいずれかに記載のドキュメントの整合性検査支援システムであって、
    上記チェック前処理手段は、
    上記チェック対象項目名称として抽出した文字列に対して、スペースおよび改行コードの削除と、文字の全角変換を含む正規化を行う
    ことを特徴とするドキュメントの整合性検査支援システム。
  5. 請求項1から請求項4のいずれかに記載のドキュメントの整合性検査支援システムであって、
    上記チェック前処理手段は、
    上記抽出した当該行における文字列から特定した区切対象文字が、上記チェックマスタ記憶手段において上記マスタ文字列として記憶されているか否かを判定し、記憶されていない場合に、当該区切対象文字を用いた上記チェック対象項目名称の抽出を行う
    ことを特徴とするドキュメントの整合性検査支援システム。
  6. 請求項1から請求項5のいずれかに記載のドキュメントの整合性検査支援システムであって、
    上記区切・分離文字記憶手段は、
    予め定められた改行コードとカンマを含む、上記チェック対象項目名称の境を判定するために用いる分離文字を記憶し、
    上記チェック前処理手段は、
    上記入力された整合性検査対象のドキュメントが帳票の場合に、
    該帳票ドキュメントの1つの枠中に、上記区切・分離文字記憶手段が記憶する分離文字が含まれるか否かを判別し、
    含まれる場合には、当該分離文字が上記帳票ドキュメント中の何バイト目にあるかの情報を取得し、
    取得した情報で示されるバイト数で、上記帳票ドキュメントから抽出した文字列を区切り、それぞれの文字列を上記チェック対象項目名称として抽出する項目名称分離処理手段を有する
    ことを特徴とするドキュメントの整合性検査支援システム。
  7. 請求項1から請求項6のいずれかに記載のドキュメントの整合性検査支援システムであって、
    上記チェック前処理手段は、
    上記入力された整合性検査対象のドキュメントがフローチャートの場合に、
    上記ドキュメントから図形を抽出し、
    該抽出した図形内の文字列を上記チェック対象項目名称として抽出すると共に、
    上記抽出した図形の外接矩形内の文字列と、
    上記抽出した図形の外接矩形と接する文字列、
    および、上記抽出した図形の外接矩形の左上の座標範囲の座標範囲内の文字列と右下の座標範囲内の文字列を、上記チェック対象項目名称として抽出する関連付け処理手段
    を有する
    ことを特徴とするドキュメントの整合性検査支援システム。
  8. コンピュータを、請求項1から請求項7のいずれかに記載のドキュメントの整合性検査支援システムにおける各手段として機能させるためのプログラム。
  9. コンピュータの制御により、相互に関連する複数のドキュメントのそれぞれの整合性を、各ドキュメントにおいて用いられている文字列を照合して行うシステムのドキュメントの整合性検査支援方法であって、
    上記コンピュータは、プログラムされたコンピュータ処理を実行する手段として、キーワード記憶手段とチェックマスタ記憶手段、区切・分離文字記憶手段、チェック前処理手段、整合性チェック処理手段を具備し、
    上記キーワード記憶手段は、予め、関連する各ドキュメント単位に定められた複数のキーワードを記憶し、
    上記チェックマスタ記憶手段は、予め、関連する各ドキュメント単位に定められた上記照合に用いる複数の文字列(マスタ文字列)を記憶し、
    上記区切・分離文字記憶手段は、予め定められた助詞と接続詞および助動詞を含む形態素の区切りの判定に用いる区切対象文字を記憶し、
    上記チェック前処理手段は、
    入力された整合性検査対象のドキュメントから、上記キーワード記憶手段が記憶した各キーワードが存在する行を特定して当該行の文字列を抽出し、
    抽出した当該行における文字列から、上記区切・分離文字記憶手段が記憶した各区切対象文字を特定し、
    該特定した各区切対象文字が上記キーワードの前に有れば、当該区切対象文字から前の文字列を削除して、当該キーワードの後にある文字列をチェック対象項目名称として抽出し、
    上記特定した各区切対象文字が上記キーワードの後に有れば、当該区切対象文字から後にある文字列を削除して、当該キーワードの前にある文字列をチェック対象項目名称として抽出し、
    上記整合性チェック処理手段は、
    上記チェック前処理手段が抽出したチェック対象項目名称としての文字列を、上記チェックマスタ記憶手段において上記マスタ文字列として記憶されている文字列と、記憶されていない文字列とに分けて整合性チェック結果として出力する
    ことを特徴とするドキュメントの整合性検査支援方法。
  10. 請求項9に記載のドキュメントの整合性検査支援方法であって、
    上記整合性チェック処理手段は、
    上記マスタ文字列としてされていない文字列の数と当該ドキュメントの頁数から不良密度を算出し、
    該算出した不良密度を上記整合性チェック結果として出力することを特徴とするドキュメントの整合性検査支援方法。
  11. 請求項9もしくは請求項10のいずれかに記載のドキュメントの整合性検査支援方法であって、
    上記チェック前処理手段は、
    特定した同じ行の文字列に複数のキーワードが含まれていれば、
    各キーワード分、当該行における文字列を抽出し、かつ、
    2回目以降の当該行における文字列の抽出時には、当該キーワード以降の文字列のみを抽出する
    ことを特徴とするドキュメントの整合性検査支援方法。
  12. 請求項9から請求項11のいずれかに記載のドキュメントの整合性検査支援方法であって、
    上記チェック前処理手段は、
    上記チェック対象項目名称として抽出した文字列に対して、スペースおよび改行コードの削除と、文字の全角変換を含む正規化を行う
    ことを特徴とするドキュメントの整合性検査支援方法。
  13. 請求項9から請求項12のいずれかに記載のドキュメントの整合性検査支援方法であって、
    上記チェック前処理手段は、
    上記抽出した当該行における文字列から特定した区切対象文字が、上記チェックマスタ記憶手段において上記マスタ文字列として記憶されているか否かを判定し、記憶されていない場合に、当該区切対象文字を用いた上記チェック対象項目名称の抽出を行う
    ことを特徴とするドキュメントの整合性検査支援方法。
  14. 請求項9から請求項13のいずれかに記載のドキュメントの整合性検査支援方法であって、
    上記区切・分離文字記憶手段は、
    予め定められた改行コードとカンマを含む、上記チェック対象項目名称の境を判定するために用いる分離文字を記憶し、
    上記チェック前処理手段は、
    上記入力された整合性検査対象のドキュメントが帳票の場合に、
    該帳票ドキュメントの1つの枠中に、上記区切・分離文字記憶手段が記憶する分離文字が含まれるか否かを判別し、
    含まれる場合には、当該分離文字が上記帳票ドキュメント中の何バイト目にあるかの情報を取得し、
    取得した情報で示されるバイト数で、上記帳票ドキュメントから抽出した文字列を区切り、それぞれの文字列を上記チェック対象項目名称として抽出する
    ことを特徴とするドキュメントの整合性検査支援方法。
  15. 請求項9から請求項14のいずれかに記載のドキュメントの整合性検査支援方法であって、
    上記チェック前処理手段は、
    上記入力された整合性検査対象のドキュメントがフローチャートの場合に、
    上記ドキュメントから図形を抽出し、
    該抽出した図形内の文字列を上記チェック対象項目名称として抽出すると共に、
    上記抽出した図形の外接矩形内の文字列と、
    上記抽出した図形の外接矩形と接する文字列、
    および、上記抽出した図形の外接矩形の左上の座標範囲内の文字列と右下の座標範囲内の文字列を、上記チェック対象項目名称として抽出する
    ことを特徴とするドキュメントの整合性検査支援方法。
JP2007021095A 2007-01-31 2007-01-31 ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム Expired - Fee Related JP4588037B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007021095A JP4588037B2 (ja) 2007-01-31 2007-01-31 ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007021095A JP4588037B2 (ja) 2007-01-31 2007-01-31 ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム

Publications (2)

Publication Number Publication Date
JP2008186356A JP2008186356A (ja) 2008-08-14
JP4588037B2 true JP4588037B2 (ja) 2010-11-24

Family

ID=39729330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007021095A Expired - Fee Related JP4588037B2 (ja) 2007-01-31 2007-01-31 ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム

Country Status (1)

Country Link
JP (1) JP4588037B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110474A (ja) * 2007-11-01 2009-05-21 Hitachi Software Eng Co Ltd 文書管理システム
JP5037481B2 (ja) * 2008-12-18 2012-09-26 株式会社日立製作所 プラント情報制御信号整合チェックシステム及びプラント情報制御信号整合チェック方法
JP5648336B2 (ja) * 2009-12-15 2015-01-07 富士通株式会社 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法
WO2015145991A1 (ja) * 2014-03-28 2015-10-01 日本電気株式会社 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、整合性判定方法、および、記憶媒体
JP6960270B2 (ja) * 2017-08-04 2021-11-05 株式会社日立製作所 設計書学習装置および設計書学習方法
JP7074451B2 (ja) * 2017-10-24 2022-05-24 Nttテクノクロス株式会社 管理装置、管理方法及びプログラム
JP7087256B2 (ja) * 2018-04-18 2022-06-21 株式会社竹中工務店 施工体制台帳点検支援装置及び施工体制台帳点検支援モデル学習装置
US10956661B2 (en) 2019-05-24 2021-03-23 International Business Machines Corporation Consistency enforcement in multi-author documents

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005222480A (ja) * 2004-02-09 2005-08-18 Oki Electric Ind Co Ltd 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム
JP2005228234A (ja) * 2004-02-16 2005-08-25 Hitachi Ltd サービス情報生成方法及び実施システム並びに処理プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05143304A (ja) * 1991-11-18 1993-06-11 Nec Corp 整合性検査方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005222480A (ja) * 2004-02-09 2005-08-18 Oki Electric Ind Co Ltd 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム
JP2005228234A (ja) * 2004-02-16 2005-08-25 Hitachi Ltd サービス情報生成方法及び実施システム並びに処理プログラム

Also Published As

Publication number Publication date
JP2008186356A (ja) 2008-08-14

Similar Documents

Publication Publication Date Title
JP4588037B2 (ja) ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム
US9690788B2 (en) File type recognition analysis method and system
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
US7617444B2 (en) File formats, methods, and computer program products for representing workbooks
US9811727B2 (en) Extracting reading order text and semantic entities
US20050005239A1 (en) System and method for automatic insertion of cross references in a document
JP3181994B2 (ja) ジョブフロー仕様書自動作成方法
WO2014064803A1 (ja) 文書処理プログラム、文書処理装置、文書処理システム、文書処理方法
CN109710518A (zh) 脚本审核方法及装置
CN113076133A (zh) 基于深度学习的Java程序内部注释的生成方法及系统
JP2020113129A (ja) 文書評価装置、文書評価方法及びプログラム
JP3828379B2 (ja) テスト仕様生成支援装置、方法、プログラム及び記録媒体
JP4821039B2 (ja) 地名情報抽出装置、その抽出方法及び記録媒体
CN114385679A (zh) 一种表结构巡检方法、表结构巡检装置和电子设备
US8239362B1 (en) Using metadata fragments as authoritative manufacturing work instructions
JP5670156B2 (ja) テスト結果照合システム、方法、及びプログラム
JP2008077285A (ja) Sql管理システムとsql管理方法およびプログラム
KR100910895B1 (ko) 법률의 개정내용 심사 및 제/개정 작업을 위한 자동화시스템 및 그 방법
JP5115631B2 (ja) 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置
AU760395B2 (en) Program reproducing method and device, and medium on which program for program reproduction recording
JP3345522B2 (ja) データ項目部品を利用するプログラム開発支援装置
US7613709B2 (en) System and method for editing operations of a text object model
JP2007241473A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体
JP3239845B2 (ja) 全文検索装置および方法
JP3311962B2 (ja) プログラム修正箇所検出装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100907

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4588037

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees