JP2010134709A

JP2010134709A - 語彙誤り検出装置及び語彙誤り検出方法

Info

Publication number: JP2010134709A
Application number: JP2008310102A
Authority: JP
Inventors: Yasutaka Otake; 康隆大嶽
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-12-04
Filing date: 2008-12-04
Publication date: 2010-06-17

Abstract

【課題】製品の仕様を行列形式で表す仕様データにおいて用いられている語彙と、標準辞書で定義された語彙との相違を容易に検出可能な検出技術を提供する。
【解決手段】表データ解析部２２は、文書入力部２１が入力を受け付けた技術文書から仕様データを抽出する。アトリビュート推定部２４は、分類入力部２３に入力された分類識別子によって分類が特定された辞書データと表データ解析部２２が抽出した仕様データとを用いて、仕様データにおける各列がどのアトリビュートに対応するか否かを推定する。類似プロパティ検索部２５は、仕様データにおける列に対して推定されたアトリビュートを用いて、類似プロパティを検索する。語彙照合部２７は、仕様データにおける行に対する類似プロパティと当該行とを照合して、語彙の相違を検出する。照合結果出力部２８は、検出された語彙の相違を照合結果として出力する。
【選択図】図１

Description

本発明は、語彙誤り検出装置及び語彙誤り検出方法に関する。

従来、製品を製造したり販売したりするサプライヤ企業と、その製品を利用するユーザ企業との間で交換される技術文書には、製品カタログ、スペックシート、納入仕様書などがある。これらの文書において製品の仕様を表す仕様データはしばしば行列形式の表として表現される。その表中の１行（又は１列）は１つのデータ項目に相当するが、それが何を意味するのかを「項目名」「記号」「単位」などの各要素を詳細項目として用い説明した上で、「値」を記載するといった形式をとることが普通である。

最近では、サプライヤ企業と、ユーザ企業とが一丸となり製品分類毎に標準的なデータ項目を定めた辞書を開発しており、データ項目の標準化や統一化がはかられるようになってきている。辞書の形式の１つとして、ISO13584（通称、ＰＬＩＢ：Parts Library）がある。ＰＬＩＢは、各製品の仕様データを表現するためのデータ項目の集合である「プロパティ」と製品分類を定める「クラス」とを定義するための構造及びその辞書に従って具体的な製品仕様を記述した「コンテンツ」を交換するための構造を定めた国際規格である。ＰＬＩＢにおいては、データ項目が何を意味するかを説明する詳細項目に相当する「アトリビュート」を標準化している。ＰＬＩＢに従ったデータを管理するデータベースは、階層型データベースの１つととらえることができる。

ＰＬＩＢに従う国際辞書としては、計測器に関するISO13584-501や、ボルト／ナットなどに関するISO13584-511などがある。また、工業界標準辞書としては、日本では（社）電子情報技術産業協会のECALS辞書、（社）日本電機工業会のJeMarche辞書などがある。世界各国においても、このような辞書の開発が活発となっている。

しかしながら、現在流通する技術文書においても、「項目名」「記号」「単位」などの詳細項目として記載する語彙や説明文が、同じデータ項目を意味する場合においてもサプライヤ毎に微妙に異なる表現となっていることが依然として多い。このため、技術文書を利用する側のユーザ企業では一貫性がとれないなどの問題が発生している。技術文書で用いられる語彙について、ＰＬＩＢなどに従った標準的な辞書（標準辞書という）で定義された語彙へ統一することが急務となっており、標準辞書で定義された語彙にあわない語彙の誤りの検出やその修正が求められている。

一般的には技術文書の作成者が文書上の用語をキーとして辞書を類似検索することで、それが正しい語彙であるか否かを人手により検出することが行われている。しかし標準辞書の構造を熟知していない作成者にとって、文書上の詳細項目が、標準辞書のどのアトリビュートに対応するかなどをわかっていないことが多く、標準辞書で定義された語彙にあわない語彙の誤りを検出する上で苦労することが多かった。

近年においては、ＰＬＩＢに準拠した類似検索システムがいくつか提案されている（特許文献１〜２参照）。また、標準辞書への語彙統一ではないが、表中の誤りを積極的に検出したり修正したりする手法が、例えば、特許文献３に記載されている。これは技術文書中に記述された数値と、表中に記述された数値とを比較し、その冗長性を利用し、不整合を検出する手法である。

誤りを検出する手法を大別すると、１）予め与えられたルール、誤りのパターンを利用する（例：カタカナの語のゆれ、語尾を「ですます調」で統一するなど）方法と、文書自体が持つ冗長性に着目し、訂正する方法（特許文献３参照）とが挙げられるが、このようにして検出された情報は、自然言語による通常の文章表現の場合に効果を発揮するものである。

特開２００４−１７７９９６号公報特開２００４−１７８０１５号公報特開２００８−１１２３６３号公報

しかし、製品仕様書やマニュアルなどの技術文書に含まれている仕様データは単語や値の羅列で表現されている為、ルールの適用の為のコンテキスト抽出や、冗長性を見つけ出すことが難しい為、自動的な誤り検出（校正）ができなかった。

本発明は、上記に鑑みてなされたものであって、製品の仕様を行列形式で表す仕様データにおいて用いられている語彙と、標準辞書で定義された語彙との相違を容易に検出可能な語彙誤り検出装置及び方法を提供することを目的とする。

上述した課題を解決し、本発明は、語彙誤り検出装置であって、少なくとも１つのアトリビュートによって記述されるプロパティによって定義される辞書データを取得する取得手段と、少なくとも１つの要素を含むデータ項目毎に行列形式で表す仕様データの入力を受け付ける第１入力受付手段と、前記データ項目に含まれる各前記要素について、前記アトリビュートのいずれに対応するか又は前記アトリビュートのいずれにも対応しないかを推定する推定手段と、前記要素に対して推定された前記アトリビュートと前記辞書データとを用いて、前記データ項目に類似する類似プロパティを検索する検索手段と、前記データ項目と、前記類似プロパティとを照合することにより、前記データ項目に含まれる前記要素と当該要素に対して推定された前記アトリビュートとの語彙の相違を検出する検出手段とを備えることを特徴とする。

また、本発明は、取得手段と、第１入力受付手段と、推定手段と、検索手段と、第１検出手段とを備える語彙誤り検出装置で実行される語彙誤り検出方法であって、前記取得手段が、少なくとも１つのアトリビュートによって記述されるプロパティによって定義される辞書データを取得する取得ステップと、前記第１入力受付手段が、少なくとも１つの要素を含むデータ項目毎に行列形式で表す仕様データの入力を受け付ける第１入力受付ステップと、前記推定手段が、前記データ項目に含まれる各前記要素について、前記アトリビュートのいずれに対応するか又は前記アトリビュートのいずれにも対応しないかを推定する推定ステップと、前記検索手段が、前記要素に対して推定された前記アトリビュートと前記辞書データとを用いて、前記データ項目に類似する類似プロパティを検索する検索ステップと、前記第１検出手段が、前記データ項目と、前記類似プロパティとを照合することにより、前記データ項目に含まれる前記要素と当該要素に対して推定された前記アトリビュートとの語彙の相違を検出する検出ステップとを含むことを特徴とする。

本発明によれば、製品の仕様を行列形式で表す仕様データにおいて用いられる語彙と、標準辞書で定義された語彙との相違を容易に検出可能になる。

以下に添付図面を参照して、この発明にかかる語彙誤り検出装置及び方法の最良な実施の形態を詳細に説明する。

[実施の形態]
（１）構成
まず、本実施の形態にかかる語彙誤り検出装置のハードウェア構成について図１を用いて説明する。語彙誤り検出装置１０は、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部１０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）１０４やＲＡＭ１０５（Random Access Memory）等の記憶部と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部１０７と、これらを接続するバス１０８とを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、語彙誤り検出装置１０には、情報を表示する表示部１０３と、ユーザの指示入力を受け付けるキーボードやマウス等の操作部１０２と、外部装置の通信を制御する通信Ｉ／Ｆ（interface）とが有線又は無線により各々接続される。本実施の形態においては、語彙誤り検出装置１０は、少なくとも１つの要素を含むデータ項目毎に行列形式で表す仕様データを含む技術文書の編集を行う文書編集装置と通信Ｉ／Ｆを介して接続される。

次に、このようなハードウェア構成において、語彙誤り検出装置１０の制御部１０１がＲＯＭ１０４や外部記憶部１０７に記憶された各種プログラムを実行することにより実現される各種機能について具体的に説明する。図２は、語彙誤り検出装置１０の機能的構成を例示する図である。語彙誤り検出装置１０は、辞書ＤＢ１２と、辞書データ管理部２６と、文書入力部２１と、表データ解析部２２と、分類入力部２３と、アトリビュート推定部２４と、類似プロパティ検索部２５と、語彙照合部２７と、照合結果出力部２８とを有する。これらのうち、辞書データ管理部２６と、表データ解析部２２と、分類入力部２３と、アトリビュート推定部２４と、類似プロパティ検索部２５と、語彙照合部２７と、照合結果出力部２８とは、制御部１０１のプログラム実行時にＲＡＭ１０５などの記憶部上に生成されるものである。辞書ＤＢ１２は、例えば外部記憶部１０７に記憶されるものである。

辞書ＤＢ１２は、辞書データを記憶する。辞書データは、製品の分類と階層を示すクラスと、クラスを特徴付けるプロパティによって定義される。またプロパティは少なくとも1つのアトリビュートによって定義される。製品とは、ユーザのニーズや欲求を満たすために、市場へと提供されるものであり、有形のものだけでなく、サービス、経験、イベント、人、場所、資産、組織、情報、アイデアなどが製品に含まれる。図３は、辞書ＤＢ１２のデータ構造を例示する図である。同図では、辞書ＤＢ１２は、分類（クラス）を中心とした階層構造を有していることが示されている。同図に示される階層構造においては、「COMPONENT」という分類をルートクラスとし、その子クラスとして「光半導体」と「トランジスタ」とが存在し、さらに「光半導体」にその子クラスとして「発光ダイオード」と「受光素子」と「フォトカプラ」が存在する。即ち、「光半導体」は「発光ダイオード」「受光素子」「フォトカプラ」という３つの分類に細分化されることが示されている。階層構造は何層であっても構わない。尚、（）内に書かれた記号（この例ではTXnnn、nは数字）は、辞書ＤＢ１２内で唯一につけられたクラスを表すコードであり、ＰＬＩＢ規格では「クラスＢＳＵコード」と呼ぶ識別子に相当する。

図３に示すように、階層構造を定義するクラスには、それぞれ固有のプロパティ（図３中、点線で囲まれた部分）が定義される。各クラスにおいては、当該クラスの上位クラスで定義されたプロパティが継承される。例えば、クラス「受光素子」が持つプロパティは、当該クラスで定義されたプロパティ（「TX_172」「TX_175」）と、その上位クラス「光半導体」で定義されたプロパティ（「TX_131」「TX_132」）と、クラス「COMPONENT」で定義されたプロパティ（図３の例では簡略化したため無い）ということになる。クラスの場合と同様にプロパティにおいても辞書ＤＢ１２内で唯一に付与されたプロパティを表すコード（「プロパティＢＳＵコード」又は単に「ＢＳＵ」）が付与される。

図４は、各プロパティの具体的な定義を例示する図である。同図においては、「保存温度」「パッケージ形状」がプロパティとして各々示されている。各プロパティは、少なくとも１つのアトリビュートによって記述される。同図に示される「ＢＳＵ」「推奨名」「短縮名称」「シノニム」「シンボル」「単位」「定義」はアトリビュートの例である。また本実施の形態では利用しないがプロパティのデータ型や、プロパティ自体の定義の出典を示す「出典」といったアトリビュートもＰＬＩＢには存在する。このようにクラスの親子関係、プロパティとそのアトリビュートの種類及びデータ型の種類などの辞書の構造を定めたデータモデルの１つとして、前述した製品部品ライブラリの交換フォーマットの国際標準であるISO13584（Parts Library：ＰＬＩＢ）がある。なお、図３、図４に示した辞書の内容の一部は、（社）電子情報技術産業協会が発行するECALS辞書より引用した。（Copyright c 2000 JEITA/ IPA、Copyright c 1997, IEC, Geneva, Switzerland.、IEC61360-1 2002-02、IEC61360-2 1998-04、IEC61360-4 1997-05）

図２の説明に戻る。辞書データ管理部２６は、辞書ＤＢ１２を管理するものであり、具体的には、辞書ＤＢ１２に記憶された辞書データへのアクセスを制御する。文書入力部２１は、文書編集装置１１から送信された技術文書の入力を受け付ける。表データ解析部２２は、文書入力部２１が入力を受け付けた技術文書から、ユーザにより指定された範囲の行列形式で表される部分（表）を解析して、仕様データを抽出する。尚、技術文書のうち指定された範囲とは、文書編集装置１１の操作部１０２を介してユーザにより指定されたものであり、当該範囲を示す範囲指定情報が文書編集装置１１から送信されて表データ解析部２２に入力される。またこの範囲の指定においては、辞書データにおけるアトリビュートに対応する方向が仕様データにおいて列方向であるか行方向であるかもユーザにより指定され、範囲指定情報はアトリビュートに対応する方向も更に示すものとする。

図５は、技術文書を例示する図である。図５においてタイトル行及び列（分類、項目、記号、測定条件、最小、標準、最大、単位、発光側、受光側、結合特性）を除いた行列形式の表で表されている部分が、仕様データに相当する範囲である。図６に、抽出された仕様データを例示する。、この範囲が指定されることにより、表データ解析部２２は技術文書から仕様データを抽出する。また、図５においては、データ項目の方向が行方向となり、データ項目に含まれる各要素の方向が列方向となる。このデータ項目が、辞書データにおけるプロパティに相当し、要素が、辞書データにおけるアトリビュートに相当する。従って、同図に示される仕様データについては、列方向がアトリビュートに対応する方向となり、行方向がプロパティに対応する方向となる。

図２の説明に戻る。分類入力部２３は、文書編集装置１１から送信された分類識別子の入力を受け付ける。この分類識別子は、製品の各分類に対して一意に識別可能に付与されたものであり、仕様データによってその仕様が表される製品の範囲を限定するために文書編集装置１１の操作部１０２を介してユーザにより指定される。そして、ユーザによって指定された分類識別子が文書編集装置１１から送信されて分類入力部２３に入力される。

アトリビュート推定部２４は、分類入力部２３に入力された分類識別子によって、辞書ＤＢ１２に記憶されている辞書データのうち、処理対象となる分類（クラス）を特定し、特定したクラスの辞書データを、辞書データ管理部２６を介して取得する。例えば、分類識別子として、「フォトカプラ」、「発光ダイオード」又は「受光素子」の３つのクラスが指定される。尚、分類識別子として、１クラスが指定されていても良いし、２つ以上のクラスが指定されるようにしても良い。図３〜６に示したフォトカプラは、発光ダイオードと受光素子とを部品とする複合構成品であるので、このように３つの製品分類であるクラスを対象とした。そして、アトリビュート推定部２４は、取得した辞書データと表データ解析部２２が抽出した仕様データとを用いて、仕様データにおける各列がどのアトリビュートに対応するか否かを推定する。類似プロパティ検索部２５は、表データ解析部２２が抽出した仕様データにおける列に対してアトリビュート推定部２４が推定したアトリビュートを用いて、仕様データにおける各行が示すものに近いプロパティ（類似プロパティという）を検索する。語彙照合部２７は、仕様データにおける行に対して類似プロパティ検索部２５が検索した類似プロパティと当該行とを照合して、当該行に属する列の語彙と当該列に対して推定されたアトリビュートの語彙との相違を検出する。照合結果出力部２８は、語彙照合部２７が照合して検出した語彙の相違を照合結果として出力する。

（２）動作
次に、本実施の形態にかかる語彙誤り検出装置１０の行う語彙誤り検出処理の手順について図７を用いて説明する。語彙誤り検出装置１０は、製品の仕様を行列形式で表す仕様データを含む技術文書、当該仕様データが表される表の範囲を示すと共に辞書データにおけるアトリビュートに相当する方向が仕様データにおいて行方向であるのか又は列方向であるのかを示す範囲指定情報及び分類識別子を文書編集装置１１から受信する。そして、語彙誤り検出装置１０は、文書入力部２１の機能により、技術文書の入力を受け付け、表データ解析部２２の機能により、範囲指定情報の入力を受け付け、分類入力部２３の機能により、分類識別子情報の入力を受け付ける（ステップＳ１）。次いで、語彙誤り検出装置１０は、表データ解析部２２の機能により、ステップＳ１で入力を受け付けた技術文書のうち、範囲指定情報に示される範囲の表を仕様データとして抽出する（ステップＳ２）。また、語彙誤り検出装置１０は、ステップＳ１で入力を受け付けた分類識別子によって、辞書ＤＢ１２に記憶されている辞書データのうち処理対象となる分類（クラス）を特定し、特定したクラスの辞書データを、辞書データ管理部２６の機能により取得する（ステップＳ３）。例えば、分類識別子として、「フォトカプラ」、「発光ダイオード」又は「受光素子」の３つのクラスが指定され、当該各クラスの辞書データが処理対象として取得される。そして、語彙誤り検出装置１０は、アトリビュート推定部２４の機能により、ステップＳ３で取得した辞書データとステップＳ２で抽出した仕様データとを用いて、仕様データにおける各列がどのアトリビュートに対応するか否かを推定する（ステップＳ４）。図６に示した仕様データについては、列A〜列Gが、辞書データの各アトリビュートである「ＢＳＵ」「推奨名」「短縮名称」「シノニム」「シンボル」「単位」「定義」の何れに該当するかまたは何れにも該当しないかを語彙誤り検出装置１０は推定する。

図８は、語彙誤り検出装置１０がアトリビュートを推定する処理の手順を示すフローチャートである。語彙誤り検出装置１０は、仕様データにおいて行及び列の指定により一意に定まるセルデータを「d(行、列)＝d(i,j)」（i=1・・・n,j=1・・・m）としてＲＡＭなどの記憶装置に記憶させる(ステップＳ２０)。例えば、図６の例では、セルデータd(1,1)は”順電圧”となる。そして、語彙誤り検出装置１０は、推定の対象となるアトリビュートについて処理対象となるアトリビュートを１つずつ選択して（ステップＳ２１)、各々ステップＳ２２〜Ｓ２５の処理を行う。尚、ここでは、図４に示した「ＢＳＵ」「推奨名」「短縮名称」「シノニム」「シンボル」「単位」を推定の対象のアトリビュートとする。いずれのアトリビュートを推定の対象とするかは例えば予め設定されるようにしても良いし、入力装置を介してユーザにより指定されるようにしても良い。そして、語彙誤り検出装置１０は、仕様データにおける全ての列について処理対象となる列を１つずつ選択して（ステップＳ２２)、各々ステップＳ２３〜Ｓ２５の処理を行う。そして、語彙誤り検出装置１０は、処理対象の列について当該列に属するセルデータを１つずつ処理対象として選択して（ステップＳ２３）、セルデータを単語に分解する。例えば、ステップＳ２１で「推奨名」が処理対象のアトリビュートとして選択されており、ステップＳ２２で列Aが処理対象の列として選択されており、d(1,1)が処理対象のセルデータとして選択されているとする。このセルデータ”順電圧”を単語に分解した結果は、“順電圧”,“順”,“電圧”となる。

次いで、語彙誤り検出装置１０は、ステップＳ２４で単語に分解したセルデータに対して、以下の(a)〜(c)のルールに従って、点数を計算する（ステップＳ２５）。
(a)辞書データに当該アトリビュートに完全一致するプロパティが存在する場合：5点
(b)単語に分解した結果が部分一致するプロパティが辞書データに存在する場合：1点
(c)但し、点数を一度加えたプロパティに関しては、点数を再度加えない

例えば、“順電圧”,“順”,“電圧”の場合、語彙誤り検出装置１０は、これらの各単語を、図４に示されるアトリビュート「推奨名」の列に属する各行の各語彙に照らし合わせていく。すると、各単語について、以下の結果が得られる。
“順電圧”がTX_159に完全一致： 5点
“順”がTX_151に部分一致： 1点
“電圧”がTX_152,TX_188に部分一致： 1+1点
以上の結果、セルデータd(1,1)に対しての点数は合計8点となる。

以上の計算を、語彙誤り検出装置１０は、処理対象の列に属する全てのセルデータに対して列毎に行っていく。すると、列毎に以下の結果が得られる。
列Aについては以下の通りである。
P(「推奨名」、「列A」)=50点
P(「短縮名称」、「列A」)=50点
P(「シノニム」、「列A」)=10点
P（「シンボル」、「列A」）=0点
P（「単位」、「列A」）=0点
列Bについては以下の通りである。
P(「短縮名称」、「列B」)=0点
P(「シノニム」、「列B」)=0点
P（「シンボル」、「列B」）=35点
P（「単位」、「列B」）=0点
列Cについては以下の通りである。
P(「短縮名称」、「列C」)=0点
P(「シノニム」、「列C」)=0点
P（「シンボル」、「列C」）=15点
P（「単位」、「列C」）=15点
列DAについては以下の通りである。
P(「短縮名称」、「列D」)=0点
P(「シノニム」、「列D」)=0点
P（「シンボル」、「列D」）=0点
P（「単位」、「列D」）=0点
列Eについては以下の通りである。
P(「短縮名称」、「列E」)=0点
P(「シノニム」、「列E」)=0点
P（「シンボル」、「列E」）=0点
P（「単位」、「列E」）=0点
列Fについては以下の通りである。
P(「短縮名称」、「列F」)=0点
P(「シノニム」、「列F」)=0点
P（「シンボル」、「列F」）=0点
P（「単位」、「列F」）=0点
列Gについては以下の通りである。
P(「短縮名称」、「列G」)=0点
P(「シノニム」、「列G」)=0点
P（「シンボル」、「列G」）=0点
P（「単位」、「列G」）=45点

以上のように、語彙誤り検出装置１０は全ての列について当該列に属する全てのセルデータに対して列毎に計算を行った後、仕様データにおける各列において点数の最も高いアトリビュートを選択する（ステップＳ２６）。このとき、「推奨名」「短縮名称」「シノニム」は全て「名称」であるため、これらを区別せずに、同一のアトリビュートとして取り扱う。更に、閾値を20点として、語彙誤り検出装置１０は20点以上のアトリビュートのうち点数の最も高いアトリビュートを選択する。すると、列毎の選択結果は以下の通りとなる。
列Aに対して、「名称」（「推奨名」「短縮名称」「シノニム」）が選択される。
列Bに対して、「シンボル」が選択される。
列C〜Fに対しては、該当するアトリビュートが存在しない。
列Gに対しては、「単位」が選択される。
このようにして、語彙誤り検出装置１０は、各列に対して、辞書データにおけるアトリビュートのいずれに対応するか又はアトリビュートのいずれにも対応しないかを推定する。

図７の説明に戻る。語彙誤り検出装置１０は、以上のようにして推定されたアトリビュートを用いて、類似プロパティ検索部２５の機能により、仕様データにおける各行が示すものに近いプロパティ（類似プロパティ）を検索する（ステップＳ５）。

図９は、語彙誤り検出装置１０が類似プロパティを検索する処理の手順を示すフローチャートである。まず、語彙誤り検出装置１０は、辞書データにおいて比較対象のプロパティを選択する（ステップＳ３０）。次いで、語彙誤り検出装置１０は、処理対象とする行を選択する（ステップＳ３１）。そして、語彙誤り検出装置１０は、以下のルールを適用して、処理対象とする行に属する各列のうち、アトリビュートが推定された列毎に点数を類似度として計算する（ステップＳ３２）。
(d)辞書データにおける当該アトリビュートに文字列が完全一致する場合：5点
(e)辞書データにおける当該アトリビュートに文字列が部分一致する場合：1点
(f)「名称」（「推奨名」「短縮名称」「シノニム」）に関しては区別しない

ここで、具体的に例を挙げて説明する。ステップＳ３０では、辞書データにおいて比較対象のプロパティとしてTX_187（電流伝達率）が選択されており、ステップＳ３１では、処理対象の行として、図６の５行目の「変換効率」が選択されているとする。語彙誤り検出装置１０は、上述の(d)〜(f)のルールに従って、図６の５行目のデータとTX_187（電流伝達率）との間の点数を、アトリビュートが推定された列毎に計算する。ここでは、列A,B,Gに対してアトリビュートが推定されているから、これらの各列が計算の対象となる。計算結果は、以下の通りとなる。
列Aの文字列「変換効率」と、当該列Aに対して推定されたアトリビュートである「名称」との間の点数は、0点となる。
列Bの文字列「I_C/I_F」と、当該列Bに対して推定されたアトリビュートである「シンボル」との間の点数は、5点となる。
列Gの文字列「％」と、当該列Gに対して「単位」との間の点数は、5点となる。これらの合計は、10点となる。この合計が、処理対象の行に対する最終的な類似度となる。
尚、図４の例では、その他の辞書データにおける各オブジェクトのプロパティについては、全て合計が0点となる。従って、図６の５行目の「変換効率」は、辞書データにおけるプロパティとしてTX_187（電流伝達率）に該当する可能性が高いことが分かる。

以上のようにして、語彙誤り検出装置１０は、処理対象とする行に属する各列のうち、推定されたアトリビュートに対応する全ての列について類似度を計算する。そして、当該全ての列について類似度の計算が終了すると（ステップＳ３３：ＹＥＳ）、語彙誤り検出装置１０は、次いで、全ての行について類似度の計算が終了したか否かを判定する（ステップＳ３４）。全ての行について類似度の計算が終了していない場合には（ステップＳ３４：ＮＯ）、ステップＳ３１に戻り、語彙誤り検出装置１０は、処理対象とする行を新たに選択する。このようにして、語彙誤り検出装置１０は、仕様データに含まれる全ての行について、上述の(d)〜(f)のルールに従って、推定されたアトリビュート毎に類似度を計算する。そして、仕様データに含まれる全ての行について類似度の計算が終了すると（ステップＳ３４：ＹＥＳ）、語彙誤り検出装置１０は、合計の点数が最も高いプロパティを選択して、これを類似プロパティとして決定する（ステップＳ３５）。このようにして、語彙誤り検出装置１０は類似プロパティを検索する。この結果、仕様データの各行に対して類似プロパティとして決定された結果は以下の通りとなる。
１行目「順電圧」に対して、TX_159が類似プロパティとして決定される。
２行目「逆電流」に対して、TX_160が類似プロパティとして決定される。
３行目「端子間容量」に対して、TX_161が類似プロパティとして決定される。
４行目「コレクタ遮断電流」に対して、TX_172が類似プロパティとして決定される。
５行目「変換効率」に対して、TX_187が類似プロパティとして決定される。
６行目「変換効率（飽和）」に対して、該当するプロパティは存在しない。
７行目「コレクタ・エミッタ間飽和電圧」に対して、TX_188が類似プロパティとして決定される。
８行目「ターンオン時間」に対して、TX_193が類似プロパティとして決定される。
９行目「ターンオフ時間」に対して、TX_194が類似プロパティとして決定される。

図７の説明に戻る。最後に、語彙誤り検出装置１０は、語彙照合部２７の機能により、ステップＳ５で類似プロパティが検索された、仕様データの全ての行に対して、当該類似プロパティと当該行とにおいて語彙が相違する列の文字列を検出する(ステップＳ６)。即ち、語彙誤り検出装置１０は、仕様データの行においてアトリビュートが推定されている列に対して、類似プロパティにおけるアトリビュートとの語彙の相違を行毎に検出する。尚、「名称」に相当する列については、語彙誤り検出装置１０は、辞書データの「推奨名」の語彙と相違する場合に語彙の相違を検出するものとする。例えば、図６の５行目の「変換効率」と、当該行に対する類似プロパティであるTX_187とにおいては、列Aの文字列「変換効率」に対し、推定されているアトリビュートである「名称」（「推奨名」「短縮名称」）の語彙は「電流伝達率」である。このため、語彙が相違するとして列Aの語彙「変換効率」が検出される。次いで、語彙誤り検出装置１０は、照合結果出力部２８の機能により、辞書データと相違するとステップＳ７で検出した語彙を照合結果として出力する(ステップＳ７）。

図１０は、照合結果を表示装置に出力する例を示す図である。同図においては、類似プロパティにおけるアトリビュートの語彙と相違する語彙が斜体で表されている。また、該当する類似プロパティが存在しない行については、列Aの語彙が白抜きで表されている。

以上のように、製品の仕様を列形式で表す仕様データから抽出した語彙群の冗長性と、ＰＬＩＢに従った辞書のデータ構造の特徴とに着目し、入力された技術文書に含まれる仕様データの構造と辞書ＤＢ１２におけるデータ構造とを比較することで、仕様データにおける列がどのアトリビュートに対応するかを推定し、その結果を用いて仕様データにおける各行がどのプロパティに対応するかを検索して、仕様データと辞書データとの相違を検出する。この結果、仕様データにおいて用いられる語彙と、標準辞書で定義された語彙との相違を容易に検出することができる。このため、仕様データにおいて用いられる語彙を標準辞書に合わせた語彙に修正することを支援することができる。従って、製品の仕様書などの技術文書において可能な限り標準辞書で定義された用語と概念を用いて記述を行うことができ、ひいては技術文書を利用するユーザ企業とそれを提供するサプライ企業との間の意味解釈の齟齬をなくすことができ、技術文書の品質を向上させることができる。

[第２の実施の形態]
次に、語彙誤り検出装置及び方法の第２の実施の形態について説明する。なお、上述の第１の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。

（１）構成
例えば、上述したＰＬＩＢなどの辞書の開発の初期段階においては、アトリビュートとして図４に例示したような「定義」について厳密なものを設定することが困難な場合がある。このため、そのようなプロパティにおいては、アトリビュート「推奨名」とアトリビュート「定義」とを同じにする辞書がある。このような辞書を辞書ＤＢ１２に適用する場合、アトリビュート推定部２４は、仕様データにおける列に対応する適切なアトリビュートを推定できない場合がある。本実施の形態においては、このような場合においても、仕様データにおける列に対応する適切なアトリビュートを推定することを可能にする構成について説明する。

図１１は、本実施の形態にかかる辞書ＤＢ１２のデータ構造を例示する図である。同図に示される階層構造においては、ルートクラスである「COMPONENT」の子クラスとして「光半導体」と「トランジスタ」とに加え、「光部品」が階層付けられている。図１２は、「光部品」についての各プロパティの具体的な定義を例示する図である。同図に示されるように、例えば、ヘッダを除く１，４，５，６行目の各プロパティについては、「推奨名」と「定義」との語彙が同じとなっている。

本実施の形態にかかる語彙誤り検出装置１０の機能的構成については、図２に示したものと同様であるが、アトリビュート推定部２４の詳細な機能が、上述の第１の実施の形態と異なる。本実施の形態にかかるアトリビュート推定部２４は、分類入力部２３に入力された分類識別子によって特定されるクラスの辞書データと表データ解析部２２が抽出した仕様データとを用いて、仕様データにおける各列がどのアトリビュートに対応するか否かを推定する際に、仕様データにおける列に属する各行の文字列の文字数の平均と、辞書データにおけるアトリビュートに属する各行の文字列の文字数の平均とを用いる。具体的にどのように用いるのかについては以下の動作欄で説明する。

（２）動作
次に、本実施の形態にかかる語彙誤り検出装置１０の行う語彙誤り検出処理の手順について説明する。本実施の形態にかかる語彙誤り検出処理の手順自体は図７と同様であるため、ここではその図示を省略する。本実施の形態においては、ステップＳ４でアトリビュートを推定する処理の手順が上述の第１の実施の形態と異なる。また、ここでは、ステップＳ１で入力が受け付けられた分類識別子は、「光部品」であるとし、ステップＳ２では、図１３に示される仕様データが抽出されるものとする。ステップＳ４では、語彙誤り検出装置１０は、アトリビュート推定部２４の機能により、ステップＳ３で取得した辞書データとステップＳ２で抽出した仕様データとを用いて、仕様データにおける各列がどのアトリビュートに対応するか否かを推定する。

図１４は、本実施の形態にかかる語彙誤り検出装置１０がアトリビュートを推定する処理の手順を示すフローチャートである。ここでは、図１４に示した仕様データを具体例としてその手順を説明する。尚、推定の対象となるアトリビュートは、「定義」を含めた、「推奨名」「短縮名称」「シノニム」「シンボル」「単位」「定義」とする。語彙誤り検出装置１０は、上述の第１の実施の形態と同様にして、ステップＳ２０〜Ｓ２４の後、ステップＳ２５では、ステップＳ２４で単語に分解したセルデータに対して、上述の(a)〜(c)のルールに従って、点数を計算する。このような計算を、上述の第１の実施の形態と同様にして、語彙誤り検出装置１０は、処理対象の列に属する全てのセルデータに対して列毎に行っていく。すると、列毎に以下の結果が得られる。
列Aについては以下の通りである。
P(「推奨名」、「列A」)=1+5+5=11点
P(「短縮名称」、「列A」)=1+5+5=11点
P(「シノニム」、「列A」)=0点
P(「シンボル」、「列A」)=0点
P(「単位」、「列A」)=0点
P(「定義」、「列A」)=1+1+5+5=12点
列Bについては以下の通りである。
P(「推奨名」、「列B」)=1点
P(「短縮名称」、「列B」)=1点
P(「シノニム」、「列B」)=0点
P(「シンボル」、「列B」)=15点
P(「単位」、「列B」)=0点
P(「定義」、「列B」)=1点
列C,D,E,Fについては以下の通りである。
P(＊、「列C」)=0点
P(＊、「列D」)=0点
P(＊、「列E」)=0点
P(＊、「列F」)=0点
列Gについては以下の通りである。
P(「推奨名」、「列G」)=0点
P(「短縮名称」、「列G」)=0点
P(「シノニム」、「列G」)=0点
P(「シンボル」、「列G」)=0点
P(「単位」、「列G」)=25点
P(「定義」、「列G」)=0点

以上のように、語彙誤り検出装置１０は全ての列について当該列に属するすべてのセルデータに対して列毎に計算を行った後、ステップＳ２６Ａに進む。ステップＳ２６Ａでは、語彙誤り検出装置１０は、仕様データにおける第c列に属する全ての行についての各文字列の平均の文字数である平均文字数m(c)と、辞書データにおけるアトリビュートaに属する全ての行についての各文字列の平均の文字数である平均文字数n(a)とを用いて、以下の式１により各点数を再計算する。
P(a,c) = P(a,c)*2**(-|n(a)-m(c)|/2)・・・（式１）

この結果は、例えば列Aについては以下の通りである。
P(「推奨名」、「列A」)=11*2**(-|5.429-5.00|/2)=9.48
P(「短縮名称」、「列A」)=11*2**(-|5.429-5.00|/2)=9.48
P(「シノニム」、「列A」)=0
P(「シンボル」、「列A」)=0
P(「単位」、「列A」)=0
P(「定義」、「列A」)=12*2**(-|11.429-5.00|/2)=1.29
ここでは、アトリビュート「定義」に対する点数が、再計算する前よりも低くなっていることが分かる。

そして、語彙誤り検出装置１０は全ての列について当該列に属する全てのセルデータに対して列毎に点数の再計算を行った後、ステップＳ２６では、仕様データにおける各列において点数の最も高いアトリビュートを選択する。すると、列毎の選択結果は以下の通りとなる。
列Aに対して、「推奨名」又は「短縮名称」が選択される。
列Bに対して、「シンボル」が選択される。
列C〜Fに対しては、該当するアトリビュートが存在しない。
列Gに対しては、「単位」が選択される。

このようにしてステップＳ４の処理を行った後のステップＳ５〜Ｓ７については上述の第１の実施の形態と同様である。

以上のように、仕様データにおける列の平均文字数と辞書データにおけるアトリビュート平均文字数とを考慮することにより、アトリビュートが厳密に記述されていない場合であっても、アトリビュートを適切に推定することができる。

[変形例]
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。

＜変形例１＞
上述した各実施の形態において、語彙誤り検出装置１０で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。

＜変形例２＞
上述した各実施の形態において、語彙誤り検出装置１０は、辞書ＤＢ１２を有するように構成したが、これに限らず、他の情報処理装置が辞書ＤＢ１２を有するように構成し、語彙誤り検出装置１０は、当該他の情報処理装置を介して辞書ＤＢ１２にアクセスして該当の辞書データを取得するようにしても良い。

また、上述した各実施の形態において、辞書ＤＢ１２はＰＬＩＢに従った場合の適用例を示したが、これに限らず、ＰＬＩＢ以外のデータベースへ適用するようにしても良い。

＜変形例３＞
上述した各実施の形態において、技術文書のうち仕様データとして表される表の範囲をユーザが指定するようにし、語彙誤り検出装置１０は、当該範囲を示す範囲指定情報を文書編集装置１１から受信するように構成した。しかし、これに限らず、文書から表を切り出す表切り出しルールを語彙誤り検出装置１０に予め登録しておき、語彙誤り検出装置１０は、文書編集装置１１から受信した技術文書から当該表切り出しルールに従って自動的に表を切り出すことにより仕様データを抽出するように構成しても良い。

＜変形例４＞
上述した各実施の形態において、アトリビュートに対応する方向は列方向であるとし、プロパティに対応する方向は行方向であるとしたが、これらは逆であっても良い。

また、上述した各実施の形態において、語彙誤り検出装置１０は、ステップＳ１で分類識別子の入力が受け付けられ、ステップＳ３で、当該分類識別子によって処理対象の辞書データを限定してステップＳ４以降の処理を行うようにした。しかし、分類識別子が入力されず、語彙誤り検出装置１０は、辞書ＤＢ１２に記憶されている辞書データの全てを処理対象としてステップＳ４以降の処理を行うようにしても良い。

＜変形例５＞
上述した各実施の形態において、図８で説明したアトリビュートを推定する処理では、語彙誤り検出装置１０は、ステップＳ２１で、処理対象のアトリビュートを選択した後に、ステップＳ２２で、仕様データにおける処理対象のセルデータを選択して処理を行うようにしたが、これに限らず、仕様データにおける処理対象のセルデータを選択した後に、処理対象のアトリビュートを選択して処理を行うようにしても良い。

また、図９で説明した類似プロパティを検索する処理では、語彙誤り検出装置１０は、ステップＳ３１で、処理対象の行を選択した後に、ステップＳ３２で、当該行に属する列について類似度を計算するようにしたが、これに限らず、処理対象の列を選択した後に、当該列に属する行について類似度を計算するようにしても良い。

＜変形例６＞
上述した各実施の形態において、語彙誤り検出装置１０は、辞書データと相違するとステップＳ７で検出した語彙を照合結果として出力するだけでなく、当該語彙に対して辞書データのアトリビュートに定義された語彙を修正候補として出力するようにしても良い。図１５は、修正候補を表示装置に出力する例を示す図である。同図においては、図６の４行目の列Aの語彙「コレクタ遮断電流」について、当該列Aに対して推定された辞書データにおけるアトリビュート「名称」（「推奨名」）に定義された語彙「暗電流」が修正候補として示されている。このような構成によれば、製品の仕様を行列形式で表す仕様データにおいて用いられる語彙を、標準辞書で定義された語彙に修正することを効果的に支援することができる。

＜変形例７＞
上述した各実施の形態において、語彙誤り検出装置１０は、辞書データにおけるアトリビュートの語彙に合わせて過去に修正された語彙の履歴を示す修正履歴情報を用いて、語彙の修正候補を出力するようにしても良い。図１６は、本変形例にかかる語彙誤り検出装置１０´の機能的構成を例示する図である。同図に示されるように、語彙誤り検出装置１０´は、辞書ＤＢ１２と、辞書データ管理部２６と、表データ解析部２２と、分類入力部２３と、アトリビュート推定部２４と、類似プロパティ検索部２５と、語彙照合部２７と、照合結果出力部２８とに加え、修正履歴ＤＢ１３と、修正履歴照合部３０とを有する。修正履歴照合部３０は、ＣＰＵのプログラム実行時にＲＡＭ１０５などの記憶部上に生成されるものである。修正履歴ＤＢ１３は、例えば外部記憶部１０７に記憶されるものである。

修正履歴ＤＢ１３は、修正履歴情報を記憶する。図１７は、修正履歴情報を例示する図である。同図に示されるように、修正履歴情報は、辞書データにおけるアトリビュートの語彙である正しい語彙（正語彙という）と、当該語彙に合わせて修正された語彙（誤語彙という）とを分類及びアトリビュートと対応付けて示す。修正履歴照合部３０は、仕様データにおいて、該当する類似プロパティが存在しない行に対して、修正履歴ＤＢ１３に記憶された修正履歴情報を用いて、当該行に属する列と当該列に対して推定されたアトリビュートとの語彙を照合する。照合結果出力部２８は、修正履歴照合部３０の照合の結果、前者の語彙と後者の語彙とが全部又は一部一致する場合、後者の語彙と共に修正履歴情報によって示される正語彙を出力する。

次に、本変形例にかかる語彙誤り検出装置１０´の行う語彙誤り検出処理の手順について図１８を用いて説明する。ステップＳ１〜Ｓ５は、上述の第１の実施の形態又は第２の実施の形態と同様である。尚、辞書ＤＢ１２の構成は第２の実施の形態と同様であるとし、ステップＳ１で分類識別子として「光部品」の入力が受け付けられ、ステップＳ２で、図１９に示される仕様データが抽出され、ステップＳ４で、列Aに対してアトリビュートとして「推奨名」が推定されたとする。そして、ステップＳ５の類似プロパティの検索の結果、図１９に示した仕様データについてヘッダを除く３，４，５行目については、辞書データにおいて該当する類似プロパティが存在しないものとする。尚、以降、これらの行を未解決行という。この未解決行について、上述の第１の実施の形態においては、語彙誤り検出装置１０は、ステップＳ６以降の処理を行うことができなかった。本実施の形態においては、各未解決行について、語彙誤り検出装置１０´は、仕様データにおける行毎に以下の処理を行う。まず、ステップＳ４０では、語彙誤り検出装置１０´は、仕様データにおける処理対象の行に対して該当する類似プロパティがあるか否かを判定する。ここでは、当該判定結果が否定的であるとする（ステップＳ４０：ＮＯ）。この場合、未解決行に対して、語彙誤り検出装置１０´は、修正履歴照合部３０の機能により、修正履歴ＤＢ１３を参照して、ステップＳ１で入力された分類識別子（ここでは、「光部品」である）をキーとして当該分類に対応する修正履歴情報を検索する。図１７の例では、１行目の修正履歴情報が検索される。次いで、語彙誤り検出装置１０´は、検索された修正履歴情報について、対象のアトリビュートに対応する、仕様データにおける列に関し、誤語彙をキーにして、当該誤語彙の文字列の全部又は一部が一致するか否かを判定することにより、語彙の照合を行う。図１７の例では、１行目の修正履歴情報における対象のアトリビュートは「推奨名」であり、当該アトリビュートに対応する、仕様データにおける列は列Aであるため、誤語彙「反射減衰値」をキーとして、一致するか否かが判定される。そして、この判定の結果、誤語彙の全部又は一部が一致する場合、ステップＳ７では、語彙誤り検出装置１０´は、修正履歴情報において当該誤語彙に対応する正語彙を修正候補とする。語彙誤り検出装置１０´はこのような処理を図１９に示されるヘッダを除く３，４，５行目の各未解決行に対してアトリビュート毎に行う。そして、ステップＳ７では、未解決行に対する修正候補を照合結果として出力する。図２０は、図１９に示される仕様データに対して修正候補を出力する例を示す図である。同図において、図１９に示されるヘッダを除く３，４，５行目については、誤語彙「反射減衰値」に対応する正語彙「反射減衰量」が修正候補として出力されることが示されている。

尚、ステップＳ４０の判定結果が肯定的である場合は（ステップＳ４０：ＹＥＳ）、語彙誤り検出装置１０´は、上述の第１の実施の形態と同様にして、ステップＳ６で語彙の照合を行い、ステップＳ７では上述の変形例６で説明したように修正候補を出力する。

尚、ステップＳ７の後、仕様データにおいて語彙を修正する入力が入力装置を介して行われた場合、語彙誤り検出装置１０は、修正前の語彙を誤語彙とし、修正後の語彙であって辞書データにおけるアトリビュートの語彙を正語彙とし、これらを分類及びアトリビュートと対応付けて示す修正履歴情報を生成して、これを修正履歴ＤＢ１３に記憶させれば良い。

以上のようにして、過去の修正履歴を用いることで、製品の仕様を行列形式で表す仕様データにおいて用いられる語彙を、標準辞書で定義された語彙に修正することをより効果的に支援することができる。また、製品の仕様を行列形式で表す仕様データにおいて用いられる語彙を標準辞書で定義された語彙に統一化することが可能になる。

第１の実施の形態にかかる語彙誤り検出装置１０のハードウェア構成を例示する図である。同実施の形態にかかる語彙誤り検出装置１０の機能的構成を例示する図である。同実施の形態にかかる辞書ＤＢ１２のデータ構造を例示する図である。同実施の形態にかかる各プロパティの具体的な定義を例示する図である。同実施の形態にかかる技術文書を例示する図である。同実施の形態にかかる仕様データを例示する図である。同実施の形態にかかる語彙誤り検出装置１０の行う語彙誤り検出処理の手順を示すフローチャートである。同実施の形態にかかる語彙誤り検出装置１０がアトリビュートを推定する処理の手順を示すフローチャートである。同実施の形態にかかる語彙誤り検出装置１０が類似プロパティを検索する処理の手順を示すフローチャートである。同実施の形態にかかる照合結果を表示部に出力する例を示す図である。第２の実施の形態にかかる辞書ＤＢ１２のデータ構造を例示する図である。図１１に示した辞書ＤＢ１２における「光部品」についての各プロパティの具体的な定義を例示する図である。同実施の形態にかかる仕様データを例示する図である。同実施の形態にかかる語彙誤り検出装置１０がアトリビュートを推定する処理の手順を示すフローチャートである。同実施の形態にかかる修正候補を表示部に出力する例を示す図である。一実施の形態にかかる一変形例にかかる語彙誤り検出装置１０´の機能的構成を例示する図である。同変形例にかかる修正履歴情報を例示する図である。同変形例にかかる語彙誤り検出装置１０´の行う語彙誤り検出処理の手順を示すフローチャートである。同変形例にかかる仕様デーを例示する図である。図１９に示される仕様データに対して修正候補を出力する例を示す図である。

符号の説明

１０語彙誤り検出装置
１１文書編集装置
１２辞書ＤＢ
１３修正履歴ＤＢ
２１文書入力部
２２表データ解析部
２３分類入力部
２４アトリビュート推定部
２５類似プロパティ検索部
２６辞書データ管理部
２７語彙照合部
２８照合結果出力部
３０修正履歴照合部

Claims

少なくとも１つのアトリビュートによって記述されるプロパティによって定義される辞書データを取得する取得手段と、
少なくとも１つの要素を含むデータ項目毎に行列形式で表す仕様データの入力を受け付ける第１入力受付手段と、
前記データ項目に含まれる各前記要素について、前記アトリビュートのいずれに対応するか又は前記アトリビュートのいずれにも対応しないかを推定する推定手段と、
前記要素に対して推定された前記アトリビュートと前記辞書データとを用いて、前記データ項目に類似する類似プロパティを検索する検索手段と、
前記データ項目と、前記類似プロパティとを照合することにより、前記データ項目に含まれる前記要素と当該要素に対して推定された前記アトリビュートとの語彙の相違を検出する検出手段とを備える
ことを特徴とする語彙誤り検出装置。
処理対象となる分類を識別可能な分類識別子の入力を受け付ける第２入力受付手段を更に備え、
前記取得手段は、前記分類識別子によって特定される分類の前記辞書データを取得する
ことを特徴とする請求項１に記載の語彙誤り検出装置。
前記辞書データは、階層付けられており、
前記取得手段は、階層の上位の分類に属する前記プロパティがその下位の分類に継承される前記辞書データを取得する
ことを特徴とする請求項１又は２に記載の語彙誤り検出装置。
前記検出手段の検出の結果を出力する第１出力手段を更に備える
ことを特徴とする請求項１乃至３のいずれか一項に記載の語彙誤り検出装置。
前記検出手段の検出の結果、前記アトリビュートと語彙が相違する前記要素に対して当該アトリビュートの語彙を出力する第２出力手段を更に備える
ことを特徴とする請求項１乃至４のいずれか一項に記載の語彙誤り検出装置。
前記推定手段は、前記仕様データによって表される前記データ項目に含まれる前記要素ついて、各データ項目に各々含まれる前記要素の語彙の平均の文字数と、前記辞書データにおいて前記アトリビュートとして各々記述される各語彙の平均の文字数とを用いて、前記辞書データにおける前記アトリビュートのいずれに対応するか又は前記アトリビュートのいずれにも対応しないかを推定する
ことを特徴とする請求項１乃至５のいずれか一項に記載の語彙誤り検出装置。
前記プロパティは、推奨名、シノニム及び短縮名称のうち少なくとも１つの前記アトリビュートを含み、
前記検索手段は、推奨名、シノニム及び短縮名称を同一のアトリビュートとして、前記要素に対して推定された前記アトリビュートと前記辞書データとを用いて、前記仕様データによって表される前記データ項目に類似する前記プロパティを検索する
ことを特徴とする請求項１乃至６のいずれか一項に記載の語彙誤り検出装置。
前記アトリビュートの第１語彙と、当該第１語彙に合わせて過去に修正された第２語彙とを示す修正履歴情報を記憶する記憶手段と、
前記データ項目に含まれる前記要素の語彙と、当該要素に対して推定された前記アトリビュートについての前記修正履歴情報によって示される第２語彙とを照合する照合手段と、
照合の結果、前者の語彙と後者の第２語彙とが全部又は一部一致する場合、当該第２語彙と共に前記修正履歴情報によって示される前記第１語彙を出力する第３出力手段とを更に備える
ことを特徴とする請求項１乃至７のいずれか一項に記載の語彙誤り検出装置。
前記辞書データを記憶する記憶手段を更に備え、
前記取得手段は、前記辞書データを前記記憶手段から読み出すことにより、前記辞書データを取得する
ことを特徴とする請求項１乃至８のいずれか一項に記載の語彙誤り検出装置。
前記取得手段は、前記辞書データを情報処理装置から受信することにより、前記辞書データを取得する
ことを特徴とする請求項１乃至８のいずれか一項に記載の語彙誤り検出装置。
取得手段と、第１入力受付手段と、推定手段と、検索手段と、第１検出手段とを備える語彙誤り検出装置で実行される語彙誤り検出方法であって、
前記取得手段が、少なくとも１つのアトリビュートによって記述されるプロパティによって定義される辞書データを取得する取得ステップと、
前記第１入力受付手段が、少なくとも１つの要素を含むデータ項目毎に行列形式で表す仕様データの入力を受け付ける第１入力受付ステップと、
前記推定手段が、前記データ項目に含まれる各前記要素について、前記アトリビュートのいずれに対応するか又は前記アトリビュートのいずれにも対応しないかを推定する推定ステップと、
前記検索手段が、前記要素に対して推定された前記アトリビュートと前記辞書データとを用いて、前記データ項目に類似する類似プロパティを検索する検索ステップと、
前記第１検出手段が、前記データ項目と、前記類似プロパティとを照合することにより、前記データ項目に含まれる前記要素と当該要素に対して推定された前記アトリビュートとの語彙の相違を検出する第１検出ステップとを含む
ことを特徴とする語彙誤り検出方法。