JP2010134709A - 語彙誤り検出装置及び語彙誤り検出方法 - Google Patents

語彙誤り検出装置及び語彙誤り検出方法 Download PDF

Info

Publication number
JP2010134709A
JP2010134709A JP2008310102A JP2008310102A JP2010134709A JP 2010134709 A JP2010134709 A JP 2010134709A JP 2008310102 A JP2008310102 A JP 2008310102A JP 2008310102 A JP2008310102 A JP 2008310102A JP 2010134709 A JP2010134709 A JP 2010134709A
Authority
JP
Japan
Prior art keywords
vocabulary
data
attribute
error detection
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008310102A
Other languages
English (en)
Inventor
Yasutaka Otake
康隆 大嶽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008310102A priority Critical patent/JP2010134709A/ja
Publication of JP2010134709A publication Critical patent/JP2010134709A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】製品の仕様を行列形式で表す仕様データにおいて用いられている語彙と、標準辞書で定義された語彙との相違を容易に検出可能な検出技術を提供する。
【解決手段】表データ解析部22は、文書入力部21が入力を受け付けた技術文書から仕様データを抽出する。アトリビュート推定部24は、分類入力部23に入力された分類識別子によって分類が特定された辞書データと表データ解析部22が抽出した仕様データとを用いて、仕様データにおける各列がどのアトリビュートに対応するか否かを推定する。類似プロパティ検索部25は、仕様データにおける列に対して推定されたアトリビュートを用いて、類似プロパティを検索する。語彙照合部27は、仕様データにおける行に対する類似プロパティと当該行とを照合して、語彙の相違を検出する。照合結果出力部28は、検出された語彙の相違を照合結果として出力する。
【選択図】 図1

Description

本発明は、語彙誤り検出装置及び語彙誤り検出方法に関する。
従来、製品を製造したり販売したりするサプライヤ企業と、その製品を利用するユーザ企業との間で交換される技術文書には、製品カタログ、スペックシート、納入仕様書などがある。これらの文書において製品の仕様を表す仕様データはしばしば行列形式の表として表現される。その表中の1行(又は1列)は1つのデータ項目に相当するが、それが何を意味するのかを「項目名」「記号」「単位」などの各要素を詳細項目として用い説明した上で、「値」を記載するといった形式をとることが普通である。
最近では、サプライヤ企業と、ユーザ企業とが一丸となり製品分類毎に標準的なデータ項目を定めた辞書を開発しており、データ項目の標準化や統一化がはかられるようになってきている。辞書の形式の1つとして、ISO13584(通称、PLIB:Parts Library)がある。PLIBは、各製品の仕様データを表現するためのデータ項目の集合である「プロパティ」と製品分類を定める「クラス」とを定義するための構造及びその辞書に従って具体的な製品仕様を記述した「コンテンツ」を交換するための構造を定めた国際規格である。PLIBにおいては、データ項目が何を意味するかを説明する詳細項目に相当する「アトリビュート」を標準化している。PLIBに従ったデータを管理するデータベースは、階層型データベースの1つととらえることができる。
PLIBに従う国際辞書としては、計測器に関するISO13584-501や、ボルト/ナットなどに関するISO13584-511などがある。また、工業界標準辞書としては、日本では(社)電子情報技術産業協会のECALS辞書、(社)日本電機工業会のJeMarche辞書などがある。世界各国においても、このような辞書の開発が活発となっている。
しかしながら、現在流通する技術文書においても、「項目名」「記号」「単位」などの詳細項目として記載する語彙や説明文が、同じデータ項目を意味する場合においてもサプライヤ毎に微妙に異なる表現となっていることが依然として多い。このため、技術文書を利用する側のユーザ企業では一貫性がとれないなどの問題が発生している。技術文書で用いられる語彙について、PLIBなどに従った標準的な辞書(標準辞書という)で定義された語彙へ統一することが急務となっており、標準辞書で定義された語彙にあわない語彙の誤りの検出やその修正が求められている。
一般的には技術文書の作成者が文書上の用語をキーとして辞書を類似検索することで、それが正しい語彙であるか否かを人手により検出することが行われている。しかし標準辞書の構造を熟知していない作成者にとって、文書上の詳細項目が、標準辞書のどのアトリビュートに対応するかなどをわかっていないことが多く、標準辞書で定義された語彙にあわない語彙の誤りを検出する上で苦労することが多かった。
近年においては、PLIBに準拠した類似検索システムがいくつか提案されている(特許文献1〜2参照)。また、標準辞書への語彙統一ではないが、表中の誤りを積極的に検出したり修正したりする手法が、例えば、特許文献3に記載されている。これは技術文書中に記述された数値と、表中に記述された数値とを比較し、その冗長性を利用し、不整合を検出する手法である。
誤りを検出する手法を大別すると、1)予め与えられたルール、誤りのパターンを利用する(例:カタカナの語のゆれ、語尾を「ですます調」で統一するなど)方法と、文書自体が持つ冗長性に着目し、訂正する方法(特許文献3参照)とが挙げられるが、このようにして検出された情報は、自然言語による通常の文章表現の場合に効果を発揮するものである。
特開2004−177996号公報 特開2004−178015号公報 特開2008−112363号公報
しかし、製品仕様書やマニュアルなどの技術文書に含まれている仕様データは単語や値の羅列で表現されている為、ルールの適用の為のコンテキスト抽出や、冗長性を見つけ出すことが難しい為、自動的な誤り検出(校正)ができなかった。
本発明は、上記に鑑みてなされたものであって、製品の仕様を行列形式で表す仕様データにおいて用いられている語彙と、標準辞書で定義された語彙との相違を容易に検出可能な語彙誤り検出装置及び方法を提供することを目的とする。
上述した課題を解決し、本発明は、語彙誤り検出装置であって、少なくとも1つのアトリビュートによって記述されるプロパティによって定義される辞書データを取得する取得手段と、少なくとも1つの要素を含むデータ項目毎に行列形式で表す仕様データの入力を受け付ける第1入力受付手段と、前記データ項目に含まれる各前記要素について、前記アトリビュートのいずれに対応するか又は前記アトリビュートのいずれにも対応しないかを推定する推定手段と、前記要素に対して推定された前記アトリビュートと前記辞書データとを用いて、前記データ項目に類似する類似プロパティを検索する検索手段と、前記データ項目と、前記類似プロパティとを照合することにより、前記データ項目に含まれる前記要素と当該要素に対して推定された前記アトリビュートとの語彙の相違を検出する検出手段とを備えることを特徴とする。
また、本発明は、取得手段と、第1入力受付手段と、推定手段と、検索手段と、第1検出手段とを備える語彙誤り検出装置で実行される語彙誤り検出方法であって、前記取得手段が、少なくとも1つのアトリビュートによって記述されるプロパティによって定義される辞書データを取得する取得ステップと、前記第1入力受付手段が、少なくとも1つの要素を含むデータ項目毎に行列形式で表す仕様データの入力を受け付ける第1入力受付ステップと、前記推定手段が、前記データ項目に含まれる各前記要素について、前記アトリビュートのいずれに対応するか又は前記アトリビュートのいずれにも対応しないかを推定する推定ステップと、前記検索手段が、前記要素に対して推定された前記アトリビュートと前記辞書データとを用いて、前記データ項目に類似する類似プロパティを検索する検索ステップと、前記第1検出手段が、前記データ項目と、前記類似プロパティとを照合することにより、前記データ項目に含まれる前記要素と当該要素に対して推定された前記アトリビュートとの語彙の相違を検出する検出ステップとを含むことを特徴とする。
本発明によれば、製品の仕様を行列形式で表す仕様データにおいて用いられる語彙と、標準辞書で定義された語彙との相違を容易に検出可能になる。
以下に添付図面を参照して、この発明にかかる語彙誤り検出装置及び方法の最良な実施の形態を詳細に説明する。
[実施の形態]
(1)構成
まず、本実施の形態にかかる語彙誤り検出装置のハードウェア構成について図1を用いて説明する。語彙誤り検出装置10は、装置全体を制御するCPU(Central Processing Unit)等の制御部101と、各種データや各種プログラムを記憶するROM(Read Only Memory)104やRAM105(Random Access Memory)等の記憶部と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部107と、これらを接続するバス108とを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、語彙誤り検出装置10には、情報を表示する表示部103と、ユーザの指示入力を受け付けるキーボードやマウス等の操作部102と、外部装置の通信を制御する通信I/F(interface)とが有線又は無線により各々接続される。本実施の形態においては、語彙誤り検出装置10は、少なくとも1つの要素を含むデータ項目毎に行列形式で表す仕様データを含む技術文書の編集を行う文書編集装置と通信I/Fを介して接続される。
次に、このようなハードウェア構成において、語彙誤り検出装置10の制御部101がROM104や外部記憶部107に記憶された各種プログラムを実行することにより実現される各種機能について具体的に説明する。図2は、語彙誤り検出装置10の機能的構成を例示する図である。語彙誤り検出装置10は、辞書DB12と、辞書データ管理部26と、文書入力部21と、表データ解析部22と、分類入力部23と、アトリビュート推定部24と、類似プロパティ検索部25と、語彙照合部27と、照合結果出力部28とを有する。これらのうち、辞書データ管理部26と、表データ解析部22と、分類入力部23と、アトリビュート推定部24と、類似プロパティ検索部25と、語彙照合部27と、照合結果出力部28とは、制御部101のプログラム実行時にRAM105などの記憶部上に生成されるものである。辞書DB12は、例えば外部記憶部107に記憶されるものである。
辞書DB12は、辞書データを記憶する。辞書データは、製品の分類と階層を示すクラスと、クラスを特徴付けるプロパティによって定義される。またプロパティは少なくとも1つのアトリビュートによって定義される。製品とは、ユーザのニーズや欲求を満たすために、市場へと提供されるものであり、有形のものだけでなく、サービス、経験、イベント、人、場所、資産、組織、情報、アイデアなどが製品に含まれる。図3は、辞書DB12のデータ構造を例示する図である。同図では、辞書DB12は、分類(クラス)を中心とした階層構造を有していることが示されている。同図に示される階層構造においては、「COMPONENT」という分類をルートクラスとし、その子クラスとして「光半導体」と「トランジスタ」とが存在し、さらに「光半導体」にその子クラスとして「発光ダイオード」と「受光素子」と「フォトカプラ」が存在する。即ち、「光半導体」は「発光ダイオード」「受光素子」「フォトカプラ」という3つの分類に細分化されることが示されている。階層構造は何層であっても構わない。尚、()内に書かれた記号(この例ではTXnnn、nは数字)は、辞書DB12内で唯一につけられたクラスを表すコードであり、PLIB規格では「クラスBSUコード」と呼ぶ識別子に相当する。
図3に示すように、階層構造を定義するクラスには、それぞれ固有のプロパティ(図3中、点線で囲まれた部分)が定義される。各クラスにおいては、当該クラスの上位クラスで定義されたプロパティが継承される。例えば、クラス「受光素子」が持つプロパティは、当該クラスで定義されたプロパティ(「TX_172」「TX_175」)と、その上位クラス「光半導体」で定義されたプロパティ(「TX_131」「TX_132」)と、クラス「COMPONENT」で定義されたプロパティ(図3の例では簡略化したため無い)ということになる。クラスの場合と同様にプロパティにおいても辞書DB12内で唯一に付与されたプロパティを表すコード(「プロパティBSUコード」又は単に「BSU」)が付与される。
図4は、各プロパティの具体的な定義を例示する図である。同図においては、「保存温度」「パッケージ形状」がプロパティとして各々示されている。各プロパティは、少なくとも1つのアトリビュートによって記述される。同図に示される「BSU」「推奨名」「短縮名称」「シノニム」「シンボル」「単位」「定義」はアトリビュートの例である。また本実施の形態では利用しないがプロパティのデータ型や、プロパティ自体の定義の出典を示す「出典」といったアトリビュートもPLIBには存在する。このようにクラスの親子関係、プロパティとそのアトリビュートの種類及びデータ型の種類などの辞書の構造を定めたデータモデルの1つとして、前述した製品部品ライブラリの交換フォーマットの国際標準であるISO13584(Parts Library:PLIB)がある。なお、図3、図4に示した辞書の内容の一部は、(社)電子情報技術産業協会が発行するECALS辞書より引用した。(Copyright c 2000 JEITA/ IPA、Copyright c 1997, IEC, Geneva, Switzerland.、IEC61360-1 2002-02、IEC61360-2 1998-04、IEC61360-4 1997-05)
図2の説明に戻る。辞書データ管理部26は、辞書DB12を管理するものであり、具体的には、辞書DB12に記憶された辞書データへのアクセスを制御する。文書入力部21は、文書編集装置11から送信された技術文書の入力を受け付ける。表データ解析部22は、文書入力部21が入力を受け付けた技術文書から、ユーザにより指定された範囲の行列形式で表される部分(表)を解析して、仕様データを抽出する。尚、技術文書のうち指定された範囲とは、文書編集装置11の操作部102を介してユーザにより指定されたものであり、当該範囲を示す範囲指定情報が文書編集装置11から送信されて表データ解析部22に入力される。またこの範囲の指定においては、辞書データにおけるアトリビュートに対応する方向が仕様データにおいて列方向であるか行方向であるかもユーザにより指定され、範囲指定情報はアトリビュートに対応する方向も更に示すものとする。
図5は、技術文書を例示する図である。図5においてタイトル行及び列(分類、項目、記号、測定条件、最小、標準、最大、単位、発光側、受光側、結合特性)を除いた行列形式の表で表されている部分が、仕様データに相当する範囲である。図6に、抽出された仕様データを例示する。、この範囲が指定されることにより、表データ解析部22は技術文書から仕様データを抽出する。また、図5においては、データ項目の方向が行方向となり、データ項目に含まれる各要素の方向が列方向となる。このデータ項目が、辞書データにおけるプロパティに相当し、要素が、辞書データにおけるアトリビュートに相当する。従って、同図に示される仕様データについては、列方向がアトリビュートに対応する方向となり、行方向がプロパティに対応する方向となる。
図2の説明に戻る。分類入力部23は、文書編集装置11から送信された分類識別子の入力を受け付ける。この分類識別子は、製品の各分類に対して一意に識別可能に付与されたものであり、仕様データによってその仕様が表される製品の範囲を限定するために文書編集装置11の操作部102を介してユーザにより指定される。そして、ユーザによって指定された分類識別子が文書編集装置11から送信されて分類入力部23に入力される。
アトリビュート推定部24は、分類入力部23に入力された分類識別子によって、辞書DB12に記憶されている辞書データのうち、処理対象となる分類(クラス)を特定し、特定したクラスの辞書データを、辞書データ管理部26を介して取得する。例えば、分類識別子として、「フォトカプラ」、「発光ダイオード」又は「受光素子」の3つのクラスが指定される。尚、分類識別子として、1クラスが指定されていても良いし、2つ以上のクラスが指定されるようにしても良い。図3〜6に示したフォトカプラは、発光ダイオードと受光素子とを部品とする複合構成品であるので、このように3つの製品分類であるクラスを対象とした。そして、アトリビュート推定部24は、取得した辞書データと表データ解析部22が抽出した仕様データとを用いて、仕様データにおける各列がどのアトリビュートに対応するか否かを推定する。類似プロパティ検索部25は、表データ解析部22が抽出した仕様データにおける列に対してアトリビュート推定部24が推定したアトリビュートを用いて、仕様データにおける各行が示すものに近いプロパティ(類似プロパティという)を検索する。語彙照合部27は、仕様データにおける行に対して類似プロパティ検索部25が検索した類似プロパティと当該行とを照合して、当該行に属する列の語彙と当該列に対して推定されたアトリビュートの語彙との相違を検出する。照合結果出力部28は、語彙照合部27が照合して検出した語彙の相違を照合結果として出力する。
(2)動作
次に、本実施の形態にかかる語彙誤り検出装置10の行う語彙誤り検出処理の手順について図7を用いて説明する。語彙誤り検出装置10は、製品の仕様を行列形式で表す仕様データを含む技術文書、当該仕様データが表される表の範囲を示すと共に辞書データにおけるアトリビュートに相当する方向が仕様データにおいて行方向であるのか又は列方向であるのかを示す範囲指定情報及び分類識別子を文書編集装置11から受信する。そして、語彙誤り検出装置10は、文書入力部21の機能により、技術文書の入力を受け付け、表データ解析部22の機能により、範囲指定情報の入力を受け付け、分類入力部23の機能により、分類識別子情報の入力を受け付ける(ステップS1)。次いで、語彙誤り検出装置10は、表データ解析部22の機能により、ステップS1で入力を受け付けた技術文書のうち、範囲指定情報に示される範囲の表を仕様データとして抽出する(ステップS2)。また、語彙誤り検出装置10は、ステップS1で入力を受け付けた分類識別子によって、辞書DB12に記憶されている辞書データのうち処理対象となる分類(クラス)を特定し、特定したクラスの辞書データを、辞書データ管理部26の機能により取得する(ステップS3)。例えば、分類識別子として、「フォトカプラ」、「発光ダイオード」又は「受光素子」の3つのクラスが指定され、当該各クラスの辞書データが処理対象として取得される。そして、語彙誤り検出装置10は、アトリビュート推定部24の機能により、ステップS3で取得した辞書データとステップS2で抽出した仕様データとを用いて、仕様データにおける各列がどのアトリビュートに対応するか否かを推定する(ステップS4)。図6に示した仕様データについては、列A〜列Gが、辞書データの各アトリビュートである「BSU」「推奨名」「短縮名称」「シノニム」「シンボル」「単位」「定義」の何れに該当するかまたは何れにも該当しないかを語彙誤り検出装置10は推定する。
図8は、語彙誤り検出装置10がアトリビュートを推定する処理の手順を示すフローチャートである。語彙誤り検出装置10は、仕様データにおいて行及び列の指定により一意に定まるセルデータを「d(行、列)=d(i,j)」(i=1・・・n,j=1・・・m)としてRAMなどの記憶装置に記憶させる(ステップS20)。例えば、図6の例では、セルデータd(1,1)は”順電圧”となる。そして、語彙誤り検出装置10は、推定の対象となるアトリビュートについて処理対象となるアトリビュートを1つずつ選択して(ステップS21)、各々ステップS22〜S25の処理を行う。尚、ここでは、図4に示した「BSU」「推奨名」「短縮名称」「シノニム」「シンボル」「単位」を推定の対象のアトリビュートとする。いずれのアトリビュートを推定の対象とするかは例えば予め設定されるようにしても良いし、入力装置を介してユーザにより指定されるようにしても良い。そして、語彙誤り検出装置10は、仕様データにおける全ての列について処理対象となる列を1つずつ選択して(ステップS22)、各々ステップS23〜S25の処理を行う。そして、語彙誤り検出装置10は、処理対象の列について当該列に属するセルデータを1つずつ処理対象として選択して(ステップS23)、セルデータを単語に分解する。例えば、ステップS21で「推奨名」が処理対象のアトリビュートとして選択されており、ステップS22で列Aが処理対象の列として選択されており、d(1,1)が処理対象のセルデータとして選択されているとする。このセルデータ”順電圧”を単語に分解した結果は、“順電圧”,“順”,“電圧”となる。
次いで、語彙誤り検出装置10は、ステップS24で単語に分解したセルデータに対して、以下の(a)〜(c)のルールに従って、点数を計算する(ステップS25)。
(a)辞書データに当該アトリビュートに完全一致するプロパティが存在する場合:5点
(b)単語に分解した結果が部分一致するプロパティが辞書データに存在する場合:1点
(c)但し、点数を一度加えたプロパティに関しては、点数を再度加えない
例えば、“順電圧”,“順”,“電圧”の場合、語彙誤り検出装置10は、これらの各単語を、図4に示されるアトリビュート「推奨名」の列に属する各行の各語彙に照らし合わせていく。すると、各単語について、以下の結果が得られる。
“順電圧”がTX_159に完全一致: 5点
“順”がTX_151に部分一致 : 1点
“電圧”がTX_152,TX_188に部分一致: 1+1点
以上の結果、セルデータd(1,1)に対しての点数は合計8点となる。
以上の計算を、語彙誤り検出装置10は、処理対象の列に属する全てのセルデータに対して列毎に行っていく。すると、列毎に以下の結果が得られる。
列Aについては以下の通りである。
P(「推奨名」、「列A」)=50点
P(「短縮名称」、「列A」)=50点
P(「シノニム」、「列A」)=10点
P(「シンボル」、「列A」)=0点
P(「単位」、「列A」)=0点
列Bについては以下の通りである。
P(「短縮名称」、「列B」)=0点
P(「シノニム」、「列B」)=0点
P(「シンボル」、「列B」)=35点
P(「単位」、「列B」)=0点
列Cについては以下の通りである。
P(「短縮名称」、「列C」)=0点
P(「シノニム」、「列C」)=0点
P(「シンボル」、「列C」)=15点
P(「単位」、「列C」)=15点
列DAについては以下の通りである。
P(「短縮名称」、「列D」)=0点
P(「シノニム」、「列D」)=0点
P(「シンボル」、「列D」)=0点
P(「単位」、「列D」)=0点
列Eについては以下の通りである。
P(「短縮名称」、「列E」)=0点
P(「シノニム」、「列E」)=0点
P(「シンボル」、「列E」)=0点
P(「単位」、「列E」)=0点
列Fについては以下の通りである。
P(「短縮名称」、「列F」)=0点
P(「シノニム」、「列F」)=0点
P(「シンボル」、「列F」)=0点
P(「単位」、「列F」)=0点
列Gについては以下の通りである。
P(「短縮名称」、「列G」)=0点
P(「シノニム」、「列G」)=0点
P(「シンボル」、「列G」)=0点
P(「単位」、「列G」)=45点
以上のように、語彙誤り検出装置10は全ての列について当該列に属する全てのセルデータに対して列毎に計算を行った後、仕様データにおける各列において点数の最も高いアトリビュートを選択する(ステップS26)。このとき、「推奨名」「短縮名称」「シノニム」は全て「名称」であるため、これらを区別せずに、同一のアトリビュートとして取り扱う。更に、閾値を20点として、語彙誤り検出装置10は20点以上のアトリビュートのうち点数の最も高いアトリビュートを選択する。すると、列毎の選択結果は以下の通りとなる。
列Aに対して、「名称」(「推奨名」「短縮名称」「シノニム」)が選択される。
列Bに対して、「シンボル」が選択される。
列C〜Fに対しては、該当するアトリビュートが存在しない。
列Gに対しては、「単位」が選択される。
このようにして、語彙誤り検出装置10は、各列に対して、辞書データにおけるアトリビュートのいずれに対応するか又はアトリビュートのいずれにも対応しないかを推定する。
図7の説明に戻る。語彙誤り検出装置10は、以上のようにして推定されたアトリビュートを用いて、類似プロパティ検索部25の機能により、仕様データにおける各行が示すものに近いプロパティ(類似プロパティ)を検索する(ステップS5)。
図9は、語彙誤り検出装置10が類似プロパティを検索する処理の手順を示すフローチャートである。まず、語彙誤り検出装置10は、辞書データにおいて比較対象のプロパティを選択する(ステップS30)。次いで、語彙誤り検出装置10は、処理対象とする行を選択する(ステップS31)。そして、語彙誤り検出装置10は、以下のルールを適用して、処理対象とする行に属する各列のうち、アトリビュートが推定された列毎に点数を類似度として計算する(ステップS32)。
(d)辞書データにおける当該アトリビュートに文字列が完全一致する場合:5点
(e)辞書データにおける当該アトリビュートに文字列が部分一致する場合:1点
(f)「名称」(「推奨名」「短縮名称」「シノニム」)に関しては区別しない
ここで、具体的に例を挙げて説明する。ステップS30では、辞書データにおいて比較対象のプロパティとしてTX_187(電流伝達率)が選択されており、ステップS31では、処理対象の行として、図6の5行目の「変換効率」が選択されているとする。語彙誤り検出装置10は、上述の(d)〜(f)のルールに従って、図6の5行目のデータとTX_187(電流伝達率)との間の点数を、アトリビュートが推定された列毎に計算する。ここでは、列A,B,Gに対してアトリビュートが推定されているから、これらの各列が計算の対象となる。計算結果は、以下の通りとなる。
列Aの文字列「変換効率」と、当該列Aに対して推定されたアトリビュートである「名称」との間の点数は、0点となる。
列Bの文字列「I_C/I_F」と、当該列Bに対して推定されたアトリビュートである「シンボル」との間の点数は、5点となる。
列Gの文字列「%」と、当該列Gに対して「単位」との間の点数は、5点となる。これらの合計は、10点となる。この合計が、処理対象の行に対する最終的な類似度となる。
尚、図4の例では、その他の辞書データにおける各オブジェクトのプロパティについては、全て合計が0点となる。従って、図6の5行目の「変換効率」は、辞書データにおけるプロパティとしてTX_187(電流伝達率)に該当する可能性が高いことが分かる。
以上のようにして、語彙誤り検出装置10は、処理対象とする行に属する各列のうち、推定されたアトリビュートに対応する全ての列について類似度を計算する。そして、当該全ての列について類似度の計算が終了すると(ステップS33:YES)、語彙誤り検出装置10は、次いで、全ての行について類似度の計算が終了したか否かを判定する(ステップS34)。全ての行について類似度の計算が終了していない場合には(ステップS34:NO)、ステップS31に戻り、語彙誤り検出装置10は、処理対象とする行を新たに選択する。このようにして、語彙誤り検出装置10は、仕様データに含まれる全ての行について、上述の(d)〜(f)のルールに従って、推定されたアトリビュート毎に類似度を計算する。そして、仕様データに含まれる全ての行について類似度の計算が終了すると(ステップS34:YES)、語彙誤り検出装置10は、合計の点数が最も高いプロパティを選択して、これを類似プロパティとして決定する(ステップS35)。このようにして、語彙誤り検出装置10は類似プロパティを検索する。この結果、仕様データの各行に対して類似プロパティとして決定された結果は以下の通りとなる。
1行目「順電圧」に対して、TX_159が類似プロパティとして決定される。
2行目「逆電流」に対して、TX_160が類似プロパティとして決定される。
3行目「端子間容量」に対して、TX_161が類似プロパティとして決定される。
4行目「コレクタ遮断電流」に対して、TX_172が類似プロパティとして決定される。
5行目「変換効率」に対して、TX_187が類似プロパティとして決定される。
6行目「変換効率(飽和)」に対して、該当するプロパティは存在しない。
7行目「コレクタ・エミッタ間飽和電圧」に対して、TX_188が類似プロパティとして決定される。
8行目「ターンオン時間」に対して、TX_193が類似プロパティとして決定される。
9行目「ターンオフ時間」に対して、TX_194が類似プロパティとして決定される。
図7の説明に戻る。最後に、語彙誤り検出装置10は、語彙照合部27の機能により、ステップS5で類似プロパティが検索された、仕様データの全ての行に対して、当該類似プロパティと当該行とにおいて語彙が相違する列の文字列を検出する(ステップS6)。即ち、語彙誤り検出装置10は、仕様データの行においてアトリビュートが推定されている列に対して、類似プロパティにおけるアトリビュートとの語彙の相違を行毎に検出する。尚、「名称」に相当する列については、語彙誤り検出装置10は、辞書データの「推奨名」の語彙と相違する場合に語彙の相違を検出するものとする。例えば、図6の5行目の「変換効率」と、当該行に対する類似プロパティであるTX_187とにおいては、列Aの文字列「変換効率」に対し、推定されているアトリビュートである「名称」(「推奨名」「短縮名称」)の語彙は「電流伝達率」である。このため、語彙が相違するとして列Aの語彙「変換効率」が検出される。次いで、語彙誤り検出装置10は、照合結果出力部28の機能により、辞書データと相違するとステップS7で検出した語彙を照合結果として出力する(ステップS7)。
図10は、照合結果を表示装置に出力する例を示す図である。同図においては、類似プロパティにおけるアトリビュートの語彙と相違する語彙が斜体で表されている。また、該当する類似プロパティが存在しない行については、列Aの語彙が白抜きで表されている。
以上のように、製品の仕様を列形式で表す仕様データから抽出した語彙群の冗長性と、PLIBに従った辞書のデータ構造の特徴とに着目し、入力された技術文書に含まれる仕様データの構造と辞書DB12におけるデータ構造とを比較することで、仕様データにおける列がどのアトリビュートに対応するかを推定し、その結果を用いて仕様データにおける各行がどのプロパティに対応するかを検索して、仕様データと辞書データとの相違を検出する。この結果、仕様データにおいて用いられる語彙と、標準辞書で定義された語彙との相違を容易に検出することができる。このため、仕様データにおいて用いられる語彙を標準辞書に合わせた語彙に修正することを支援することができる。従って、製品の仕様書などの技術文書において可能な限り標準辞書で定義された用語と概念を用いて記述を行うことができ、ひいては技術文書を利用するユーザ企業とそれを提供するサプライ企業との間の意味解釈の齟齬をなくすことができ、技術文書の品質を向上させることができる。
[第2の実施の形態]
次に、語彙誤り検出装置及び方法の第2の実施の形態について説明する。なお、上述の第1の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
(1)構成
例えば、上述したPLIBなどの辞書の開発の初期段階においては、アトリビュートとして図4に例示したような「定義」について厳密なものを設定することが困難な場合がある。このため、そのようなプロパティにおいては、アトリビュート「推奨名」とアトリビュート「定義」とを同じにする辞書がある。このような辞書を辞書DB12に適用する場合、アトリビュート推定部24は、仕様データにおける列に対応する適切なアトリビュートを推定できない場合がある。本実施の形態においては、このような場合においても、仕様データにおける列に対応する適切なアトリビュートを推定することを可能にする構成について説明する。
図11は、本実施の形態にかかる辞書DB12のデータ構造を例示する図である。同図に示される階層構造においては、ルートクラスである「COMPONENT」の子クラスとして「光半導体」と「トランジスタ」とに加え、「光部品」が階層付けられている。図12は、「光部品」についての各プロパティの具体的な定義を例示する図である。同図に示されるように、例えば、ヘッダを除く1,4,5,6行目の各プロパティについては、「推奨名」と「定義」との語彙が同じとなっている。
本実施の形態にかかる語彙誤り検出装置10の機能的構成については、図2に示したものと同様であるが、アトリビュート推定部24の詳細な機能が、上述の第1の実施の形態と異なる。本実施の形態にかかるアトリビュート推定部24は、分類入力部23に入力された分類識別子によって特定されるクラスの辞書データと表データ解析部22が抽出した仕様データとを用いて、仕様データにおける各列がどのアトリビュートに対応するか否かを推定する際に、仕様データにおける列に属する各行の文字列の文字数の平均と、辞書データにおけるアトリビュートに属する各行の文字列の文字数の平均とを用いる。具体的にどのように用いるのかについては以下の動作欄で説明する。
(2)動作
次に、本実施の形態にかかる語彙誤り検出装置10の行う語彙誤り検出処理の手順について説明する。本実施の形態にかかる語彙誤り検出処理の手順自体は図7と同様であるため、ここではその図示を省略する。本実施の形態においては、ステップS4でアトリビュートを推定する処理の手順が上述の第1の実施の形態と異なる。また、ここでは、ステップS1で入力が受け付けられた分類識別子は、「光部品」であるとし、ステップS2では、図13に示される仕様データが抽出されるものとする。ステップS4では、語彙誤り検出装置10は、アトリビュート推定部24の機能により、ステップS3で取得した辞書データとステップS2で抽出した仕様データとを用いて、仕様データにおける各列がどのアトリビュートに対応するか否かを推定する。
図14は、本実施の形態にかかる語彙誤り検出装置10がアトリビュートを推定する処理の手順を示すフローチャートである。ここでは、図14に示した仕様データを具体例としてその手順を説明する。尚、推定の対象となるアトリビュートは、「定義」を含めた、「推奨名」「短縮名称」「シノニム」「シンボル」「単位」「定義」とする。語彙誤り検出装置10は、上述の第1の実施の形態と同様にして、ステップS20〜S24の後、ステップS25では、ステップS24で単語に分解したセルデータに対して、上述の(a)〜(c)のルールに従って、点数を計算する。このような計算を、上述の第1の実施の形態と同様にして、語彙誤り検出装置10は、処理対象の列に属する全てのセルデータに対して列毎に行っていく。すると、列毎に以下の結果が得られる。
列Aについては以下の通りである。
P(「推奨名」、「列A」)=1+5+5=11点
P(「短縮名称」、「列A」)=1+5+5=11点
P(「シノニム」、「列A」)=0点
P(「シンボル」、「列A」)=0点
P(「単位」、「列A」)=0点
P(「定義」、「列A」)=1+1+5+5=12点
列Bについては以下の通りである。
P(「推奨名」、「列B」)=1点
P(「短縮名称」、「列B」)=1点
P(「シノニム」、「列B」)=0点
P(「シンボル」、「列B」)=15点
P(「単位」、「列B」)=0点
P(「定義」、「列B」)=1点
列C,D,E,Fについては以下の通りである。
P(*、「列C」)=0点
P(*、「列D」)=0点
P(*、「列E」)=0点
P(*、「列F」)=0点
列Gについては以下の通りである。
P(「推奨名」、「列G」)=0点
P(「短縮名称」、「列G」)=0点
P(「シノニム」、「列G」)=0点
P(「シンボル」、「列G」)=0点
P(「単位」、「列G」)=25点
P(「定義」、「列G」)=0点
以上のように、語彙誤り検出装置10は全ての列について当該列に属するすべてのセルデータに対して列毎に計算を行った後、ステップS26Aに進む。ステップS26Aでは、語彙誤り検出装置10は、仕様データにおける第c列に属する全ての行についての各文字列の平均の文字数である平均文字数m(c)と、辞書データにおけるアトリビュートaに属する全ての行についての各文字列の平均の文字数である平均文字数n(a)とを用いて、以下の式1により各点数を再計算する。
P(a,c) = P(a,c)*2**(-|n(a)-m(c)|/2)・・・(式1)
この結果は、例えば列Aについては以下の通りである。
P(「推奨名」、「列A」)=11*2**(-|5.429-5.00|/2)=9.48
P(「短縮名称」、「列A」)=11*2**(-|5.429-5.00|/2)=9.48
P(「シノニム」、「列A」)=0
P(「シンボル」、「列A」)=0
P(「単位」、「列A」)=0
P(「定義」、「列A」)=12*2**(-|11.429-5.00|/2)=1.29
ここでは、アトリビュート「定義」に対する点数が、再計算する前よりも低くなっていることが分かる。
そして、語彙誤り検出装置10は全ての列について当該列に属する全てのセルデータに対して列毎に点数の再計算を行った後、ステップS26では、仕様データにおける各列において点数の最も高いアトリビュートを選択する。すると、列毎の選択結果は以下の通りとなる。
列Aに対して、「推奨名」又は「短縮名称」が選択される。
列Bに対して、「シンボル」が選択される。
列C〜Fに対しては、該当するアトリビュートが存在しない。
列Gに対しては、「単位」が選択される。
このようにしてステップS4の処理を行った後のステップS5〜S7については上述の第1の実施の形態と同様である。
以上のように、仕様データにおける列の平均文字数と辞書データにおけるアトリビュート平均文字数とを考慮することにより、アトリビュートが厳密に記述されていない場合であっても、アトリビュートを適切に推定することができる。
[変形例]
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
<変形例1>
上述した各実施の形態において、語彙誤り検出装置10で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。
<変形例2>
上述した各実施の形態において、語彙誤り検出装置10は、辞書DB12を有するように構成したが、これに限らず、他の情報処理装置が辞書DB12を有するように構成し、語彙誤り検出装置10は、当該他の情報処理装置を介して辞書DB12にアクセスして該当の辞書データを取得するようにしても良い。
また、上述した各実施の形態において、辞書DB12はPLIBに従った場合の適用例を示したが、これに限らず、PLIB以外のデータベースへ適用するようにしても良い。
<変形例3>
上述した各実施の形態において、技術文書のうち仕様データとして表される表の範囲をユーザが指定するようにし、語彙誤り検出装置10は、当該範囲を示す範囲指定情報を文書編集装置11から受信するように構成した。しかし、これに限らず、文書から表を切り出す表切り出しルールを語彙誤り検出装置10に予め登録しておき、語彙誤り検出装置10は、文書編集装置11から受信した技術文書から当該表切り出しルールに従って自動的に表を切り出すことにより仕様データを抽出するように構成しても良い。
<変形例4>
上述した各実施の形態において、アトリビュートに対応する方向は列方向であるとし、プロパティに対応する方向は行方向であるとしたが、これらは逆であっても良い。
また、上述した各実施の形態において、語彙誤り検出装置10は、ステップS1で分類識別子の入力が受け付けられ、ステップS3で、当該分類識別子によって処理対象の辞書データを限定してステップS4以降の処理を行うようにした。しかし、分類識別子が入力されず、語彙誤り検出装置10は、辞書DB12に記憶されている辞書データの全てを処理対象としてステップS4以降の処理を行うようにしても良い。
<変形例5>
上述した各実施の形態において、図8で説明したアトリビュートを推定する処理では、語彙誤り検出装置10は、ステップS21で、処理対象のアトリビュートを選択した後に、ステップS22で、仕様データにおける処理対象のセルデータを選択して処理を行うようにしたが、これに限らず、仕様データにおける処理対象のセルデータを選択した後に、処理対象のアトリビュートを選択して処理を行うようにしても良い。
また、図9で説明した類似プロパティを検索する処理では、語彙誤り検出装置10は、ステップS31で、処理対象の行を選択した後に、ステップS32で、当該行に属する列について類似度を計算するようにしたが、これに限らず、処理対象の列を選択した後に、当該列に属する行について類似度を計算するようにしても良い。
<変形例6>
上述した各実施の形態において、語彙誤り検出装置10は、辞書データと相違するとステップS7で検出した語彙を照合結果として出力するだけでなく、当該語彙に対して辞書データのアトリビュートに定義された語彙を修正候補として出力するようにしても良い。図15は、修正候補を表示装置に出力する例を示す図である。同図においては、図6の4行目の列Aの語彙「コレクタ遮断電流」について、当該列Aに対して推定された辞書データにおけるアトリビュート「名称」(「推奨名」)に定義された語彙「暗電流」が修正候補として示されている。このような構成によれば、製品の仕様を行列形式で表す仕様データにおいて用いられる語彙を、標準辞書で定義された語彙に修正することを効果的に支援することができる。
<変形例7>
上述した各実施の形態において、語彙誤り検出装置10は、辞書データにおけるアトリビュートの語彙に合わせて過去に修正された語彙の履歴を示す修正履歴情報を用いて、語彙の修正候補を出力するようにしても良い。図16は、本変形例にかかる語彙誤り検出装置10´の機能的構成を例示する図である。同図に示されるように、語彙誤り検出装置10´は、辞書DB12と、辞書データ管理部26と、表データ解析部22と、分類入力部23と、アトリビュート推定部24と、類似プロパティ検索部25と、語彙照合部27と、照合結果出力部28とに加え、修正履歴DB13と、修正履歴照合部30とを有する。修正履歴照合部30は、CPUのプログラム実行時にRAM105などの記憶部上に生成されるものである。修正履歴DB13は、例えば外部記憶部107に記憶されるものである。
修正履歴DB13は、修正履歴情報を記憶する。図17は、修正履歴情報を例示する図である。同図に示されるように、修正履歴情報は、辞書データにおけるアトリビュートの語彙である正しい語彙(正語彙という)と、当該語彙に合わせて修正された語彙(誤語彙という)とを分類及びアトリビュートと対応付けて示す。修正履歴照合部30は、仕様データにおいて、該当する類似プロパティが存在しない行に対して、修正履歴DB13に記憶された修正履歴情報を用いて、当該行に属する列と当該列に対して推定されたアトリビュートとの語彙を照合する。照合結果出力部28は、修正履歴照合部30の照合の結果、前者の語彙と後者の語彙とが全部又は一部一致する場合、後者の語彙と共に修正履歴情報によって示される正語彙を出力する。
次に、本変形例にかかる語彙誤り検出装置10´の行う語彙誤り検出処理の手順について図18を用いて説明する。ステップS1〜S5は、上述の第1の実施の形態又は第2の実施の形態と同様である。尚、辞書DB12の構成は第2の実施の形態と同様であるとし、ステップS1で分類識別子として「光部品」の入力が受け付けられ、ステップS2で、図19に示される仕様データが抽出され、ステップS4で、列Aに対してアトリビュートとして「推奨名」が推定されたとする。そして、ステップS5の類似プロパティの検索の結果、図19に示した仕様データについてヘッダを除く3,4,5行目については、辞書データにおいて該当する類似プロパティが存在しないものとする。尚、以降、これらの行を未解決行という。この未解決行について、上述の第1の実施の形態においては、語彙誤り検出装置10は、ステップS6以降の処理を行うことができなかった。本実施の形態においては、各未解決行について、語彙誤り検出装置10´は、仕様データにおける行毎に以下の処理を行う。まず、ステップS40では、語彙誤り検出装置10´は、仕様データにおける処理対象の行に対して該当する類似プロパティがあるか否かを判定する。ここでは、当該判定結果が否定的であるとする(ステップS40:NO)。この場合、未解決行に対して、語彙誤り検出装置10´は、修正履歴照合部30の機能により、修正履歴DB13を参照して、ステップS1で入力された分類識別子(ここでは、「光部品」である)をキーとして当該分類に対応する修正履歴情報を検索する。図17の例では、1行目の修正履歴情報が検索される。次いで、語彙誤り検出装置10´は、検索された修正履歴情報について、対象のアトリビュートに対応する、仕様データにおける列に関し、誤語彙をキーにして、当該誤語彙の文字列の全部又は一部が一致するか否かを判定することにより、語彙の照合を行う。図17の例では、1行目の修正履歴情報における対象のアトリビュートは「推奨名」であり、当該アトリビュートに対応する、仕様データにおける列は列Aであるため、誤語彙「反射減衰値」をキーとして、一致するか否かが判定される。そして、この判定の結果、誤語彙の全部又は一部が一致する場合、ステップS7では、語彙誤り検出装置10´は、修正履歴情報において当該誤語彙に対応する正語彙を修正候補とする。語彙誤り検出装置10´はこのような処理を図19に示されるヘッダを除く3,4,5行目の各未解決行に対してアトリビュート毎に行う。そして、ステップS7では、未解決行に対する修正候補を照合結果として出力する。図20は、図19に示される仕様データに対して修正候補を出力する例を示す図である。同図において、図19に示されるヘッダを除く3,4,5行目については、誤語彙「反射減衰値」に対応する正語彙「反射減衰量」が修正候補として出力されることが示されている。
尚、ステップS40の判定結果が肯定的である場合は(ステップS40:YES)、語彙誤り検出装置10´は、上述の第1の実施の形態と同様にして、ステップS6で語彙の照合を行い、ステップS7では上述の変形例6で説明したように修正候補を出力する。
尚、ステップS7の後、仕様データにおいて語彙を修正する入力が入力装置を介して行われた場合、語彙誤り検出装置10は、修正前の語彙を誤語彙とし、修正後の語彙であって辞書データにおけるアトリビュートの語彙を正語彙とし、これらを分類及びアトリビュートと対応付けて示す修正履歴情報を生成して、これを修正履歴DB13に記憶させれば良い。
以上のようにして、過去の修正履歴を用いることで、製品の仕様を行列形式で表す仕様データにおいて用いられる語彙を、標準辞書で定義された語彙に修正することをより効果的に支援することができる。また、製品の仕様を行列形式で表す仕様データにおいて用いられる語彙を標準辞書で定義された語彙に統一化することが可能になる。
第1の実施の形態にかかる語彙誤り検出装置10のハードウェア構成を例示する図である。 同実施の形態にかかる語彙誤り検出装置10の機能的構成を例示する図である。 同実施の形態にかかる辞書DB12のデータ構造を例示する図である。 同実施の形態にかかる各プロパティの具体的な定義を例示する図である。 同実施の形態にかかる技術文書を例示する図である。 同実施の形態にかかる仕様データを例示する図である。 同実施の形態にかかる語彙誤り検出装置10の行う語彙誤り検出処理の手順を示すフローチャートである。 同実施の形態にかかる語彙誤り検出装置10がアトリビュートを推定する処理の手順を示すフローチャートである。 同実施の形態にかかる語彙誤り検出装置10が類似プロパティを検索する処理の手順を示すフローチャートである。 同実施の形態にかかる照合結果を表示部に出力する例を示す図である。 第2の実施の形態にかかる辞書DB12のデータ構造を例示する図である。 図11に示した辞書DB12における「光部品」についての各プロパティの具体的な定義を例示する図である。 同実施の形態にかかる仕様データを例示する図である。 同実施の形態にかかる語彙誤り検出装置10がアトリビュートを推定する処理の手順を示すフローチャートである。 同実施の形態にかかる修正候補を表示部に出力する例を示す図である。 一実施の形態にかかる一変形例にかかる語彙誤り検出装置10´の機能的構成を例示する図である。 同変形例にかかる修正履歴情報を例示する図である。 同変形例にかかる語彙誤り検出装置10´の行う語彙誤り検出処理の手順を示すフローチャートである。 同変形例にかかる仕様デーを例示する図である。 図19に示される仕様データに対して修正候補を出力する例を示す図である。
符号の説明
10 語彙誤り検出装置
11 文書編集装置
12 辞書DB
13 修正履歴DB
21 文書入力部
22 表データ解析部
23 分類入力部
24 アトリビュート推定部
25 類似プロパティ検索部
26 辞書データ管理部
27 語彙照合部
28 照合結果出力部
30 修正履歴照合部

Claims (11)

  1. 少なくとも1つのアトリビュートによって記述されるプロパティによって定義される辞書データを取得する取得手段と、
    少なくとも1つの要素を含むデータ項目毎に行列形式で表す仕様データの入力を受け付ける第1入力受付手段と、
    前記データ項目に含まれる各前記要素について、前記アトリビュートのいずれに対応するか又は前記アトリビュートのいずれにも対応しないかを推定する推定手段と、
    前記要素に対して推定された前記アトリビュートと前記辞書データとを用いて、前記データ項目に類似する類似プロパティを検索する検索手段と、
    前記データ項目と、前記類似プロパティとを照合することにより、前記データ項目に含まれる前記要素と当該要素に対して推定された前記アトリビュートとの語彙の相違を検出する検出手段とを備える
    ことを特徴とする語彙誤り検出装置。
  2. 処理対象となる分類を識別可能な分類識別子の入力を受け付ける第2入力受付手段を更に備え、
    前記取得手段は、前記分類識別子によって特定される分類の前記辞書データを取得する
    ことを特徴とする請求項1に記載の語彙誤り検出装置。
  3. 前記辞書データは、階層付けられており、
    前記取得手段は、階層の上位の分類に属する前記プロパティがその下位の分類に継承される前記辞書データを取得する
    ことを特徴とする請求項1又は2に記載の語彙誤り検出装置。
  4. 前記検出手段の検出の結果を出力する第1出力手段を更に備える
    ことを特徴とする請求項1乃至3のいずれか一項に記載の語彙誤り検出装置。
  5. 前記検出手段の検出の結果、前記アトリビュートと語彙が相違する前記要素に対して当該アトリビュートの語彙を出力する第2出力手段を更に備える
    ことを特徴とする請求項1乃至4のいずれか一項に記載の語彙誤り検出装置。
  6. 前記推定手段は、前記仕様データによって表される前記データ項目に含まれる前記要素ついて、各データ項目に各々含まれる前記要素の語彙の平均の文字数と、前記辞書データにおいて前記アトリビュートとして各々記述される各語彙の平均の文字数とを用いて、前記辞書データにおける前記アトリビュートのいずれに対応するか又は前記アトリビュートのいずれにも対応しないかを推定する
    ことを特徴とする請求項1乃至5のいずれか一項に記載の語彙誤り検出装置。
  7. 前記プロパティは、推奨名、シノニム及び短縮名称のうち少なくとも1つの前記アトリビュートを含み、
    前記検索手段は、推奨名、シノニム及び短縮名称を同一のアトリビュートとして、前記要素に対して推定された前記アトリビュートと前記辞書データとを用いて、前記仕様データによって表される前記データ項目に類似する前記プロパティを検索する
    ことを特徴とする請求項1乃至6のいずれか一項に記載の語彙誤り検出装置。
  8. 前記アトリビュートの第1語彙と、当該第1語彙に合わせて過去に修正された第2語彙とを示す修正履歴情報を記憶する記憶手段と、
    前記データ項目に含まれる前記要素の語彙と、当該要素に対して推定された前記アトリビュートについての前記修正履歴情報によって示される第2語彙とを照合する照合手段と、
    照合の結果、前者の語彙と後者の第2語彙とが全部又は一部一致する場合、当該第2語彙と共に前記修正履歴情報によって示される前記第1語彙を出力する第3出力手段とを更に備える
    ことを特徴とする請求項1乃至7のいずれか一項に記載の語彙誤り検出装置。
  9. 前記辞書データを記憶する記憶手段を更に備え、
    前記取得手段は、前記辞書データを前記記憶手段から読み出すことにより、前記辞書データを取得する
    ことを特徴とする請求項1乃至8のいずれか一項に記載の語彙誤り検出装置。
  10. 前記取得手段は、前記辞書データを情報処理装置から受信することにより、前記辞書データを取得する
    ことを特徴とする請求項1乃至8のいずれか一項に記載の語彙誤り検出装置。
  11. 取得手段と、第1入力受付手段と、推定手段と、検索手段と、第1検出手段とを備える語彙誤り検出装置で実行される語彙誤り検出方法であって、
    前記取得手段が、少なくとも1つのアトリビュートによって記述されるプロパティによって定義される辞書データを取得する取得ステップと、
    前記第1入力受付手段が、少なくとも1つの要素を含むデータ項目毎に行列形式で表す仕様データの入力を受け付ける第1入力受付ステップと、
    前記推定手段が、前記データ項目に含まれる各前記要素について、前記アトリビュートのいずれに対応するか又は前記アトリビュートのいずれにも対応しないかを推定する推定ステップと、
    前記検索手段が、前記要素に対して推定された前記アトリビュートと前記辞書データとを用いて、前記データ項目に類似する類似プロパティを検索する検索ステップと、
    前記第1検出手段が、前記データ項目と、前記類似プロパティとを照合することにより、前記データ項目に含まれる前記要素と当該要素に対して推定された前記アトリビュートとの語彙の相違を検出する第1検出ステップとを含む
    ことを特徴とする語彙誤り検出方法。
JP2008310102A 2008-12-04 2008-12-04 語彙誤り検出装置及び語彙誤り検出方法 Pending JP2010134709A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008310102A JP2010134709A (ja) 2008-12-04 2008-12-04 語彙誤り検出装置及び語彙誤り検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008310102A JP2010134709A (ja) 2008-12-04 2008-12-04 語彙誤り検出装置及び語彙誤り検出方法

Publications (1)

Publication Number Publication Date
JP2010134709A true JP2010134709A (ja) 2010-06-17

Family

ID=42345945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008310102A Pending JP2010134709A (ja) 2008-12-04 2008-12-04 語彙誤り検出装置及び語彙誤り検出方法

Country Status (1)

Country Link
JP (1) JP2010134709A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002601A1 (ja) * 2012-06-29 2014-01-03 日本電気株式会社 表情報理解システム、表情報変換システム、方法および記録媒体
WO2015072071A1 (en) * 2013-11-18 2015-05-21 International Business Machines Corporation Error correction in tables using a question and answer system
US9569417B2 (en) 2013-06-24 2017-02-14 International Business Machines Corporation Error correction in tables using discovered functional dependencies
US10095740B2 (en) 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
JP2019503541A (ja) * 2016-01-27 2019-02-07 オラクル・インターナショナル・コーポレイション 電子データ構造から属性を抽出するための注釈システム
JP2021135712A (ja) * 2020-02-26 2021-09-13 株式会社東芝 情報処理装置、情報処理方法、およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002601A1 (ja) * 2012-06-29 2014-01-03 日本電気株式会社 表情報理解システム、表情報変換システム、方法および記録媒体
JPWO2014002601A1 (ja) * 2012-06-29 2016-05-30 日本電気株式会社 表情報理解システム、表情報変換システム、方法および記録媒体
US9569417B2 (en) 2013-06-24 2017-02-14 International Business Machines Corporation Error correction in tables using discovered functional dependencies
WO2015072071A1 (en) * 2013-11-18 2015-05-21 International Business Machines Corporation Error correction in tables using a question and answer system
US9830314B2 (en) 2013-11-18 2017-11-28 International Business Machines Corporation Error correction in tables using a question and answer system
US10095740B2 (en) 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
JP2019503541A (ja) * 2016-01-27 2019-02-07 オラクル・インターナショナル・コーポレイション 電子データ構造から属性を抽出するための注釈システム
JP2021135712A (ja) * 2020-02-26 2021-09-13 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
JP7350674B2 (ja) 2020-02-26 2023-09-26 株式会社東芝 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
US10296579B2 (en) Generation apparatus, generation method, and program
US8185372B2 (en) Apparatus, method and computer program product for translating speech input using example
US10922346B2 (en) Generating a summary based on readability
US20150112664A1 (en) System and method for generating a tractable semantic network for a concept
KR20170106308A (ko) 어노테이션 보조 장치 및 그것을 위한 컴퓨터 프로그램
JP5370159B2 (ja) 情報抽出装置及び情報抽出システム
JP2013196374A (ja) 文章校正装置、及び文章校正方法
JP2010134709A (ja) 語彙誤り検出装置及び語彙誤り検出方法
US8209346B2 (en) Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema
US10929446B2 (en) Document search apparatus and method
KR20130026040A (ko) 검색 서비스 제공 시스템 및 그의 검색 서비스 제공 방법
CN116756382A (zh) 检测敏感字符串的方法、装置、设置及存储介质
KR101602342B1 (ko) 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
JP2007172260A (ja) 文書ルール作成支援装置および文書ルール作成支援方法並びに文書ルール作成支援プログラム
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
JP5379813B2 (ja) データ抽出装置、データ抽出方法、及びプログラム
CN114625889A (zh) 一种语义消歧方法、装置、电子设备及存储介质
US8719693B2 (en) Method for storing localized XML document values
US11017172B2 (en) Proposition identification in natural language and usage thereof for search and retrieval
JP5900486B2 (ja) 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム
CN112733517A (zh) 需求模板符合性检查的方法、电子设备及存储介质
US20180052917A1 (en) Computer-implemented methods and systems for categorization and analysis of documents and records
JP4933118B2 (ja) 文章区間抽出装置及びプログラム
WO2011033653A1 (ja) 用語統一支援装置
JP5330049B2 (ja) 検索装置、方法及びプログラム