JP2004341605A - Format conversion device and method, and computer program - Google Patents
Format conversion device and method, and computer program Download PDFInfo
- Publication number
- JP2004341605A JP2004341605A JP2003134421A JP2003134421A JP2004341605A JP 2004341605 A JP2004341605 A JP 2004341605A JP 2003134421 A JP2003134421 A JP 2003134421A JP 2003134421 A JP2003134421 A JP 2003134421A JP 2004341605 A JP2004341605 A JP 2004341605A
- Authority
- JP
- Japan
- Prior art keywords
- data
- item
- node
- content data
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 181
- 238000000034 method Methods 0.000 title claims description 60
- 238000004590 computer program Methods 0.000 title claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 17
- 238000013523 data management Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、コンテンツファイルのフォーマット変換装置および方法、ならびに、コンピュータプログラムに関する。
【0002】
【従来の技術】
近年、企業間の電子商取引(BtoB)が盛んになってきており、電子情報機器産業などにおける電子調達率も向上している。この電子商取引においては、電子化された商品カタログ(以下、「カタログコンテンツ」、「電子カタログ」ともいう)が商品選択時に重要な位置付けを占める。しかし、現在、各社が提供するカタログコンテンツは、フォーマット形式、製品仕様を規定する項目、項目名を示す言葉、表や文章の表記方法などが不統一であり、電子商取引の普及の妨げになっている。そこで、各種標準化団体が、電子カタログの記述フォーマットの標準化を進めており、製造メーカは、これら様々な標準形式に対応した電子カタログを供給しなければなない。
【0003】
一方、各メーカ等に個別の項目名データや単位データなどのフォーマットにより管理されるカタログコンテンツを、標準規格などの統一のフォーマットに変換する場合、以下の形態が取られている(例えば、特許文献1〜4)。
(1) フォーマット変換の対象であるカタログコンテンツ内の項目名データおよび項目値データが、項目名変換ルール辞書で管理している項目名データおよび項目値データに一致した場合、この項目変換ルール辞書に登録されているフォーマット変換後の項目名データへと書き換えることによりフォーマット変換がなされる。
(2) (1)同様に、カタログコンテンツが属する木構造のカテゴリ分類へのフォーマット変換においては、フォーマット変換対象であるカタログコンテンツ内の木構造データが、木構造変換ルール辞書に登録されているデータ値に一致した場合に、この木構造変換ルール辞書に登録されているフォーマット変換後の木構造データへと書き換えることによりフォーマット変換がなされている。
(3) 「g(グラム)」から「kg(キログラム)」の様に単位データをフォーマット変換する場合、単位変換ルール辞書に登録している変換倍率を用いてフォーマット変換対象であるカタログコンテンツ内の数値データを計算処理することにより、単位データおよび単位データに伴う数値データのフォーマット変換がなされている。
(4) (1)(2)(3)のようにフォーマット変換対象であるカタログコンテンツ内のデータ値が、変換ルール辞書に管理しているデータ値に一致した場合に、この変換ルール辞書に登録している変換後のデータ値へと書き換える、あるいは変換ルール辞書に登録している変換倍率を用いて計算処理するといった単一変換処理を行うことでフォーマット変換がなされている。
(5) また、利用者毎あるいは製品種別毎に複数パターンのデータから一意のデータにフォーマット変換するための変換ルール辞書のデータベース化がなされている。
【0004】
【特許文献1】
特開特開2002−108667号公報
【特許文献2】
特開特開2001−202450号公報
【特許文献3】
特開平11−85836号公報
【特許文献4】
特開平10−340269号公報
【0005】
【発明が解決しようとする課題】
上述した従来の技術は、変換ルール辞書に従って項目名データや項目値データを変換するといったフォーマット変換処理(データクレンジング処理)に特化している。その結果、従来の技術には下記の問題点がある。
(1) 製品データが属するべき木構造のカテゴリ分類の階層パス情報がこの製品データ内に記述されていることを前提としているため、製品データが属するべき分類情報が定められていない場合、データクレンジング処理の処理対象外となる。
(2) 製品データが属するべき分類が該製品データ内に記述されていた場合、この製品データ内の分類情報に対し、変換ルール辞書に従ってデータクレンジング処理を実施する。これは従来の技術のデータクレンジング処理が、該製品データに記述されている分類情報が妥当であることを前提としている。即ち、その妥当性が欠如していた場合においても、該製品データ内に記述している分類情報に従ったデータクレンジング処理を行っている。
(3) 本来、各製品データは属する分類毎に表現すべき項目値データが定められる。例えば、「文具・鉛筆」という分類に属する製品の長さを表す単位は「mm(ミリメートル)」、「オフィス家具・机」という分類に属する製品の幅を表す単位は「cm(センチメール)」であるとする。しかし、従来の技術では、単位データをフォーマット変換する場合、変換ルール辞書に「cm」を「mm」に変換するというルールを登録すると、「文具・鉛筆」という分類に属する製品の長さを表す単位データおよび「オフィス家具・机」という分類に属する製品の幅を表す単位データがデータクレンジング処理を通して「mm」に変換され、変換後の製品データの単位データは全て「mm」で表現されることになる。これは、複数分類を考慮して各分類が表現すべき項目値データにフォーマット変換されていないことを意味する。
【0006】
本発明は、このような事情を考慮してなされたもので、その目的は、カタログコンテンツを構成する製品データの項目名データおよび項目値データを基に、このカタログコンテンツが属するべき分類を示す木構造のノード情報を割当てるとともに、割当てた木構造のノードに対応した項目や対応した表現のデータ値へのフォーマット変換を行うことができるフォーマット変換装置および方法、ならびに、コンピュータプログラムを提供することにある。
【0007】
【課題を解決するための手段】
この発明は、上記の課題を解決すべくなされたもので、請求項1に記載の発明は、項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換装置であって、前記コンテンツデータファイル内の項目名データを前記フォーマットで統一して使用される項目名データに変換するとともに、このコンテンツデータファイルへ前記フォーマットで用いられるコンテンツデータを補完するデータクレンジング手段と、前記データクレンジング手段が項目名データの統一およびコンテンツデータの補完を行った前記コンテンツデータを基に、コンテンツの分類を示す階層化されたノードにおいて、該コンテンツが属する前記ノードを探索する探索手段と、を備えることを特徴とするフォーマット変換装置である。
【0008】
また、請求項2に記載の発明は、項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換装置であって、コンテンツの分類を示す階層化されたノードの識別情報を、コンテンツデータと対応して記憶するノード識別辞書データベースと、前記ノード間の関連を記憶する階層辞書データベースと、前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得し、このノードの識別情報と前記階層辞書データベースとから該コンテンツが属するノードを探索するパス探索手段と、を備えることを特徴とするフォーマット変換装置である。
【0009】
また、請求項3に記載の発明は、請求項2に記載のフォーマット変換装置であって、コンテンツデータファイル内のコンテンツデータで使用されうる項目名データと、前記フォーマットで使用される項目名データとの対応を記憶する項目名変換辞書データベースと、補完すべきコンテンツデータを記憶する項目追加辞書データベースと、前記項目名変換辞書データベースを参照して、前記コンテンツデータファイル内の項目名データを前記フォーマットで統一して使用される項目名データに変換する項目名データ変換手段と、前記項目追加辞書データベースを基に、前記コンテンツデータファイルへ前記フォーマットで用いられるコンテンツデータを補完するデータ追加手段とをさらに備え、前記パス探索手段は、項目名データの統一およびコンテンツデータの補完を行った前記コンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得する、ことを特徴とする。
【0010】
また、請求項4に記載の発明は、請求項2または請求項3に記載のフォーマット変換装置であって、さらに、ノードに付随する項目の情報を記憶するノード項目辞書データベースと、前記ノード項目辞書データベースから該コンテンツが属するノードに付随する項目の情報を取得し、前記コンテンツデータから取得した項目の情報に対応したコンテンツデータを抽出する項目整理手段と、前記項目整理手段が抽出したコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成するフォーマット変換データファイル作成手段とを備える、ことを特徴とする。
【0011】
また、請求項5に記載の発明は、請求項4に記載のフォーマット変換装置であって、前記ノード項目辞書データベースは、さらに、ノードに付随する項目に用いられる単位の情報を記憶し、前記項目整理手段は、さらに、前記ノード項目辞書データベースから該コンテンツが属するノードに付随する項目に用いられる単位の情報を取得し、単位変換手段は、取得した単位の情報により前記コンテンツデータの項目値データ及び該項目値データに付随する単位のデータを変換する、ことを特徴とする。
【0012】
また、請求項6に記載の発明は、請求項2から請求項5のいずれかの項に記載のフォーマット変換装置であって、さらに、ノードに付随する項目で用いられる項目値データを記憶する項目値変換辞書データベースと、前記項目値変換辞書データベースを参照して、前記コンテンツデータ内の項目値データを、該コンテンツが属するノードに付随する項目で用いられる項目値データに変換する項目値データ変換手段とを備える、ことを特徴とする。
【0013】
また、請求項7に記載の発明は、項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換方法であって、コンテンツの分類を示す階層化されたノードの識別情報を、コンテンツデータと対応して記憶するノード識別辞書データベースと、前記ノード間の関連を記憶する階層辞書データベースと、ノードに付随する項目の情報を記憶するノード項目辞書データベースとを用意し、前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得し、このノードの識別情報と前記階層辞書データベースとから該コンテンツが属するノードを探索し、前記ノード項目辞書データベースから探索された該コンテンツが属するノードに付随する項目の情報を取得し、前記コンテンツデータファイルのコンテンツデータから、取得した項目の情報に対応したコンテンツデータを抽出し、抽出されたコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成する、ことを特徴とするフォーマット変換方法である。
【0014】
また、請求項8に記載の発明は、項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換装置に用いられるコンピュータプログラムであって、コンテンツの分類を示す階層化されたノードの識別情報をコンテンツデータと対応して記憶するノード識別辞書データベースから、前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を取得するステップと、ノード間の関連を記憶する階層辞書データベースと取得したノードの識別情報とから該コンテンツが属するノードを探索するステップと、ノードに付随する項目の情報を記憶するノード項目辞書データベースから、探索された該コンテンツが属するノードに付随する項目の情報を取得するステップと、前記コンテンツデータファイルのコンテンツデータから、取得した項目の情報に対応したコンテンツデータを抽出するステップと、抽出されたコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成するステップと、をコンピュータに実行させることを特徴とするコンピュータプログラムである。
【0015】
【発明の実施の形態】
以下、図面を参照し、この発明の実施の形態について説明する。
図1は、この発明の一実施の形態によるフォーマット変換装置を用いたカタログコンテンツフォーマット変換システムの概要を説明するための図である。
カタログコンテンツフォーマット変換サーバ300は、メーカが提供する製品の仕様書(カタログコンテンツ)のファイル(カタログコンテンツデータファイル210)を取得する。このカタログコンテンツデータファイル210は、項目名とその値(以下、「項目値」)のデータからなり、製品の名称や分類、各種仕様、諸元等の製品情報を示す複数の項目(カタログコンテンツデータ)を含んでいる。なお、項目値にはその単位が付随しうる。カタログコンテンツフォーマット変換サーバ300は、取得したカタログコンテンツデータファイル210に対して、所定の標準や表記ルールに準拠するように、木構造により示されるこのカタログコンテンツが属するべき分類を割当て、フォーマット変換したファイル(フォーマット変換データファイル220)を返送する。このため、カタログコンテンツフォーマット変換サーバ300は、カタログコンテンツデータファイル210に対してデータクレンジング、すなわち、出力すべきフォーマットに合わせて項目名データの統一およびカタログコンテンツデータの補完を実施する。そして、データクレンジングされたカタログコンテンツデータを基に、カタログコンテンツが属するべき分類、すなわち、木構造のノードを割当てるとともに、項目値の単位(物象の状態の量に使用される計量単位)および項目値データの変換を行う。
なお、木構造とは、root(根)と呼ばれる1つのノードからスタートして下位ノードへの枝分かれを階層的に繰り返し、樹木が枝を伸ばすように広がっていくデータ構造である。つながっているノード間では、rootに近いもの(上位)を親、そうでないもの(下位)を子という。ただし、1つのノードが持つことのできる親ノードは1つだけである。すなわち、木構造では、あるノードから別のノードまでの道は1通りしかない。例えば、XML(extensible markup language)文書は、ノードの組合せとして図に描くと、かならず木構造になる。
【0016】
図2は、この発明の一実施の形態によるカタログコンテンツフォーマット変換システムの構成を示すブロック図である。
カタログコンテンツデータ管理サーバ100は、インターネットなどの公衆網やLAN(Local Area Network)、VPN(Virtual Private Network)などの私設網であるネットワークNを介して、カタログコンテンツフォーマット変換サーバ300と接続される。そして、製品情報が記載された製品仕様書(カタログコンテンツ)のファイルをカタログコンテンツフォーマット変換サーバ300が使用するファイル形式に変換し、カタログコンテンツデータファイル210を生成する機能を有する。例えば、PDF形式やHTML(hypertext markup language)形式、csv形式などにより記述されたカタログコンテンツデータファイルを、XML形式のカタログコンテンツデータファイル210へ変換する。また、ネットワークNを介してカタログコンテンツデータファイル210をカタログコンテンツフォーマット変換サーバ300へ受け渡す機能を有する。
【0017】
カタログコンテンツフォーマット変換サーバ300は、フォーマット変換装置としてのサーバであり、データクレンジング処理部310、木構造探索処理部320、フォーマット変換データファイル作成部330、データクレンジング辞書データベース(以下、「DB」)340、および、木構造辞書DB350を具備する。そして、ネットワークNを介してカタログコンテンツデータ管理サーバ100とのデータの送受信を行う。
【0018】
データクレンジング辞書DB340は項目名変換辞書DB341、項目追加辞書DB342、単位変換辞書DB343、および、項目値変換辞書DB344から構成される。
項目名変換辞書DB341は、各カタログコンテンツデータで使用されうる項目名データと、統一して使用すべき項目名データとの対応を記憶している。
項目追加辞書DB342は、カタログコンテンツデータファイル210に補完すべきカタログコンテンツデータの項目名データ(追加項目名)、項目値データ(追加項目値)、ならびに、項目値に付随する単位(追加単位)の一覧を記憶している。
単位変換辞書DB343は、項目値の単位を変換する際の項目値の変換規則(倍率)を記憶している。
項目値変換辞書DB344は、カタログコンテンツデータで使用されうる項目値データと、統一して使用すべき項目値データとの対応を、項目名の識別情報(項目名コード)毎に記憶している。
【0019】
木構造辞書DB350は、木構造階層コード辞書DB351、木構造階層辞書DB352、および、木構造項目辞書DB353から構成される。
木構造階層コード辞書DB351は、項目名データと項目値データの組合せが属するべきノードの識別情報である木構造階層コードを記憶している。
木構造階層辞書DB352は、木構造階層コードと、1つ上位のノードの木構造階層コード(親階層コード)、最下層であるか否かを示す情報(最下層フラグ)、および、ノードの名称を示す木構造階層名とを対応させて記憶している。
木構造項目辞書DB353は、木構造階層コードと、このノード(階層)に関連する項目名を識別する項目名コード(品目情報コード)、項目名データ、および、この項目に使用されるべき項目値の単位(新単位)とを対応させて記憶している。
【0020】
データクレンジング処理部310は、項目名データ変換部311およびデータ追加部312からなる。
項目名データ変換部311は、項目名変換辞書DB341を基に、カタログコンテンツデータファイル210内の項目名データを、統一した項目名データへと変換する機能を有する。
データ追加部312は、項目追加辞書DB342を基に、カタログコンテンツデータファイル210へ必要なカタログコンテンツデータを補完する機能を有する。
【0021】
木構造探索処理部320は、木構造パス探索部321、木構造項目整理部322、単位変換部323、および、項目値データ変換部324とからなる。
木構造パス探索部321は、データクレンジング処理部310によってノード情報を探索・割当てする際に必要な項目名データの統一およびデータの補完を行ったカタログコンテンツデータファイル210を基に、木構造階層コード辞書DB351および木構造階層辞書DB352を参照して、このカタログコンテンツが属するべき木構造の階層パスを探索する機能を有する。
木構造項目整理部322は、木構造項目辞書DB353を参照し、木構造パス探索部321が取得した階層パスを構成するノードに付随するカタログコンテンツデータである木構造項目の情報を取得する。
単位変換部323は、単位変換辞書DB343を参照し、カタログコンテンツが属する木構造のノードで使用すべき単位への変換に伴う、項目値データ値の変換を行う。例えば、「cm」という単位データと付随する「10」というデータ値に対して、単位データを「cm」から「mm」に変換した場合、項目データ値を「10」から「100」に変換する。
項目値データ変換部324は、項目値変換辞書DB344を参照し、項目値データを統一された表現の項目値データに変換する。
【0022】
フォーマット変換データファイル作成部330は、カタログコンテンツデータファイル210内の各カタログコンテンツデータに対して、木構造探索処理部320が木構造のノード情報の付与およびノード情報に伴う単位、項目値データの変換を行った結果を、フォーマット変換データファイル220に格納する機能を有する。
【0023】
表1は、項目名変換辞書DB341の構成例を示す。
【表1】
【0024】
表1においては、「製品名」、「商品名」、「製品名称」という項目名データは、「変換項目名」に示される「品名」という統一した項目名データに、また、「総重量」、「重さ」という項目名データは、「変換項目名」に示される「重量」という統一した項目名データに対応すること、…を示している。
【0025】
表2は、項目追加辞書DB342の構成例を示す。
【表2】
【0026】
表2においては、項目名データが「企業名」である場合、項目値データが「A株式会社」であれば、項目名データ「企業コード」、項目値データ「00001」、単位「なし(NULL)」のカタログコンテンツデータが追加されることを示している。同様に、項目値データが「B株式会社」であれば、項目名データ「企業コード」、項目値データ「00002」、単位「なし(NULL)」のカタログコンテンツデータが、また、項目値データが「C株式会社」であれば、項目名データ「企業コード」、項目値データ「00003」、単位「なし(NULL)」のカタログコンテンツデータを補完すること、…、を示している。
【0027】
表3は、単位変換辞書DB343の構成例を示す。
【表3】
【0028】
表3においては、現在の単位が「g(単位)」であり、変換後の単位が「kg(新単位)」である場合には、項目値データは「0.001(倍率)」倍されることを示している。また、現在の単位が「m」あるいは「cm」であり、変換後の単位が「mm」である場合、項目値データはそれぞれ「10000」倍、「10」倍されること、…、を示している。なお、現在の単位が「NULL」である(単位が付与されていない)場合には、単位の変換はなく(NULL)、項目値も変換されないこと(NULL)を示している。
【0029】
表4は、項目値変換辞書DB344の構成例を示す。
【表4】
【0030】
表4においては、「項目名コード」が「IC0112」であり、その項目値データが「青」である場合は、「新項目値」で示される「BLUE」に、項目値データが「赤」である場合は、「RED」に変換されることを示している。同様に、「項目名コード」が「IC0113」であり、その項目値データが「時計用」である場合は、「時計(新項目値)」に変換されること、…、を示している。
【0031】
表5は、木構造階層コード辞書DB351の構成例を示す。
【表5】
【0032】
表5においては、項目名データ「種別」および項目値データ「LCDモジュール」の組合せは、対応するノードの「木構造階層コード」が「A1」であり、項目名データ「種別」および項目値データ「SC0001」の組合せは、対応する「木構造階層コード」が「A2」であることを示している。また、項目名データ「表示形態」および項目値データ「反射型」の組合せは、対応する「木構造階層コード」が「A102」および「A103」であることを示している。さらに、項目名データおよび項目値データの組合せが「CN0010」および「A000001」、ならびに、「CN0011」および「青」である場合、対応する「木構造階層コード」は「A10201」であることを示している。同様に、項目名データ「CN0099」および項目値データが「Z000001」の組合せは、対応する「木構造階層コード」が「A20201」であること、…、を示している。
【0033】
表6は、木構造階層辞書DB352の構成例を示す。
【表6】
【0034】
表6においては、「木構造階層コード」が「ROOT」で示される階層の親階層は存在しないこと(「親階層コード」が「NULL」)、木構造の最下層でではないこと(「最下層フラグ」が「0」)、「木構造階層名」は「ROOT」であることが示されている。また、「木構造階層コード」が「A1」、または、「A2」で示される階層の「親階層コード」は「ROOT」であり、木構造の最下層でではないこと、それぞれの「木構造階層名」は「TN000A1」、「TN000A2」であることが示されている。同様に、「木構造階層コード」が「A102」、または、「A103」で示される階層の「親階層コード」は「A1」であり、木構造の最下層ではないこと、それぞれの「木構造階層名」は「TN000A102」、「TN000A103」であることが示されている。さらに、「木構造階層コード」が「A10201」で示される階層の「親階層コード」は「A102」であり、木構造の最下層である(「最下層フラグ」が「1」)こと、「木構造階層名」は「TN000A10201」であることが、そして、「木構造階層コード」が「A20201」で示される階層の「親階層コード」は「A202」であり、木構造の最下層であること、「木構造階層名」は「TN000A20201」であること、…、が示されている。
【0035】
表7は、木構造項目辞書DB353の構成例を示す。
【表7】
【0036】
表7においては、「木構造階層コード」が「A1」である階層(ノード)には、品目情報コード「IC0001」で識別され、項目名データが「種別」、単位が「NULL」、…、である項目(カタログコンテンツデータ)と、品目情報コード「IC0002」で識別され、項目名データが「CN0010」、単位が「NULL」、…、である項目とが付随し、「木構造階層コード」が「A2」である階層には、品目情報コード「IC0003」で識別され、項目名データが「種別」、単位が「NULL」、…、である項目が付随することを示している。また、「木構造コード階層コード」が「A102」である階層には、品目情報コード「IC0011」で識別され、項目名データが「表示形態」、単位が「NULL」、…、である項目と、品目情報コード「IC0012」で識別され、項目名データが「品名」、単位が「NULL」、…、である項目とが付随し、「木構造コード階層コード」が「A103」である階層には、品目情報コード「IC0013」で識別され、項目名データが「表示形態」、単位が「NULL」、…、である項目が付随していることを示している。同様に、「木構造コード階層コード」が「A10201」である階層には、品目情報コード「IC0111」で識別され、項目名データが「重量」、単位が「g」、…、である項目と、品目情報コード「IC0112」で識別され、項目名データが「CN0011」、単位が「NULL」、…、である項目とが関連し、「木構造コード階層コード」が「A20201」である階層には、品目情報コード「IC0113」で識別され、項目名データが「重量」、単位が「kg」、…、である項目が関連していることなどを示している。
【0037】
次に、同実施の形態によるカタログコンテンツフォーマット変換システムの動作について説明する。
まず、カタログコンテンツデータ管理サーバ100は、図示しない製品メーカのパーソナルコンピュータなどから、PDF形式などにより記述されたカタログコンテンツのファイルを受信する。あるいは、フレキシブルディスクやメモリカードなどの記録媒体から読み出してもよい。カタログコンテンツデータ管理サーバ100は、カタログコンテンツのファイルの入力を受けると、カタログコンテンツフォーマット変換サーバ300で使用されるXML形式のカタログコンテンツデータファイル210に変換する。
PDF形式のファイルは、「座標軸」および「フォント数」情報の集合体である。そのため、PDFファイルに記述された文字を同一フォント数、同じ行数により一連の語句であると認識し、抽出する。これにより、品名や種別などの項目が抽出できる。また、表の縦、横の記述レイアウトを認識し、項目名とその項目値、さらには、単位を抽出する。そして、この抽出された項目名及び単位が要素名及び属性となるようにXMLタグ化し、項目値を要素の内容として設定する。
カタログコンテンツデータ管理サーバ100は、XML形式に変換されたカタログコンテンツデータファイル210をカタログコンテンツフォーマット変換サーバ300へ送信する。
【0038】
カタログコンテンツフォーマット変換サーバ300のデータクレンジング処理部310は、ネットワークNを介してカタログコンテンツデータ管理サーバ100からカタログコンテンツデータファイル210を受信すると、項目名データ変換部311を起動する。
項目名データ変換部311は、項目名変換辞書DB341を参照し、受信したカタログコンテンツデータファイル210内の項目名データを統一した項目名データへと変換する。例えば、製品の名称を表す項目名データが各メーカのカタログコンテンツデータファイル210毎に「製品名」や「商品名」、「製品名称」というように表現にばらつきがあった場合、これらを「品名」に変換することで製品の名称を表す項目名データの統一を実施する。
【0039】
続いて、データ追加部312は、項目追加辞書DB342を参照し、必要なカタログコンテンツデータを補完する。例えば、カタログコンテンツデータファイル210に項目名データが「企業名」、項目値データが「A株式会社」という組合せがあった場合に、「企業コード」という項目名データおよび「A株式会社」を表す企業コードとして「00001」(単位なし)という項目値データを追加する。
項目名データ変換部311およびデータ追加部312においてデータクレンジングを行った結果、すなわち、カタログコンテンツデータファイル210に対してノード情報を探索・割当てするために必要な項目名データの統一および必要データの補完を行った結果をカタログコンテンツ編集データ211とする。
上述した項目名データ変換部311およびデータ追加部312の処理は、木構造探索処理部320の前処理として、木構造辞書DB350に従ってカタログコンテンツの木構造ノードの情報の探索および割当てを行う際に必要な項目名データの統一および必要データの追加を行うという役割を持つ。
【0040】
図3は、木構造パス探索部321における木構造階層コード取得処理の動作手順を示す図である。木構造階層コード取得処理では、カタログコンテンツ編集データ211内の項目名データと項目値データの組合せが属するべき木構造のノードを示す木構造階層コードを付与する。
【0041】
木構造探索処理部320は、データクレンジング処理が完了した際にデータクレンジング処理部310によって起動される。そして、この木構造探索処理部320が木構造パス探索部321を起動することで、木構造階層コード取得処理が実行される。
木構造パス探索部321は、カタログコンテンツ編集データ211内の項目名データおよび項目値データの組合せを抽出する。そして、この項目名データおよび項目値データの組合せにより木構造階層コード辞書DB351内の項目名および項目値の組合せを検索し、対応する木構造階層コードを取得する(ステップS32111)。例えば、カタログコンテンツ編集データ211内の項目名データ「種別」と項目値データ「LCDモジュール」の組合せにより木構造階層コード辞書DB351を検索した場合、「A1」という木構造階層コードを取得することができる。なお、検索の結果、一致する項目名および項目値データの組合せがなければ、空白(NULL)が取得される。
木構造パス探索部321が木構造階層コードを取得すると、カタログコンテンツ編集データ211に対して項目名データおよび項目値データの組合せに対応させてこの木構造階層コードを追加したカタログコンテンツ編集データ212を得る(ステップS32112)。
【0042】
続いて、カタログコンテンツ編集データ211内の全ての項目名データおよび項目値データの組合せについて、木構造階層コードの検索および取得を行い、カタログコンテンツ編集データ212の編集が終了したか否かを判断する(ステップS32113)。未実施の項目名データおよび項目値データの組合せがある場合には、次の項目名データおよび項目値データの組合せについて再びステップS32111からの処理を実行し、木構造階層コードの検索および取得、カタログコンテンツ編集データ212の編集を繰り返し実施する。
そして、ステップS32113において、全ての項目名データおよび項目値データの組合せについて木構造階層コードの検索、取得を完了したと判断した場合には、以下に示す木構造階層情報取得処理を実行する。
【0043】
図4は、木構造パス探索部321における木構造階層情報取得処理の動作手順を示す図である。木構造階層情報取得処理では、カタログコンテンツが属するべき木構造の分類の階層パスの候補を抽出する。
木構造パス探索部321は、カタログコンテンツ編集データ212(図3)内の木構造階層コードにより木構造階層辞書DB352を検索し、最下層フラグを取得する(ステップS32121)。例えば、カタログコンテンツ編集データ212内の項目名データ「種別」および項目値データ「LCDモジュール」に対応する木構造階層コード「A1」により木構造階層辞書DB352の検索を行った場合、最下層フラグ「0」を取得する。そして、カタログコンテンツ編集データ212に対してこの木構造階層コードに対応させて取得した最下層フラグを付加したカタログコンテンツ編集データ213を得る。
【0044】
次に、木構造パス探索部321は、取得した最下層フラグが「1」であるか否かを判断する(ステップS32122)。そして、取得した最下層フラグが木構造階層コードが木構造の最下層ノードであることを示す「1」の場合は、木構造の階層パスの探索処理を行う(ステップS32123)。
一般的にカタログコンテンツデータは、カテゴリ分類を構成する木構造の最下層ノードに属する。例えば、「赤鉛筆」という製品は「文具・鉛筆」という木構造ノードにおける「鉛筆」ノードに属するものであり、「文具」ノードは「鉛筆」ノードを含む最下層ノード群の上位(親)ノードである。これは、カタログコンテンツデータが属するべき木構造階層パスを探索する場合、カタログコンテンツ編集データ213内の各項目データ(カタログコンテンツデータ)に付与されている木構造階層コードのうち最下層ノードを選定し、この最下層ノードから順に上位階層ノードを探索していくことで、効率的に木構造階層パスを決定することができるということである。
【0045】
ステップS32123において、木構造パス探索部321は、始めに最下層フラグが「1」のカタログコンテンツ編集データ213内の木構造階層コードにより木構造階層辞書DB352を検索し、親階層コードを取得する。次に取得した親階層コードと、木構造階層辞書DB352内の木構造階層コードが一致するレコードの親階層コードを取得する。木構造パス探索部321は、この処理を、親階層コードの値が最上位ノードであることを表す「ROOT」になるまで繰り返し行うことにより、最下層ノードから最上位ノード「ROOT」までの階層パスを探索する。
例えば、最下層フラグが「1」であるカタログコンテンツ編集データ213内の木構造階層コード「A10201」により木構造階層辞書DB352内の木構造階層コードを検索し、親階層コード「A102」を取得する。次に、取得した親階層コード「A102」により、木構造階層辞書DB352内の木構造階層コードを検索し、親階層コード「A1」を取得する。さらに、取得した親階層コード「A1」により、木構造階層辞書DB352内の木構造階層コードを検索し、親階層コード「ROOT」を取得する。これによって最下層ノード「A10201」から最上位ノード「ROOT」までの階層パス「ROOT・A1・A102・A10201」を探索することができる。
【0046】
木構造パス探索部321は、最下層ノードから最上位ノードまでの階層パスの探索が完了すると、カタログコンテンツ編集データ213内の全ての木構造階層コードが最下層ノードであるか否かの確認と、最下層ノードである全ての木構造階層コードについて最上位ノードまでの階層パスの探索を実施したか否かを判断する(ステップS32124)。未実施の最下層ノードであるか否かの確認、あるいは、最下層ノードから最上位ノードまでの階層パスの探索がある場合には、再びカタログコンテンツ編集データ212内の次の木構造階層コードについて、ステップS32121からの処理を実施する。
【0047】
図5は、図4の続きの動作手順を示す。
図5のステップS32124において、木構造パス探索部321が全ての木構造階層コードについて最下層ノードであるか否かの確認、および、最下層ノードから最上位ノードまでの階層パスの探索が完了したと判断した場合すると、抽出したカタログコンテンツが属するべき木構造の階層パスの各候補についてその妥当性を確認する(ステップS32125)。これは、ステップS32123において抽出された階層パスの各候補の最上位ノードから最下層ノードまでの各ノードを表す木構造階層コードが、カタログコンテンツ編集データ213内に含まれている木構造階層コードと一致するか否かを検証することによって行うことができる。一致しない場合は、カタログコンテンツ編集データ213を構成する項目名データと項目値データの組合せがこの階層パスの構成とは異なることを意味し、カタログコンテンツが属するべきではない、不適合な階層パスであるということを示す。
【0048】
木構造パス探索部321は、まず、階層パスの最上位ノードの1つ下位ノードが、カタログコンテンツ編集データ213内の木構造階層コードに含まれていることを確認する。この下位ノードがカタログコンテンツ編集データ213内の木構造階層コードに含まれていない場合は、不適合な階層パスということになる。最上位ノード(ROOT)の下位ノードがカタログコンテンツ編集データ213内の木構造階層コードに含まれている場合は、更にその下位ノードがカタログコンテンツ編集データ213内の木構造階層コードに含まれていることを確認する。この処理を最下層ノードまで繰り返し実施することでカタログコンテンツが属するべき階層パスを抽出する。
【0049】
例えば、階層パス1については、各ノードを表す木構造階層コード「A1」「A102」「A10201」が全てカタログコンテンツ編集データ213内の木構造階層コードに含まれているため、カタログコンテンツが属するべき階層パスと判断される。また、階層パス2は各ノードを表す木構造階層コード「A2」「A202」「A20201」の内、最上位ノードの下位ノードである「A2」がカタログコンテンツ編集データ213内の木構造階層コードに含まれていないため、不適合な階層パスということになる。
木構造パス探索部321は、階層パスの全候補について、適合の確認を完了すると、処理を完了し、木構造項目整理部322を起動する。
【0050】
図6は、木構造項目整理部322における木構造項目情報取得処理の動作手順を示す図である。この木構造項目情報取得処理では、カタログコンテンツが属するべき階層パスに付随する項目を取得する。そして、後述する木構造項目構成処理において、この取得した項目により、カタログコンテンツ編集データ213内の各項目に対して、階層パス(カテゴリ分類)に合せた項目値データのフォーマット変換(データクレンジング)や項目名データおよび項目値データの要・不要の判断を実施する。すなわち、ここでは、カタログコンテンツが属するべき階層パスに合せたカタログコンテンツデータを生成するための準備を実施する。
【0051】
木構造項目整理部322は、カタログコンテンツが属するべき階層パスを構成する各ノードを表す木構造階層コードにより木構造項目辞書DB353を検索し、品目情報コード、項目名、新単位からなる木構造項目抽出結果を取得する(ステップS32211)。
例えば、カタログコンテンツが属するべき階層パスの各ノードの木構造階層コードが「A1」、「A102」、および、「A10201」であった場合を想定する。このとき、木構造階層コード「A1」に対応して、取得した品目情報コード「IC0001」、項目名「種別」、および、新単位「NULL」からなる木構造項目抽出結果と、品目情報コード「IC0002」、項目名「CN0010」、および、新単位「NULL」からなる木構造項目抽出結果が得られる。また、木構造階層コード「A102」に対応して、品目情報コード「IC0011」、項目名「表示形態」、および、新単位「NULL」からなる木構造項目抽出結果と、品目情報コード「IC0012」、項目名「品名」、および、新単位「NULL」からなる木構造項目抽出結果が得られる。さらに、木構造階層コード「A10201」に対応して、品目情報コード「IC0111」、項目名「重量」、および、新単位「g」からなる木構造項目抽出結果と、品目情報コード「IC0112」、項目名「CN0011」、および、新単位「NULL」からなる木構造項目抽出結果が得られる。
木構造項目整理部322は、階層パスの全ノードの木構造階層コードについて木構造項目抽出結果の取得が完了すると、木構造項目構成処理を起動する。
【0052】
図7は、木構造項目整理部322における木構造項目構成処理の動作手順を示す図である。
ステップS32221において、木構造項目整理部322は、カタログコンテンツ編集データ213内の項目名データと、ステップS32211で抽出した木構造項目抽出結果内の項目名データとを比較する。そして、一致する項目名データと、この項目名データに対応するカタログコンテンツ編集データ213内の項目値データおよび単位データと、木構造項目抽出結果内の項目名コードおよび新単位データとから、カタログコンテンツ編集データ214を編集する。
この処理を通して、後述する単位変換処理(図8)において必要とされる各項目名データに対応した項目名コードを取得するとともに、カタログコンテンツが属するべき階層パス内で統一した新単位データを取得する。併せて、木構造項目抽出結果内に含まれないカタログコンテンツ編集データ213内のカタログコンテンツデータを取得対象外とすることにより、カタログコンテンツが属するべき階層パスにおいて必要な項目のみからなるカタログコンテンツ編集データ214を作成することができる。
例えば、カタログコンテンツ編集データ213内の項目名データ「CN0099」は、木構造項目抽出結果内の項目名データとは一致しない。これは、カタログコンテンツが属するべき階層パスの各ノードを表す木構造階層コード「A1」「A102」「A10201」では不要の項目であることを意味し、カタログコンテンツ編集データ214においては、格納対象外としている。
【0053】
木構造項目整理部322は、カタログコンテンツ編集データ213内の全ての項目名データについてステップS32221の処理を実施したか否かを判断する(ステップS32222)。未実施の項目名データがある場合は、再びステップS32221を実施する。全ての項目名データについてステップS32221の実施を完了すると、単位変換部323を起動する。
【0054】
図8は単位変換部323における単位変換処理の動作手順を示す図である。単位変換処理では、カタログコンテンツ編集データ214内の各単位データを、階層パスでルール化し、統一した単位データにフォーマット変換(データクレンジング)する。
単位変換部323は、カタログコンテンツ編集データ214内の単位データおよび新単位データの組合せにより単位変換辞書DB343内の単位および新単位の組合せの検索を行い、倍率データを取得する(ステップS32311)。例えば、カタログコンテンツ編集データ214内の単位データ「g」および新単位データ「kg」の組合せにより単位変換辞書DB343内の検索を行い、倍率データ「0.001」を取得する。このとき、カタログコンテンツ編集データ214内の単位データが空白(NULL)である場合には、検索の対象外となる。
【0055】
単位変換部323は、カタログコンテンツ編集データ214内の全ての単位データと新単位データの組合せについて、単位変換辞書DB343からの倍率データを取得すると、取得した倍率データとカタログコンテンツ編集データ214内の該当列の項目値データとを乗算し、新単位データに対応した項目値データへと変換したカタログコンテンツ編集データ215を得る(ステップS32312)。例えば、カタログコンテンツ編集データ214内の単位データ「g」と新単位データ「kg」の組合せの列の項目値データ「100」とステップS32311で取得した倍率データ「0.001」を乗算することで「0.1」を算出し、項目値データ「100」を算出した「0.1」で置き換える。
【0056】
単位変換部323は、カタログコンテンツ編集データ214内の該当列の項目値データについて項目値データの単位変換を完了すると、カタログコンテンツ編集データ214内の単位データと新単位データの全ての組合せについて倍率データの取得および項目値データの変換を行ったか否かを判断する(ステップS32313)。未実施の組合せがある場合はステップS32311に戻り、倍率データの取得およびカタログコンテンツ編集データ214内の項目値データの変換を実施する。カタログコンテンツ編集データ214内の単位データと新単位データの全ての組合せについてデータ変換の実施が完了すると単位変換処理323を終了し、項目値データ変換処理を起動する。
【0057】
図9は項目値データ変換部324における項目値データ変換処理の動作手順を示す図である。項目値データ変換処理では、カタログコンテンツが属するべき階層パスに合せたカタログコンテンツデータへとフォーマット変換(データクレンジング)するために、カタログコンテンツ編集データ215内の各項目値データを、階層パスでルール化された表現の項目値データにフォーマット変換(データクレンジング)する。
【0058】
項目値データ変換部324は、カタログコンテンツ編集データ215内の項目値データと項目名コードの組合せにより項目値変換辞書DB344を検索し、新項目値データを取得する(ステップS32411)。例えば、カタログコンテンツ編集データ215内の項目値データ「青」と項目名コード「IC0112」の組合せにより項目値変換辞書DB344を検索した場合には、新項目値データ「BLUE」が取得される。
【0059】
項目値データ変換部324は、カタログコンテンツ編集データ215内の項目値データと項目名コードの組合せについて、項目名変換辞書DB344から新項目値データを取得すると、カタログコンテンツ編集データ215内の項目値データを取得した新項目値データへと置き換え、カタログコンテンツ編集データ216を得る(ステップS32412)。例えば、カタログコンテンツ編集データ215内の項目名コード「IC0112」の項目値データ「青」を、ステップS32411で取得した新項目値データ「BLUE」に置き換える。
【0060】
項目値データ変換部324は、ステップS32411で取得した全ての新項目値データについて項目値データのフォーマット変換を完了すると、カタログコンテンツ編集データ215内の項目値データと項目名コードの全ての組合せについて、新項目値データを取得し、項目値データのフォーマット変換を行ったか否かを判断する(ステップS32413)。
カタログコンテンツ編集データ215内の項目値データと項目名コードの組合せで未実施の組合せがある場合は、ステップS32411からの処理を繰り返す。一方、全ての項目値データと項目名コードの組合せについてデータ変換が完了し、カタログコンテンツ編集データ216の編集が完了すると、項目値データ変換処理を終了するとともに、木構造探索処理部320の終了処理を起動する。
【0061】
木構造探索処理部320は終了処理が起動されると、フォーマット変換データファイル作成部330を起動する。
フォーマット変換データファイル作成部330は、準拠すべき標準やルールのフォーマットに従い、XML形式など所定のファイル形式により、カタログコンテンツ編集データ216内に示される木構造のノードに付随する項目(カタログコンテンツデータ)や、このカタログコンテンツが属する木構造のノード(分類)を示す木構造階層コードまたは木構造階層名などの木構造の情報などを記述したフォーマット変換データファイル220を作成する。この木構造のノードに付随する項目には、このカタログコンテンツが属する木構造のノードで統一された項目名データ、項目値データ、単位が用いられることになる。また、フォーマット変換データファイル220には、木構造のノードに付随する項目以外にも、カタログコンテンツデータファイル210、あるいは、カタログコンテンツデータファイル210にデータクレンジングを行った結果であるカタログコンテンツ編集データ211内の項目を適宜付加してもよいし、あるいは、カタログコンテンツデータファイル210と相互にリンクさせてもよい。
生成されたフォーマット変換データファイル220は、カタログコンテンツデータ管理サーバ100へ返送される。
【0062】
なお、標準や表記ルール毎に項目名変換辞書DB341、項目追加辞書DB342、項目値変換辞書DB344、木構造階層コード辞書DB351、木構造階層辞書DB352、および、木構造項目辞書DB353を保有することにより、任意の標準や表記ルールに従ったフォーマット変換を行うことができる。このとき、準拠すべき標準や表記ルールは、カタログコンテンツデータ管理サーバ100から指示を受信することでもよいし、あるいは、カタログコンテンツデータファイル210内に記述することなどでもよい。
【0063】
上記実施の形態によれば、カタログコンテンツデータ管理サーバ100からネットワークNを介して取得したカタログコンテンツデータファイル210内のカタログコンテンツデータを基に、このカタログコンテンツが属するべき木構造のカテゴリ分類の情報を付与することが出来る。
また、受信したカタログコンテンツデータファイルを、カテゴリ分類毎に統一した項目や単位へフォーマット変換することができる。これにより、例えば、「文具・鉛筆」という分類に属する製品の長さを表す単位は「mm(ミリメートル)」、「オフィス家具・机」という分類に属する製品の幅を表す単位は「cm(センチメール)」など、各カタログコンテンツが属するカテゴリ分類毎に、項目値データの単位を統一したり、項目(カタログコンテンツデータ)を統一することができる。
また、木構造項目辞書DB353に木構造階層コードをキーとしてカタログコンテンツが属するべき階層パスに必要な項目のレコードを追加し、単位変換処理323や項目値データ変換324と同様のフォーマット変換処理(データクレンジング処理)を組み込むことで、市場にある各種標準化フォーマットへのフォーマット変換要件に対して柔軟性・可用性に富んだカタログコンテンツフォーマット変換サーバ300を実現することができる。
更に、木構造辞書DB350を基点にデータクレンジング辞書DB340のデータメンテナンスを行うことで、準拠すべき標準や変換ルールを意識したメンテナンスが可能となり、各種辞書DBのメンテナンス効率を挙げることも可能となる。
【0064】
なお、上述のカタログコンテンツデータ管理サーバ100、および、カタログコンテンツフォーマット変換サーバ300は、内部にコンピュータシステムを有している。そして、上述した動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、OSや周辺機器等のハードウェアを含むものである。
【0065】
また、「コンピュータ読み取り可能な記録媒体」とは、ROMの他に、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のシステムやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0066】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0067】
【発明の効果】
この発明によれば、フォーマット変換対象のカタログコンテンツデータファイル内のカタログコンテンツデータを基に、このカタログコンテンツが属するべき木構造のカテゴリ分類の情報を付与することが出来る。
また、カタログコンテンツデータファイルを、各カタログコンテンツが属するカテゴリ分類毎に統一した項目や項目値、単位へとフォーマット変換することができる。
また、各種データベースへデータを追加することで、市場にある各種標準化フォーマットへのフォーマット変換要件に対して柔軟性・可用性に富んだフォーマット変換装置を提供することができる。
【図面の簡単な説明】
【図1】この発明の一実施の形態によるフォーマット変換装置を用いたカタログコンテンツフォーマット変換システムの概要を説明するための図である。
【図2】同実施の形態によるカタログコンテンツフォーマット変換システムの構成を示すブロック図である。
【図3】同実施の形態による木構造階層コード取得処理の動作手順を示す図である。
【図4】同実施の形態による木構造階層情報取得処理の動作手順を示す図である。
【図5】同実施の形態による木構造階層情報取得処理の動作手順の続きを示す図である。
【図6】同実施の形態による木構造項目情報取得処理の動作手順を示す図である。
【図7】同実施の形態による木構造項目構成処理の動作手順を示す図である。
【図8】同実施の形態による単位変換処理の動作手順を示す図である。
【図9】同実施の形態による項目値データ変換処理の動作手順を示す図である。
【符号の説明】
100…カタログコンテンツデータ管理サーバ
300…カタログコンテンツフォーマット変換サーバ(フォーマット変換装置)
310…データクレンジング処理部
311…項目名データ変換部
312…データ追加部
320…木構造探索処理部
321…木構造パス探索部
322…木構造項目整理部
323…単位変換部
324…項目値データ変換部
330…フォーマット変換データファイル作成部
340…データクレンジング辞書DB
341…項目名変換辞書DB
342…項目追加辞書DB
343…単位変換辞書DB
344…項目値変換辞書DB
350…木構造辞書DB
351…木構造階層コード辞書DB(ノード識別辞書データベース)
352…木構造階層辞書DB(階層辞書データベース)
353…木構造項目辞書DB(ノード項目辞書データベース)[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a content file format conversion apparatus and method, and a computer program.
[0002]
[Prior art]
In recent years, electronic commerce (BtoB) between companies has become popular, and the electronic procurement rate in the electronic information equipment industry and the like has also increased. In this electronic commerce, a digitized product catalog (hereinafter, also referred to as “catalog content” or “electronic catalog”) occupies an important position when selecting a product. However, at present, catalog contents provided by each company are inconsistent in the format format, items that specify product specifications, words that indicate item names, and notation methods of tables and sentences, which hinder the spread of electronic commerce. I have. Therefore, various standardization organizations are promoting the standardization of the description format of the electronic catalog, and the manufacturer must supply an electronic catalog corresponding to these various standard formats.
[0003]
On the other hand, when converting catalog content managed in a format such as item name data or unit data for each manufacturer or the like into a unified format such as a standard, the following forms are taken (for example, see Patent Document 1). 1-4).
(1) If the item name data and item value data in the catalog content to be format-converted match the item name data and item value data managed in the item name conversion rule dictionary, the item conversion rule dictionary Format conversion is performed by rewriting the registered item name data after format conversion.
(2) (1) Similarly, in the format conversion to the category classification of the tree structure to which the catalog content belongs, the tree structure data in the catalog content to be format-converted is the data registered in the tree structure conversion rule dictionary. When the values match, the format conversion is performed by rewriting the converted tree structure data registered in the tree structure conversion rule dictionary.
(3) When format conversion of unit data such as “g (gram)” to “kg (kilogram)” is performed, the format conversion is performed using the conversion magnification registered in the unit conversion rule dictionary. By performing numerical processing on the numerical data, the format conversion of the unit data and the numerical data accompanying the unit data is performed.
(4) If the data value in the catalog content to be format-converted matches the data value managed in the conversion rule dictionary as in (1), (2) and (3), register it in this conversion rule dictionary The format conversion is performed by performing a single conversion process such as rewriting the converted data value into a converted data value or performing a calculation process using a conversion magnification registered in the conversion rule dictionary.
(5) Further, a database of conversion rule dictionaries for format-converting a plurality of patterns of data into unique data for each user or each product type is provided.
[0004]
[Patent Document 1]
JP-A-2002-108667
[Patent Document 2]
JP-A-2001-202450
[Patent Document 3]
JP-A-11-85836
[Patent Document 4]
JP-A-10-340269
[0005]
[Problems to be solved by the invention]
The conventional technique described above is specialized in a format conversion process (data cleansing process) in which item name data and item value data are converted according to a conversion rule dictionary. As a result, the conventional technique has the following problems.
(1) Since it is assumed that the hierarchical path information of the category classification of the tree structure to which the product data should belong is described in this product data, if the classification information to which the product data belongs is not defined, data cleansing is performed. It will not be processed.
(2) When the classification to which the product data belongs is described in the product data, the data cleansing process is performed on the classification information in the product data according to the conversion rule dictionary. This is based on the premise that the data cleansing process of the related art is appropriate for the classification information described in the product data. That is, even when the validity is lacking, the data cleansing process is performed according to the classification information described in the product data.
(3) Originally, item value data to be expressed is determined for each category to which each product data belongs. For example, the unit representing the length of a product belonging to the class "stationery / pencil" is "mm (millimeter)", and the unit representing the width of the product belonging to the category "office furniture / desk" is "cm (centimeter)". And However, in the conventional technology, when format conversion of unit data is performed, if a rule for converting "cm" to "mm" is registered in the conversion rule dictionary, the length of a product belonging to the classification "stationery / pencil" is represented. The unit data and the unit data indicating the width of the product belonging to the category of "office furniture / desk" are converted to "mm" through data cleansing processing, and the unit data of the converted product data is all expressed in "mm" become. This means that the format has not been converted into the item value data to be represented in each class in consideration of the plural classes.
[0006]
The present invention has been made in view of such circumstances, and has as its object to create a tree indicating the classification to which this catalog content belongs, based on the item name data and item value data of the product data constituting the catalog content. It is an object of the present invention to provide a format conversion apparatus and method capable of allocating node information of a structure and performing format conversion to an item corresponding to an assigned node of a tree structure and a data value of a corresponding expression, and a computer program. .
[0007]
[Means for Solving the Problems]
SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problem, and an invention according to
[0008]
According to a second aspect of the present invention, there is provided a format conversion apparatus for converting a content data file including content data including an item name and a value thereof into a predetermined format, wherein the format conversion is performed in a hierarchical manner indicating a classification of the content. A node identification dictionary database that stores the identification information of the nodes corresponding to the content data, a hierarchical dictionary database that stores the association between the nodes, and an identification information of the node corresponding to the content data of the content data file. A format conversion apparatus, comprising: a path search unit that obtains from a node identification dictionary database, and searches a node to which the content belongs from the identification information of the node and the hierarchical dictionary database.
[0009]
According to a third aspect of the present invention, there is provided the format conversion apparatus according to the second aspect, wherein the item name data used in the content data in the content data file and the item name data used in the format are stored in the format conversion device. The item name conversion dictionary database that stores the correspondence, the item addition dictionary database that stores content data to be complemented, and the item name conversion dictionary database are referred to, and the item name data in the content data file is written in the format. Item name data conversion means for converting item name data to be used unifiedly, and data addition means for complementing content data used in the format to the content data file based on the item addition dictionary database are further provided. , The path search means unifies the item name data and Acquiring identification information of the node corresponding to the content data subjected to the complement content data from said node identification dictionary database, and wherein the.
[0010]
According to a fourth aspect of the present invention, there is provided the format conversion apparatus according to the second or third aspect, further comprising: a node item dictionary database for storing information on items associated with the nodes; An item arranging means for acquiring information on an item associated with the node to which the content belongs from the database and extracting content data corresponding to the information on the item acquired from the content data; And a format conversion data file creating means for creating a content data file according to the format.
[0011]
According to a fifth aspect of the present invention, there is provided the format conversion apparatus according to the fourth aspect, wherein the node item dictionary database further stores information on a unit used for an item associated with the node. The organizing unit further obtains, from the node item dictionary database, information on a unit used for an item associated with the node to which the content belongs, and the unit conversion unit obtains item value data of the content data based on the obtained unit information. It is characterized in that data of a unit attached to the item value data is converted.
[0012]
According to a sixth aspect of the present invention, there is provided the format conversion apparatus according to any one of the second to fifth aspects, further comprising an item for storing item value data used in an item associated with the node. A value conversion dictionary database and item value data conversion means for converting item value data in the content data into item value data used in an item associated with a node to which the content belongs with reference to the item value conversion dictionary database And characterized in that:
[0013]
The invention according to claim 7 is a format conversion method for converting a content data file including content data composed of data of an item name and its value into a predetermined format, wherein a hierarchical format indicating a classification of the content is provided. A node identification dictionary database for storing the identification information of the nodes corresponding to the content data, a hierarchical dictionary database for storing the relation between the nodes, and a node item dictionary database for storing information on items associated with the nodes. Preparing, acquiring identification information of a node corresponding to the content data of the content data file from the node identification dictionary database, searching for the node to which the content belongs from the identification information of the node and the hierarchical dictionary database, The item searched from the item dictionary database Content information corresponding to the acquired item information is obtained from the content data of the content data file, and the content data in accordance with the format is extracted based on the extracted content data. This is a format conversion method characterized by generating a content data file.
[0014]
According to another aspect of the present invention, there is provided a computer program for use in a format conversion apparatus for converting a content data file including content data including an item name and a value thereof into a predetermined format. Acquiring node identification information corresponding to the content data of the content data file from a node identification dictionary database storing identification information of the hierarchized nodes indicating the content data in association with the content data; Searching for the node to which the content belongs from the hierarchical dictionary database to be stored and the identification information of the acquired node; and searching the node to which the searched content belongs from the node item dictionary database to store the information of the items attached to the node. Accompanying item information Acquiring, extracting, from the content data of the content data file, content data corresponding to the information of the acquired item, and generating a content data file according to the format based on the extracted content data. Are executed by a computer.
[0015]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram for explaining an outline of a catalog content format conversion system using a format conversion device according to an embodiment of the present invention.
The catalog content format conversion server 300 acquires a file (catalog content data file 210) of a product specification (catalog content) provided by the manufacturer. The catalog content data file 210 includes data of item names and their values (hereinafter, “item values”), and includes a plurality of items (catalog content data) indicating product information such as product names and classifications, various specifications, and specifications. ). In addition, the unit can be attached to the item value. The catalog content format conversion server 300 allocates the classification to which the catalog content indicated by the tree structure belongs to the obtained catalog content data file 210 so as to conform to a predetermined standard or notation rule, and converts the format. (Format conversion data file 220) is returned. Therefore, the catalog content format conversion server 300 performs data cleansing on the catalog content data file 210, that is, unification of item name data and complement of the catalog content data according to the format to be output. Then, based on the catalog content data that has been data-cleansed, a category to which the catalog content belongs, that is, a tree-structured node is assigned, and a unit of the item value (a metric unit used for the quantity of the state of the object) and the item value Perform data conversion.
Note that the tree structure is a data structure that starts from one node called a root (root), repeatedly branches into lower nodes in a hierarchical manner, and spreads so that the tree extends the branch. Among connected nodes, a node close to root (upper) is called a parent, and a node not close to root (lower) is called a child. However, one node can have only one parent node. That is, in the tree structure, there is only one way from one node to another node. For example, an XML (extensible markup language) document always has a tree structure when drawn as a combination of nodes.
[0016]
FIG. 2 is a block diagram showing the configuration of the catalog content format conversion system according to one embodiment of the present invention.
The catalog content
[0017]
The catalog content format conversion server 300 is a server as a format conversion device, and includes a data
[0018]
The data cleansing dictionary DB340 includes an item name conversion dictionary DB341, an item addition dictionary DB342, a unit conversion dictionary DB343, and an item value conversion dictionary DB344.
The item name conversion dictionary DB 341 stores correspondence between item name data that can be used in each catalog content data and item name data that should be used unifiedly.
The item
The unit
The item value
[0019]
The tree
The tree structure hierarchy
The tree structure
The tree structure
[0020]
The data cleansing
The item name
The data adding unit 312 has a function of supplementing the catalog content data file 210 with necessary catalog content data based on the item
[0021]
The tree structure
The tree structure
The tree structure
The
The item value
[0022]
The format conversion data
[0023]
Table 1 shows a configuration example of the item name conversion dictionary DB 341.
[Table 1]
[0024]
In Table 1, the item name data of “product name”, “product name”, and “product name” are unified item name data of “article name” shown in “conversion item name”, and “gross weight” , "Weight" corresponds to the unified item name data "weight" shown in "conversion item name", and so on.
[0025]
Table 2 shows a configuration example of the item
[Table 2]
[0026]
In Table 2, if the item name data is “company name”, and if the item value data is “A corporation”, the item name data is “company code”, the item value data is “00001”, and the unit is “NULL”. )) Is added. Similarly, if the item value data is “B Corporation”, the item name data “company code”, the item value data “00002”, the catalog content data of the unit “none (NULL)”, and the item value data "C Co., Ltd." indicates that item name data "company code", item value data "00003", and catalog content data in the unit "NULL" are to be supplemented.
[0027]
Table 3 shows a configuration example of the unit
[Table 3]
[0028]
In Table 3, when the current unit is “g (unit)” and the converted unit is “kg (new unit)”, the item value data is multiplied by “0.001 (magnification)”. Which indicates that. Also, when the current unit is “m” or “cm” and the unit after conversion is “mm”, the item value data is multiplied by “10000” and “10”, respectively. ing. If the current unit is “NULL” (no unit is assigned), it indicates that there is no unit conversion (NULL) and that the item value is not converted (NULL).
[0029]
Table 4 shows a configuration example of the item value
[Table 4]
[0030]
In Table 4, when the “item name code” is “IC0112” and the item value data is “blue”, the item value data is “red” in “BLUE” indicated by “new item value”. Indicates that it is converted to “RED”. Similarly, when the “item name code” is “IC0113” and the item value data is “for clock”, it indicates that it is converted to “clock (new item value)”.
[0031]
Table 5 shows a configuration example of the tree structure hierarchical
[Table 5]
[0032]
In Table 5, the combination of the item name data “type” and the item value data “LCD module” is such that the “tree structure hierarchical code” of the corresponding node is “A1”, and the item name data “type” and the item value data The combination of “SC0001” indicates that the corresponding “tree structure hierarchical code” is “A2”. Further, the combination of the item name data “display mode” and the item value data “reflection type” indicates that the corresponding “tree structure hierarchical codes” are “A102” and “A103”. Further, when the combination of the item name data and the item value data is “CN0010” and “A000001” and “CN0011” and “blue”, it indicates that the corresponding “tree structure hierarchical code” is “A10241”. ing. Similarly, the combination of the item name data “CN0099” and the item value data “Z000001” indicates that the corresponding “tree structure hierarchical code” is “A20201”, and so on.
[0033]
Table 6 shows a configuration example of the tree structure
[Table 6]
[0034]
In Table 6, there is no parent hierarchy of the hierarchy whose “tree structure hierarchy code” is indicated by “ROOT” (“parent hierarchy code” is “NULL”), and it is not the lowest hierarchy of the tree structure (“most The lower layer flag is “0”), and the “tree structure hierarchical name” is “ROOT”. Also, the “parent hierarchy code” of the hierarchy indicated by “A1” or “A2” in the “tree structure hierarchy code” is “ROOT”, which is not the lowest layer of the tree structure. It is shown that the “tier name” is “TN000A1” and “TN000A2”. Similarly, the “hierarchical tree code” is “A102”, or the “parent hierarchical code” of the hierarchy indicated by “A103” is “A1”, which is not the lowest layer of the tree structure. It is shown that the “tier name” is “TN000A102” and “TN000A103”. Further, the “parent hierarchy code” of the hierarchy whose “tree structure hierarchy code” is indicated by “A10201” is “A102”, which is the lowest level of the tree structure (“lowest level flag” is “1”); The “tree structure hierarchy name” is “TN000A10201”, and the “parent hierarchy code” of the hierarchy whose “tree structure hierarchy code” is indicated by “A20201” is “A202”, which is the lowest layer of the tree structure. , "Tree structure hierarchical name" is "TN000A20201", and so on.
[0035]
Table 7 shows a configuration example of the tree structure
[Table 7]
[0036]
In Table 7, the hierarchy (node) whose “tree structure hierarchy code” is “A1” is identified by the item information code “IC0001”, the item name data is “type”, and the unit is “NULL”,. (Catalog content data) and an item identified by the item information code “IC0002”, the item name data of which is “CN0010”, the unit of which is “NULL”,... Is indicated by an item information code “IC0003”, and an item whose item name data is “type” and whose unit is “NULL”,... Also, in the hierarchy in which the “tree structure code hierarchy code” is “A102”, items identified by the item information code “IC0011”, the item name data of which is “display mode”, and the unit of “NULL”,. , The item information code is “IC0012”, the item name data is “item name”, the unit is “NULL”,..., And the “tree structure code layer code” is “A103”. Indicates that the item identified by the item information code “IC0013” is accompanied by an item whose item name data is “display mode” and whose unit is “NULL”,. Similarly, in the hierarchy in which the “tree structure code hierarchy code” is “A10201”, items identified by the item information code “IC0111” and whose item name data is “weight” and whose units are “g”,. , The item information code “IC0112”, the item name data is “CN0011”, the unit is “NULL”,..., And the “tree structure code hierarchy code” is “A20201”. Indicates that the item identified by the item information code “IC0113” is associated with an item whose item name data is “weight” and whose unit is “kg”,...
[0037]
Next, the operation of the catalog content format conversion system according to the embodiment will be described.
First, the catalog content
A file in the PDF format is an aggregate of “coordinate axes” and “number of fonts” information. Therefore, the characters described in the PDF file are recognized and extracted as a series of words with the same number of fonts and the same number of lines. Thereby, items such as an item name and a type can be extracted. Further, it recognizes the vertical and horizontal description layouts of the table, and extracts the item names, their item values, and the units. Then, XML tagging is performed so that the extracted item names and units become element names and attributes, and the item values are set as the contents of the elements.
The catalog content
[0038]
Upon receiving the catalog content data file 210 from the catalog content
The item name
[0039]
Subsequently, the data adding unit 312 refers to the item
The result of performing data cleansing in the item name
The processes of the item name
[0040]
FIG. 3 is a diagram showing an operation procedure of a tree structure hierarchical code acquisition process in the tree structure
[0041]
The tree structure
The tree structure
When the tree structure
[0042]
Subsequently, the tree structure hierarchical code is searched and obtained for all combinations of item name data and item value data in the catalog content editing data 211, and it is determined whether or not the editing of the catalog content editing data 212 has been completed. (Step S32113). If there is a combination of unexecuted item name data and item value data, the process from step S32111 is executed again for the next combination of item name data and item value data to search and acquire the tree structure hierarchy code, catalog The editing of the content editing data 212 is repeatedly performed.
If it is determined in step S32113 that the search and acquisition of the tree structure hierarchy code have been completed for all combinations of item name data and item value data, the following tree structure hierarchy information acquisition process is executed.
[0043]
FIG. 4 is a diagram showing an operation procedure of the tree structure hierarchy information acquisition process in the tree structure
The tree structure
[0044]
Next, the tree structure
Generally, catalog content data belongs to the lowest node of the tree structure forming the category classification. For example, the product “red pencil” belongs to the “pencil” node in the tree structure node “stationery / pencil”, and the “stationery” node is an upper (parent) node of the lowest node group including the “pencil” node It is. This is because, when searching for a tree structure hierarchical path to which catalog content data should belong, the lowest layer node is selected from the tree structure hierarchical code assigned to each item data (catalog content data) in the catalog content edit data 213. This means that the tree-structured hierarchical path can be determined efficiently by searching the upper hierarchical nodes in order from the lowest hierarchical node.
[0045]
In step S32123, the tree structure
For example, the tree structure hierarchy code in the tree structure
[0046]
When the search for the hierarchical path from the lowest node to the highest node is completed, the tree structure
[0047]
FIG. 5 shows a continuation of the operation procedure of FIG.
In step S32124 in FIG. 5, the tree-structured
[0048]
First, the tree structure
[0049]
For example, as for the
When the tree structure
[0050]
FIG. 6 is a diagram illustrating an operation procedure of the tree structure item information acquisition processing in the tree structure
[0051]
The tree structure
For example, it is assumed that the tree structure hierarchy codes of the nodes of the hierarchy path to which the catalog content belongs are “A1”, “A102”, and “A10201”. At this time, in correspondence with the tree structure hierarchy code “A1”, the tree structure item extraction result including the acquired item information code “IC0001”, the item name “type”, and the new unit “NULL”, and the item information code “ A tree structure item extraction result including “IC0002”, the item name “CN0010”, and the new unit “NULL” is obtained. Also, in correspondence with the tree structure hierarchical code "A102", a tree structure item extraction result including an item information code "IC0011", an item name "display mode", and a new unit "NULL", and an item information code "IC0012" , An item name “article name” and a new unit “NULL” are obtained. Further, corresponding to the tree structure hierarchy code “A10201”, a tree structure item extraction result including an item information code “IC0111”, an item name “weight” and a new unit “g”, and an item information code “IC0112”, A tree structure item extraction result including the item name “CN0011” and the new unit “NULL” is obtained.
The tree structure
[0052]
FIG. 7 is a diagram illustrating an operation procedure of the tree structure item configuration processing in the tree structure
In step S32221, the tree structure
Through this process, an item name code corresponding to each item name data required in a unit conversion process (FIG. 8) to be described later is obtained, and new unit data unified within a hierarchical path to which the catalog content should belong is obtained. . At the same time, by excluding the catalog content data in the catalog content edit data 213 that is not included in the tree structure item extraction result from the acquisition target, the catalog content edit data including only the necessary items in the hierarchical path to which the catalog content should belong 214 can be created.
For example, the item name data “CN0099” in the catalog content editing data 213 does not match the item name data in the tree structure item extraction result. This means that the tree structure hierarchical codes “A1,” “A102,” and “A10241” representing the nodes of the hierarchical path to which the catalog content should belong are unnecessary items, and are not stored in the catalog content editing data 214. And
[0053]
The tree structure
[0054]
FIG. 8 is a diagram illustrating an operation procedure of the unit conversion process in the
The
[0055]
When the
[0056]
When the
[0057]
FIG. 9 is a diagram showing an operation procedure of the item value data conversion processing in the item value
[0058]
The item value
[0059]
When the item value
[0060]
When the item value
If there is an unexecuted combination of the item value data and the item name code in the catalog content editing data 215, the processing from step S32411 is repeated. On the other hand, when the data conversion is completed for all the combinations of the item value data and the item name codes and the editing of the catalog content editing data 216 is completed, the item value data conversion processing ends and the tree structure
[0061]
When the termination process is activated, the tree structure
The format conversion data
The generated format conversion data file 220 is returned to the catalog content
[0062]
It should be noted that by holding an item name conversion dictionary DB341, an item addition dictionary DB342, an item value conversion dictionary DB344, a tree structure hierarchy code dictionary DB351, a tree structure hierarchy dictionary DB352, and a tree structure item dictionary DB353 for each standard or notation rule. Format conversion according to any standard or notation rule. At this time, the standards and notation rules to be followed may be received from the catalog content
[0063]
According to the above embodiment, based on the catalog content data in the catalog content data file 210 obtained from the catalog content
Further, the format of the received catalog content data file can be converted into items and units unified for each category. Thus, for example, the unit representing the length of a product belonging to the classification “stationery / pencil” is “mm (millimeter)”, and the unit representing the width of the product belonging to the classification “office furniture / desk” is “cm (cm) For example, the unit of item value data or the item (catalog content data) can be unified for each category classification to which each catalog content belongs, such as “mail”.
Further, a record of an item necessary for a hierarchical path to which the catalog content belongs is added to the tree structure
Further, by performing data maintenance of the data cleansing
[0064]
The above-described catalog content
[0065]
The “computer-readable recording medium” refers to not only ROM but also portable media such as magnetic disks, magneto-optical disks, CD-ROMs, and DVD-ROMs, and storage devices such as hard disks built into computer systems. That means. Further, the “computer-readable recording medium” is a system such as a volatile memory (RAM) in a computer system which is a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. In addition, programs that hold programs for a certain period of time are also included.
[0066]
Further, the above program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the "transmission medium" for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
Further, the program may be for realizing a part of the functions described above. Furthermore, what can realize the above-mentioned function in combination with a program already recorded in the computer system, that is, a so-called difference file (difference program) may be used.
[0067]
【The invention's effect】
According to the present invention, based on the catalog content data in the catalog content data file to be format-converted, it is possible to add information on the category classification of the tree structure to which the catalog content belongs.
Further, the format of the catalog content data file can be converted into items, item values, and units unified for each category classification to which each catalog content belongs.
Further, by adding data to various databases, it is possible to provide a format conversion device that is highly flexible and available for format conversion requirements to various standardized formats on the market.
[Brief description of the drawings]
FIG. 1 is a diagram for explaining an outline of a catalog content format conversion system using a format conversion device according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of a catalog content format conversion system according to the embodiment.
FIG. 3 is a diagram showing an operation procedure of a tree structure hierarchical code acquisition process according to the embodiment.
FIG. 4 is a diagram showing an operation procedure of tree structure hierarchical information acquisition processing according to the embodiment.
FIG. 5 is a diagram showing a continuation of the operation procedure of the tree structure hierarchy information acquisition process according to the embodiment.
FIG. 6 is a diagram showing an operation procedure of tree structure item information acquisition processing according to the embodiment.
FIG. 7 is a diagram showing an operation procedure of a tree structure item configuration process according to the embodiment.
FIG. 8 is a diagram showing an operation procedure of a unit conversion process according to the embodiment.
FIG. 9 is a diagram showing an operation procedure of an item value data conversion process according to the embodiment.
[Explanation of symbols]
100: Catalog content data management server
300: Catalog content format conversion server (format conversion device)
310: Data cleansing processing unit
311 ... Item name data converter
312 ... Data addition section
320: Tree structure search processing unit
321... Tree structure path search unit
322: tree structure item arrangement section
323 Unit conversion unit
324: item value data conversion unit
330: Format conversion data file creation unit
340: Data cleansing dictionary DB
341: item name conversion dictionary DB
342: additional item dictionary DB
343: Unit conversion dictionary DB
344: item value conversion dictionary DB
350: Tree structure dictionary DB
351... Tree structure hierarchical code dictionary DB (node identification dictionary database)
352... Tree structure hierarchical dictionary DB (hierarchical dictionary database)
353: tree structure item dictionary DB (node item dictionary database)
Claims (8)
前記コンテンツデータファイル内の項目名データを前記フォーマットで統一して使用される項目名データに変換するとともに、このコンテンツデータファイルへ前記フォーマットで用いられるコンテンツデータを補完するデータクレンジング手段と、
前記データクレンジング手段が項目名データの統一およびコンテンツデータの補完を行った前記コンテンツデータを基に、コンテンツの分類を示す階層化されたノードにおいて、該コンテンツが属する前記ノードを探索する探索手段と、
を備えることを特徴とするフォーマット変換装置。A format conversion device for converting a content data file containing content data consisting of item name and value data into a predetermined format,
Data cleansing means for converting the item name data in the content data file into item name data used in a unified manner in the format, and complementing the content data used in the format with the content data file,
Search means for searching for the node to which the content belongs in a hierarchical node indicating the classification of the content, based on the content data in which the data cleansing means has unified the item name data and complemented the content data,
A format conversion device comprising:
コンテンツの分類を示す階層化されたノードの識別情報を、コンテンツデータと対応して記憶するノード識別辞書データベースと、
前記ノード間の関連を記憶する階層辞書データベースと、
前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得し、このノードの識別情報と前記階層辞書データベースとから該コンテンツが属するノードを探索するパス探索手段と、
を備えることを特徴とするフォーマット変換装置。A format conversion device for converting a content data file containing content data consisting of item name and value data into a predetermined format,
A node identification dictionary database storing identification information of hierarchized nodes indicating the classification of content in association with the content data;
A hierarchical dictionary database storing associations between the nodes,
Path search means for obtaining identification information of a node corresponding to the content data of the content data file from the node identification dictionary database, and searching for the node to which the content belongs from the identification information of the node and the hierarchical dictionary database;
A format conversion device comprising:
補完すべきコンテンツデータを記憶する項目追加辞書データベースと、
前記項目名変換辞書データベースを参照して、前記コンテンツデータファイル内の項目名データを前記フォーマットで統一して使用される項目名データに変換する項目名データ変換手段と、
前記項目追加辞書データベースを基に、前記コンテンツデータファイルへ前記フォーマットで用いられるコンテンツデータを補完するデータ追加手段とをさらに備え、
前記パス探索手段は、項目名データの統一およびコンテンツデータの補完を行った前記コンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得する、
ことを特徴とする請求項2に記載のフォーマット変換装置。Item name data that can be used in the content data in the content data file, and an item name conversion dictionary database that stores a correspondence between the item name data used in the format,
An item additional dictionary database that stores content data to be complemented,
Item name data conversion means for referring to the item name conversion dictionary database and converting item name data in the content data file into item name data used in a unified manner in the format,
Data addition means for complementing content data used in the format to the content data file based on the item addition dictionary database,
The path search means acquires, from the node identification dictionary database, identification information of a node corresponding to the content data obtained by unifying item name data and complementing content data.
The format conversion apparatus according to claim 2, wherein:
前記ノード項目辞書データベースから該コンテンツが属するノードに付随する項目の情報を取得し、前記コンテンツデータから取得した項目の情報に対応したコンテンツデータを抽出する項目整理手段と、
前記項目整理手段が抽出したコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成するフォーマット変換データファイル作成手段とを備える、
ことを特徴とする請求項2または請求項3に記載のフォーマット変換装置。Further, a node item dictionary database for storing information on items attached to the node,
Item arrangement means for acquiring information on an item associated with a node to which the content belongs from the node item dictionary database and extracting content data corresponding to the information on the item acquired from the content data;
Format conversion data file creating means for creating a content data file according to the format based on the content data extracted by the item organizing means,
The format conversion device according to claim 2 or 3, wherein:
前記項目整理手段は、さらに、前記ノード項目辞書データベースから該コンテンツが属するノードに付随する項目に用いられる単位の情報を取得し、
単位変換手段は、取得した単位の情報により前記コンテンツデータの項目値データ及び該項目値データに付随する単位のデータを変換する、
ことを特徴とする請求項4に記載のフォーマット変換装置。The node item dictionary database further stores information on units used for items associated with the nodes,
The item arranging unit further obtains, from the node item dictionary database, information on a unit used for an item attached to a node to which the content belongs,
The unit conversion means converts the item value data of the content data and the data of the unit attached to the item value data according to the acquired unit information,
The format conversion apparatus according to claim 4, wherein:
前記項目値変換辞書データベースを参照して、前記コンテンツデータ内の項目値データを、該コンテンツが属するノードに付随する項目で用いられる項目値データに変換する項目値データ変換手段とを備える、
ことを特徴とする請求項2から請求項5のいずれかの項に記載のフォーマット変換装置。Further, an item value conversion dictionary database that stores item value data used in items associated with the nodes,
Item value data conversion means for converting item value data in the content data into item value data used in an item associated with a node to which the content belongs by referring to the item value conversion dictionary database,
The format conversion device according to claim 2, wherein
コンテンツの分類を示す階層化されたノードの識別情報を、コンテンツデータと対応して記憶するノード識別辞書データベースと、
前記ノード間の関連を記憶する階層辞書データベースと、
ノードに付随する項目の情報を記憶するノード項目辞書データベースとを用意し、
前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得し、このノードの識別情報と前記階層辞書データベースとから該コンテンツが属するノードを探索し、
前記ノード項目辞書データベースから探索された該コンテンツが属するノードに付随する項目の情報を取得し、
前記コンテンツデータファイルのコンテンツデータから、取得した項目の情報に対応したコンテンツデータを抽出し、
抽出されたコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成する、
ことを特徴とするフォーマット変換方法。A format conversion method for converting a content data file including content data composed of data of an item name and its value into a predetermined format,
A node identification dictionary database storing identification information of hierarchized nodes indicating the classification of content in association with the content data;
A hierarchical dictionary database storing associations between the nodes,
Prepare a node item dictionary database that stores information on items attached to nodes,
Obtaining the identification information of the node corresponding to the content data of the content data file from the node identification dictionary database, searching for the node to which the content belongs from the identification information of the node and the hierarchical dictionary database,
Obtain information on items associated with the node to which the content searched from the node item dictionary database belongs,
From the content data of the content data file, extract content data corresponding to the information of the acquired item,
Generating a content data file according to the format based on the extracted content data,
A format conversion method characterized in that:
コンテンツの分類を示す階層化されたノードの識別情報をコンテンツデータと対応して記憶するノード識別辞書データベースから、前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を取得するステップと、
ノード間の関連を記憶する階層辞書データベースと取得したノードの識別情報とから該コンテンツが属するノードを探索するステップと、
ノードに付随する項目の情報を記憶するノード項目辞書データベースから、探索された該コンテンツが属するノードに付随する項目の情報を取得するステップと、
前記コンテンツデータファイルのコンテンツデータから、取得した項目の情報に対応したコンテンツデータを抽出するステップと、
抽出されたコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成するステップと、
をコンピュータに実行させることを特徴とするコンピュータプログラム。A computer program used in a format conversion device that converts a content data file containing content data consisting of item name and value data into a predetermined format,
From the node identification dictionary database that stores the identification information of the hierarchized nodes indicating the classification of the content in association with the content data, acquiring the identification information of the node corresponding to the content data of the content data file;
Searching for a node to which the content belongs from a hierarchical dictionary database storing associations between the nodes and the acquired node identification information;
Acquiring information on items associated with the node to which the searched content belongs from a node item dictionary database storing information on items associated with the nodes;
Extracting, from the content data of the content data file, content data corresponding to the information of the acquired item;
Generating a content data file according to the format based on the extracted content data;
Computer program for causing a computer to execute the following.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003134421A JP2004341605A (en) | 2003-05-13 | 2003-05-13 | Format conversion device and method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003134421A JP2004341605A (en) | 2003-05-13 | 2003-05-13 | Format conversion device and method, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004341605A true JP2004341605A (en) | 2004-12-02 |
Family
ID=33524991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003134421A Pending JP2004341605A (en) | 2003-05-13 | 2003-05-13 | Format conversion device and method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004341605A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007249747A (en) * | 2006-03-17 | 2007-09-27 | Fujitsu Ltd | Common format creation program |
JP2007287059A (en) * | 2006-04-20 | 2007-11-01 | Mitsubishi Electric Corp | Data conversion device, data conversion method and data conversion program |
JP2017076350A (en) * | 2015-10-16 | 2017-04-20 | 富士通株式会社 | Information conversion method, information processing device, and information conversion program |
JP2020135168A (en) * | 2019-02-15 | 2020-08-31 | 富士通株式会社 | Information processor, information processing device, and data storage program |
JP2023501098A (en) * | 2019-11-10 | 2023-01-18 | タブロー ソフトウェア,インコーポレイテッド | Data preparation using semantic roles |
-
2003
- 2003-05-13 JP JP2003134421A patent/JP2004341605A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007249747A (en) * | 2006-03-17 | 2007-09-27 | Fujitsu Ltd | Common format creation program |
JP2007287059A (en) * | 2006-04-20 | 2007-11-01 | Mitsubishi Electric Corp | Data conversion device, data conversion method and data conversion program |
JP2017076350A (en) * | 2015-10-16 | 2017-04-20 | 富士通株式会社 | Information conversion method, information processing device, and information conversion program |
JP2020135168A (en) * | 2019-02-15 | 2020-08-31 | 富士通株式会社 | Information processor, information processing device, and data storage program |
JP7176434B2 (en) | 2019-02-15 | 2022-11-22 | 富士通株式会社 | Information processing system, information processing device and data storage program |
JP2023501098A (en) * | 2019-11-10 | 2023-01-18 | タブロー ソフトウェア,インコーポレイテッド | Data preparation using semantic roles |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100372584B1 (en) | Method and system for data processing | |
US8484238B2 (en) | Automatically generating regular expressions for relaxed matching of text patterns | |
JP4141556B2 (en) | Structured document management method, apparatus for implementing the method, and medium storing the processing program | |
Laclavík et al. | Email analysis and information extraction for enterprise benefit | |
JPH11242676A (en) | Method for registering structured document, method for retrieving structured document, and portable medium used in these methods | |
JP6186198B2 (en) | Learning model creation device, translation device, learning model creation method, and program | |
CN113704575B (en) | SQL method, device, equipment and storage medium for analyzing XML and Java files | |
JP7103763B2 (en) | Information processing system and information processing method | |
JP4393404B2 (en) | Database management apparatus and database management method | |
JP2005250820A (en) | Xml document classification method in storage system | |
JP2004341605A (en) | Format conversion device and method, and computer program | |
JP2003099442A (en) | Key concept extraction rule preparing method, key concept extraction method, key concept extraction rule preparing device, key concept extraction device, and program and recording medium for them | |
JPWO2006001241A1 (en) | Node insertion method, information processing apparatus, and node insertion program | |
CN115329753B (en) | Intelligent data analysis method and system based on natural language processing | |
CN112783836A (en) | Information exchange method, device and computer storage medium | |
CN106777140A (en) | For the method and device of non-structured document search | |
JPH10222510A (en) | Document converting method | |
US7953761B2 (en) | System, method, and apparatus for retrieving structured document and apparatus for managing structured document | |
JP3842576B2 (en) | Structured document editing method and structured document editing system | |
CN112699642A (en) | Index extraction method and device for complex medical texts, medium and electronic equipment | |
JP4904828B2 (en) | Information analysis knowledge management device, data structure, information analysis device, dictionary generation method and program | |
JP2021086400A (en) | Information processing device, instruction statement data producing method and program | |
JP7323138B2 (en) | Technology map output device, technology map output method, and program | |
JP2003288365A (en) | Additive information management method and additive information management system | |
JP5337575B2 (en) | Candidate word extraction device, candidate word extraction method, and candidate word extraction program |