JP2004341605A - Format conversion device and method, and computer program - Google Patents

Format conversion device and method, and computer program Download PDF

Info

Publication number
JP2004341605A
JP2004341605A JP2003134421A JP2003134421A JP2004341605A JP 2004341605 A JP2004341605 A JP 2004341605A JP 2003134421 A JP2003134421 A JP 2003134421A JP 2003134421 A JP2003134421 A JP 2003134421A JP 2004341605 A JP2004341605 A JP 2004341605A
Authority
JP
Japan
Prior art keywords
data
item
node
content data
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003134421A
Other languages
Japanese (ja)
Inventor
Yasufumi Ikeuchi
康文 池内
Junya Takahashi
潤也 高橋
Hirohisa Hanada
啓久 花田
Kazutoshi Wakiyama
和敏 脇山
Miyuki Tajima
身友希 田嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Comware Corp
Original Assignee
NTT Comware Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Comware Corp filed Critical NTT Comware Corp
Priority to JP2003134421A priority Critical patent/JP2004341605A/en
Publication of JP2004341605A publication Critical patent/JP2004341605A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To assign a node with a tree structure indicating a classification to which catalog contents belongs and perform a format conversion into an item corresponding to the assigned node. <P>SOLUTION: A format conversion device for converting a contents data file including contents data composed of data of item's name and its value into a prescribed format comprises; a data cleansing means for converting the item's name data in the data file into item's name data standardized in the format and complementing contents data used in the format to the contents data file; and a searching means for searching the node to which the contents belongs among the nodes hierarchized to indicate the classification of the contents, based on the contents data in which the item's name data is unified and the contents data is complemented by the cleansing means. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
この発明は、コンテンツファイルのフォーマット変換装置および方法、ならびに、コンピュータプログラムに関する。
【0002】
【従来の技術】
近年、企業間の電子商取引(BtoB)が盛んになってきており、電子情報機器産業などにおける電子調達率も向上している。この電子商取引においては、電子化された商品カタログ(以下、「カタログコンテンツ」、「電子カタログ」ともいう)が商品選択時に重要な位置付けを占める。しかし、現在、各社が提供するカタログコンテンツは、フォーマット形式、製品仕様を規定する項目、項目名を示す言葉、表や文章の表記方法などが不統一であり、電子商取引の普及の妨げになっている。そこで、各種標準化団体が、電子カタログの記述フォーマットの標準化を進めており、製造メーカは、これら様々な標準形式に対応した電子カタログを供給しなければなない。
【0003】
一方、各メーカ等に個別の項目名データや単位データなどのフォーマットにより管理されるカタログコンテンツを、標準規格などの統一のフォーマットに変換する場合、以下の形態が取られている(例えば、特許文献1〜4)。
(1) フォーマット変換の対象であるカタログコンテンツ内の項目名データおよび項目値データが、項目名変換ルール辞書で管理している項目名データおよび項目値データに一致した場合、この項目変換ルール辞書に登録されているフォーマット変換後の項目名データへと書き換えることによりフォーマット変換がなされる。
(2) (1)同様に、カタログコンテンツが属する木構造のカテゴリ分類へのフォーマット変換においては、フォーマット変換対象であるカタログコンテンツ内の木構造データが、木構造変換ルール辞書に登録されているデータ値に一致した場合に、この木構造変換ルール辞書に登録されているフォーマット変換後の木構造データへと書き換えることによりフォーマット変換がなされている。
(3) 「g(グラム)」から「kg(キログラム)」の様に単位データをフォーマット変換する場合、単位変換ルール辞書に登録している変換倍率を用いてフォーマット変換対象であるカタログコンテンツ内の数値データを計算処理することにより、単位データおよび単位データに伴う数値データのフォーマット変換がなされている。
(4) (1)(2)(3)のようにフォーマット変換対象であるカタログコンテンツ内のデータ値が、変換ルール辞書に管理しているデータ値に一致した場合に、この変換ルール辞書に登録している変換後のデータ値へと書き換える、あるいは変換ルール辞書に登録している変換倍率を用いて計算処理するといった単一変換処理を行うことでフォーマット変換がなされている。
(5) また、利用者毎あるいは製品種別毎に複数パターンのデータから一意のデータにフォーマット変換するための変換ルール辞書のデータベース化がなされている。
【0004】
【特許文献1】
特開特開2002−108667号公報
【特許文献2】
特開特開2001−202450号公報
【特許文献3】
特開平11−85836号公報
【特許文献4】
特開平10−340269号公報
【0005】
【発明が解決しようとする課題】
上述した従来の技術は、変換ルール辞書に従って項目名データや項目値データを変換するといったフォーマット変換処理(データクレンジング処理)に特化している。その結果、従来の技術には下記の問題点がある。
(1) 製品データが属するべき木構造のカテゴリ分類の階層パス情報がこの製品データ内に記述されていることを前提としているため、製品データが属するべき分類情報が定められていない場合、データクレンジング処理の処理対象外となる。
(2) 製品データが属するべき分類が該製品データ内に記述されていた場合、この製品データ内の分類情報に対し、変換ルール辞書に従ってデータクレンジング処理を実施する。これは従来の技術のデータクレンジング処理が、該製品データに記述されている分類情報が妥当であることを前提としている。即ち、その妥当性が欠如していた場合においても、該製品データ内に記述している分類情報に従ったデータクレンジング処理を行っている。
(3) 本来、各製品データは属する分類毎に表現すべき項目値データが定められる。例えば、「文具・鉛筆」という分類に属する製品の長さを表す単位は「mm(ミリメートル)」、「オフィス家具・机」という分類に属する製品の幅を表す単位は「cm(センチメール)」であるとする。しかし、従来の技術では、単位データをフォーマット変換する場合、変換ルール辞書に「cm」を「mm」に変換するというルールを登録すると、「文具・鉛筆」という分類に属する製品の長さを表す単位データおよび「オフィス家具・机」という分類に属する製品の幅を表す単位データがデータクレンジング処理を通して「mm」に変換され、変換後の製品データの単位データは全て「mm」で表現されることになる。これは、複数分類を考慮して各分類が表現すべき項目値データにフォーマット変換されていないことを意味する。
【0006】
本発明は、このような事情を考慮してなされたもので、その目的は、カタログコンテンツを構成する製品データの項目名データおよび項目値データを基に、このカタログコンテンツが属するべき分類を示す木構造のノード情報を割当てるとともに、割当てた木構造のノードに対応した項目や対応した表現のデータ値へのフォーマット変換を行うことができるフォーマット変換装置および方法、ならびに、コンピュータプログラムを提供することにある。
【0007】
【課題を解決するための手段】
この発明は、上記の課題を解決すべくなされたもので、請求項1に記載の発明は、項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換装置であって、前記コンテンツデータファイル内の項目名データを前記フォーマットで統一して使用される項目名データに変換するとともに、このコンテンツデータファイルへ前記フォーマットで用いられるコンテンツデータを補完するデータクレンジング手段と、前記データクレンジング手段が項目名データの統一およびコンテンツデータの補完を行った前記コンテンツデータを基に、コンテンツの分類を示す階層化されたノードにおいて、該コンテンツが属する前記ノードを探索する探索手段と、を備えることを特徴とするフォーマット変換装置である。
【0008】
また、請求項2に記載の発明は、項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換装置であって、コンテンツの分類を示す階層化されたノードの識別情報を、コンテンツデータと対応して記憶するノード識別辞書データベースと、前記ノード間の関連を記憶する階層辞書データベースと、前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得し、このノードの識別情報と前記階層辞書データベースとから該コンテンツが属するノードを探索するパス探索手段と、を備えることを特徴とするフォーマット変換装置である。
【0009】
また、請求項3に記載の発明は、請求項2に記載のフォーマット変換装置であって、コンテンツデータファイル内のコンテンツデータで使用されうる項目名データと、前記フォーマットで使用される項目名データとの対応を記憶する項目名変換辞書データベースと、補完すべきコンテンツデータを記憶する項目追加辞書データベースと、前記項目名変換辞書データベースを参照して、前記コンテンツデータファイル内の項目名データを前記フォーマットで統一して使用される項目名データに変換する項目名データ変換手段と、前記項目追加辞書データベースを基に、前記コンテンツデータファイルへ前記フォーマットで用いられるコンテンツデータを補完するデータ追加手段とをさらに備え、前記パス探索手段は、項目名データの統一およびコンテンツデータの補完を行った前記コンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得する、ことを特徴とする。
【0010】
また、請求項4に記載の発明は、請求項2または請求項3に記載のフォーマット変換装置であって、さらに、ノードに付随する項目の情報を記憶するノード項目辞書データベースと、前記ノード項目辞書データベースから該コンテンツが属するノードに付随する項目の情報を取得し、前記コンテンツデータから取得した項目の情報に対応したコンテンツデータを抽出する項目整理手段と、前記項目整理手段が抽出したコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成するフォーマット変換データファイル作成手段とを備える、ことを特徴とする。
【0011】
また、請求項5に記載の発明は、請求項4に記載のフォーマット変換装置であって、前記ノード項目辞書データベースは、さらに、ノードに付随する項目に用いられる単位の情報を記憶し、前記項目整理手段は、さらに、前記ノード項目辞書データベースから該コンテンツが属するノードに付随する項目に用いられる単位の情報を取得し、単位変換手段は、取得した単位の情報により前記コンテンツデータの項目値データ及び該項目値データに付随する単位のデータを変換する、ことを特徴とする。
【0012】
また、請求項6に記載の発明は、請求項2から請求項5のいずれかの項に記載のフォーマット変換装置であって、さらに、ノードに付随する項目で用いられる項目値データを記憶する項目値変換辞書データベースと、前記項目値変換辞書データベースを参照して、前記コンテンツデータ内の項目値データを、該コンテンツが属するノードに付随する項目で用いられる項目値データに変換する項目値データ変換手段とを備える、ことを特徴とする。
【0013】
また、請求項7に記載の発明は、項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換方法であって、コンテンツの分類を示す階層化されたノードの識別情報を、コンテンツデータと対応して記憶するノード識別辞書データベースと、前記ノード間の関連を記憶する階層辞書データベースと、ノードに付随する項目の情報を記憶するノード項目辞書データベースとを用意し、前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得し、このノードの識別情報と前記階層辞書データベースとから該コンテンツが属するノードを探索し、前記ノード項目辞書データベースから探索された該コンテンツが属するノードに付随する項目の情報を取得し、前記コンテンツデータファイルのコンテンツデータから、取得した項目の情報に対応したコンテンツデータを抽出し、抽出されたコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成する、ことを特徴とするフォーマット変換方法である。
【0014】
また、請求項8に記載の発明は、項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換装置に用いられるコンピュータプログラムであって、コンテンツの分類を示す階層化されたノードの識別情報をコンテンツデータと対応して記憶するノード識別辞書データベースから、前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を取得するステップと、ノード間の関連を記憶する階層辞書データベースと取得したノードの識別情報とから該コンテンツが属するノードを探索するステップと、ノードに付随する項目の情報を記憶するノード項目辞書データベースから、探索された該コンテンツが属するノードに付随する項目の情報を取得するステップと、前記コンテンツデータファイルのコンテンツデータから、取得した項目の情報に対応したコンテンツデータを抽出するステップと、抽出されたコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成するステップと、をコンピュータに実行させることを特徴とするコンピュータプログラムである。
【0015】
【発明の実施の形態】
以下、図面を参照し、この発明の実施の形態について説明する。
図1は、この発明の一実施の形態によるフォーマット変換装置を用いたカタログコンテンツフォーマット変換システムの概要を説明するための図である。
カタログコンテンツフォーマット変換サーバ300は、メーカが提供する製品の仕様書(カタログコンテンツ)のファイル(カタログコンテンツデータファイル210)を取得する。このカタログコンテンツデータファイル210は、項目名とその値(以下、「項目値」)のデータからなり、製品の名称や分類、各種仕様、諸元等の製品情報を示す複数の項目(カタログコンテンツデータ)を含んでいる。なお、項目値にはその単位が付随しうる。カタログコンテンツフォーマット変換サーバ300は、取得したカタログコンテンツデータファイル210に対して、所定の標準や表記ルールに準拠するように、木構造により示されるこのカタログコンテンツが属するべき分類を割当て、フォーマット変換したファイル(フォーマット変換データファイル220)を返送する。このため、カタログコンテンツフォーマット変換サーバ300は、カタログコンテンツデータファイル210に対してデータクレンジング、すなわち、出力すべきフォーマットに合わせて項目名データの統一およびカタログコンテンツデータの補完を実施する。そして、データクレンジングされたカタログコンテンツデータを基に、カタログコンテンツが属するべき分類、すなわち、木構造のノードを割当てるとともに、項目値の単位(物象の状態の量に使用される計量単位)および項目値データの変換を行う。
なお、木構造とは、root(根)と呼ばれる1つのノードからスタートして下位ノードへの枝分かれを階層的に繰り返し、樹木が枝を伸ばすように広がっていくデータ構造である。つながっているノード間では、rootに近いもの(上位)を親、そうでないもの(下位)を子という。ただし、1つのノードが持つことのできる親ノードは1つだけである。すなわち、木構造では、あるノードから別のノードまでの道は1通りしかない。例えば、XML(extensible markup language)文書は、ノードの組合せとして図に描くと、かならず木構造になる。
【0016】
図2は、この発明の一実施の形態によるカタログコンテンツフォーマット変換システムの構成を示すブロック図である。
カタログコンテンツデータ管理サーバ100は、インターネットなどの公衆網やLAN(Local Area Network)、VPN(Virtual Private Network)などの私設網であるネットワークNを介して、カタログコンテンツフォーマット変換サーバ300と接続される。そして、製品情報が記載された製品仕様書(カタログコンテンツ)のファイルをカタログコンテンツフォーマット変換サーバ300が使用するファイル形式に変換し、カタログコンテンツデータファイル210を生成する機能を有する。例えば、PDF形式やHTML(hypertext markup language)形式、csv形式などにより記述されたカタログコンテンツデータファイルを、XML形式のカタログコンテンツデータファイル210へ変換する。また、ネットワークNを介してカタログコンテンツデータファイル210をカタログコンテンツフォーマット変換サーバ300へ受け渡す機能を有する。
【0017】
カタログコンテンツフォーマット変換サーバ300は、フォーマット変換装置としてのサーバであり、データクレンジング処理部310、木構造探索処理部320、フォーマット変換データファイル作成部330、データクレンジング辞書データベース(以下、「DB」)340、および、木構造辞書DB350を具備する。そして、ネットワークNを介してカタログコンテンツデータ管理サーバ100とのデータの送受信を行う。
【0018】
データクレンジング辞書DB340は項目名変換辞書DB341、項目追加辞書DB342、単位変換辞書DB343、および、項目値変換辞書DB344から構成される。
項目名変換辞書DB341は、各カタログコンテンツデータで使用されうる項目名データと、統一して使用すべき項目名データとの対応を記憶している。
項目追加辞書DB342は、カタログコンテンツデータファイル210に補完すべきカタログコンテンツデータの項目名データ(追加項目名)、項目値データ(追加項目値)、ならびに、項目値に付随する単位(追加単位)の一覧を記憶している。
単位変換辞書DB343は、項目値の単位を変換する際の項目値の変換規則(倍率)を記憶している。
項目値変換辞書DB344は、カタログコンテンツデータで使用されうる項目値データと、統一して使用すべき項目値データとの対応を、項目名の識別情報(項目名コード)毎に記憶している。
【0019】
木構造辞書DB350は、木構造階層コード辞書DB351、木構造階層辞書DB352、および、木構造項目辞書DB353から構成される。
木構造階層コード辞書DB351は、項目名データと項目値データの組合せが属するべきノードの識別情報である木構造階層コードを記憶している。
木構造階層辞書DB352は、木構造階層コードと、1つ上位のノードの木構造階層コード(親階層コード)、最下層であるか否かを示す情報(最下層フラグ)、および、ノードの名称を示す木構造階層名とを対応させて記憶している。
木構造項目辞書DB353は、木構造階層コードと、このノード(階層)に関連する項目名を識別する項目名コード(品目情報コード)、項目名データ、および、この項目に使用されるべき項目値の単位(新単位)とを対応させて記憶している。
【0020】
データクレンジング処理部310は、項目名データ変換部311およびデータ追加部312からなる。
項目名データ変換部311は、項目名変換辞書DB341を基に、カタログコンテンツデータファイル210内の項目名データを、統一した項目名データへと変換する機能を有する。
データ追加部312は、項目追加辞書DB342を基に、カタログコンテンツデータファイル210へ必要なカタログコンテンツデータを補完する機能を有する。
【0021】
木構造探索処理部320は、木構造パス探索部321、木構造項目整理部322、単位変換部323、および、項目値データ変換部324とからなる。
木構造パス探索部321は、データクレンジング処理部310によってノード情報を探索・割当てする際に必要な項目名データの統一およびデータの補完を行ったカタログコンテンツデータファイル210を基に、木構造階層コード辞書DB351および木構造階層辞書DB352を参照して、このカタログコンテンツが属するべき木構造の階層パスを探索する機能を有する。
木構造項目整理部322は、木構造項目辞書DB353を参照し、木構造パス探索部321が取得した階層パスを構成するノードに付随するカタログコンテンツデータである木構造項目の情報を取得する。
単位変換部323は、単位変換辞書DB343を参照し、カタログコンテンツが属する木構造のノードで使用すべき単位への変換に伴う、項目値データ値の変換を行う。例えば、「cm」という単位データと付随する「10」というデータ値に対して、単位データを「cm」から「mm」に変換した場合、項目データ値を「10」から「100」に変換する。
項目値データ変換部324は、項目値変換辞書DB344を参照し、項目値データを統一された表現の項目値データに変換する。
【0022】
フォーマット変換データファイル作成部330は、カタログコンテンツデータファイル210内の各カタログコンテンツデータに対して、木構造探索処理部320が木構造のノード情報の付与およびノード情報に伴う単位、項目値データの変換を行った結果を、フォーマット変換データファイル220に格納する機能を有する。
【0023】
表1は、項目名変換辞書DB341の構成例を示す。
【表1】

Figure 2004341605
【0024】
表1においては、「製品名」、「商品名」、「製品名称」という項目名データは、「変換項目名」に示される「品名」という統一した項目名データに、また、「総重量」、「重さ」という項目名データは、「変換項目名」に示される「重量」という統一した項目名データに対応すること、…を示している。
【0025】
表2は、項目追加辞書DB342の構成例を示す。
【表2】
Figure 2004341605
【0026】
表2においては、項目名データが「企業名」である場合、項目値データが「A株式会社」であれば、項目名データ「企業コード」、項目値データ「00001」、単位「なし(NULL)」のカタログコンテンツデータが追加されることを示している。同様に、項目値データが「B株式会社」であれば、項目名データ「企業コード」、項目値データ「00002」、単位「なし(NULL)」のカタログコンテンツデータが、また、項目値データが「C株式会社」であれば、項目名データ「企業コード」、項目値データ「00003」、単位「なし(NULL)」のカタログコンテンツデータを補完すること、…、を示している。
【0027】
表3は、単位変換辞書DB343の構成例を示す。
【表3】
Figure 2004341605
【0028】
表3においては、現在の単位が「g(単位)」であり、変換後の単位が「kg(新単位)」である場合には、項目値データは「0.001(倍率)」倍されることを示している。また、現在の単位が「m」あるいは「cm」であり、変換後の単位が「mm」である場合、項目値データはそれぞれ「10000」倍、「10」倍されること、…、を示している。なお、現在の単位が「NULL」である(単位が付与されていない)場合には、単位の変換はなく(NULL)、項目値も変換されないこと(NULL)を示している。
【0029】
表4は、項目値変換辞書DB344の構成例を示す。
【表4】
Figure 2004341605
【0030】
表4においては、「項目名コード」が「IC0112」であり、その項目値データが「青」である場合は、「新項目値」で示される「BLUE」に、項目値データが「赤」である場合は、「RED」に変換されることを示している。同様に、「項目名コード」が「IC0113」であり、その項目値データが「時計用」である場合は、「時計(新項目値)」に変換されること、…、を示している。
【0031】
表5は、木構造階層コード辞書DB351の構成例を示す。
【表5】
Figure 2004341605
【0032】
表5においては、項目名データ「種別」および項目値データ「LCDモジュール」の組合せは、対応するノードの「木構造階層コード」が「A1」であり、項目名データ「種別」および項目値データ「SC0001」の組合せは、対応する「木構造階層コード」が「A2」であることを示している。また、項目名データ「表示形態」および項目値データ「反射型」の組合せは、対応する「木構造階層コード」が「A102」および「A103」であることを示している。さらに、項目名データおよび項目値データの組合せが「CN0010」および「A000001」、ならびに、「CN0011」および「青」である場合、対応する「木構造階層コード」は「A10201」であることを示している。同様に、項目名データ「CN0099」および項目値データが「Z000001」の組合せは、対応する「木構造階層コード」が「A20201」であること、…、を示している。
【0033】
表6は、木構造階層辞書DB352の構成例を示す。
【表6】
Figure 2004341605
【0034】
表6においては、「木構造階層コード」が「ROOT」で示される階層の親階層は存在しないこと(「親階層コード」が「NULL」)、木構造の最下層でではないこと(「最下層フラグ」が「0」)、「木構造階層名」は「ROOT」であることが示されている。また、「木構造階層コード」が「A1」、または、「A2」で示される階層の「親階層コード」は「ROOT」であり、木構造の最下層でではないこと、それぞれの「木構造階層名」は「TN000A1」、「TN000A2」であることが示されている。同様に、「木構造階層コード」が「A102」、または、「A103」で示される階層の「親階層コード」は「A1」であり、木構造の最下層ではないこと、それぞれの「木構造階層名」は「TN000A102」、「TN000A103」であることが示されている。さらに、「木構造階層コード」が「A10201」で示される階層の「親階層コード」は「A102」であり、木構造の最下層である(「最下層フラグ」が「1」)こと、「木構造階層名」は「TN000A10201」であることが、そして、「木構造階層コード」が「A20201」で示される階層の「親階層コード」は「A202」であり、木構造の最下層であること、「木構造階層名」は「TN000A20201」であること、…、が示されている。
【0035】
表7は、木構造項目辞書DB353の構成例を示す。
【表7】
Figure 2004341605
【0036】
表7においては、「木構造階層コード」が「A1」である階層(ノード)には、品目情報コード「IC0001」で識別され、項目名データが「種別」、単位が「NULL」、…、である項目(カタログコンテンツデータ)と、品目情報コード「IC0002」で識別され、項目名データが「CN0010」、単位が「NULL」、…、である項目とが付随し、「木構造階層コード」が「A2」である階層には、品目情報コード「IC0003」で識別され、項目名データが「種別」、単位が「NULL」、…、である項目が付随することを示している。また、「木構造コード階層コード」が「A102」である階層には、品目情報コード「IC0011」で識別され、項目名データが「表示形態」、単位が「NULL」、…、である項目と、品目情報コード「IC0012」で識別され、項目名データが「品名」、単位が「NULL」、…、である項目とが付随し、「木構造コード階層コード」が「A103」である階層には、品目情報コード「IC0013」で識別され、項目名データが「表示形態」、単位が「NULL」、…、である項目が付随していることを示している。同様に、「木構造コード階層コード」が「A10201」である階層には、品目情報コード「IC0111」で識別され、項目名データが「重量」、単位が「g」、…、である項目と、品目情報コード「IC0112」で識別され、項目名データが「CN0011」、単位が「NULL」、…、である項目とが関連し、「木構造コード階層コード」が「A20201」である階層には、品目情報コード「IC0113」で識別され、項目名データが「重量」、単位が「kg」、…、である項目が関連していることなどを示している。
【0037】
次に、同実施の形態によるカタログコンテンツフォーマット変換システムの動作について説明する。
まず、カタログコンテンツデータ管理サーバ100は、図示しない製品メーカのパーソナルコンピュータなどから、PDF形式などにより記述されたカタログコンテンツのファイルを受信する。あるいは、フレキシブルディスクやメモリカードなどの記録媒体から読み出してもよい。カタログコンテンツデータ管理サーバ100は、カタログコンテンツのファイルの入力を受けると、カタログコンテンツフォーマット変換サーバ300で使用されるXML形式のカタログコンテンツデータファイル210に変換する。
PDF形式のファイルは、「座標軸」および「フォント数」情報の集合体である。そのため、PDFファイルに記述された文字を同一フォント数、同じ行数により一連の語句であると認識し、抽出する。これにより、品名や種別などの項目が抽出できる。また、表の縦、横の記述レイアウトを認識し、項目名とその項目値、さらには、単位を抽出する。そして、この抽出された項目名及び単位が要素名及び属性となるようにXMLタグ化し、項目値を要素の内容として設定する。
カタログコンテンツデータ管理サーバ100は、XML形式に変換されたカタログコンテンツデータファイル210をカタログコンテンツフォーマット変換サーバ300へ送信する。
【0038】
カタログコンテンツフォーマット変換サーバ300のデータクレンジング処理部310は、ネットワークNを介してカタログコンテンツデータ管理サーバ100からカタログコンテンツデータファイル210を受信すると、項目名データ変換部311を起動する。
項目名データ変換部311は、項目名変換辞書DB341を参照し、受信したカタログコンテンツデータファイル210内の項目名データを統一した項目名データへと変換する。例えば、製品の名称を表す項目名データが各メーカのカタログコンテンツデータファイル210毎に「製品名」や「商品名」、「製品名称」というように表現にばらつきがあった場合、これらを「品名」に変換することで製品の名称を表す項目名データの統一を実施する。
【0039】
続いて、データ追加部312は、項目追加辞書DB342を参照し、必要なカタログコンテンツデータを補完する。例えば、カタログコンテンツデータファイル210に項目名データが「企業名」、項目値データが「A株式会社」という組合せがあった場合に、「企業コード」という項目名データおよび「A株式会社」を表す企業コードとして「00001」(単位なし)という項目値データを追加する。
項目名データ変換部311およびデータ追加部312においてデータクレンジングを行った結果、すなわち、カタログコンテンツデータファイル210に対してノード情報を探索・割当てするために必要な項目名データの統一および必要データの補完を行った結果をカタログコンテンツ編集データ211とする。
上述した項目名データ変換部311およびデータ追加部312の処理は、木構造探索処理部320の前処理として、木構造辞書DB350に従ってカタログコンテンツの木構造ノードの情報の探索および割当てを行う際に必要な項目名データの統一および必要データの追加を行うという役割を持つ。
【0040】
図3は、木構造パス探索部321における木構造階層コード取得処理の動作手順を示す図である。木構造階層コード取得処理では、カタログコンテンツ編集データ211内の項目名データと項目値データの組合せが属するべき木構造のノードを示す木構造階層コードを付与する。
【0041】
木構造探索処理部320は、データクレンジング処理が完了した際にデータクレンジング処理部310によって起動される。そして、この木構造探索処理部320が木構造パス探索部321を起動することで、木構造階層コード取得処理が実行される。
木構造パス探索部321は、カタログコンテンツ編集データ211内の項目名データおよび項目値データの組合せを抽出する。そして、この項目名データおよび項目値データの組合せにより木構造階層コード辞書DB351内の項目名および項目値の組合せを検索し、対応する木構造階層コードを取得する(ステップS32111)。例えば、カタログコンテンツ編集データ211内の項目名データ「種別」と項目値データ「LCDモジュール」の組合せにより木構造階層コード辞書DB351を検索した場合、「A1」という木構造階層コードを取得することができる。なお、検索の結果、一致する項目名および項目値データの組合せがなければ、空白(NULL)が取得される。
木構造パス探索部321が木構造階層コードを取得すると、カタログコンテンツ編集データ211に対して項目名データおよび項目値データの組合せに対応させてこの木構造階層コードを追加したカタログコンテンツ編集データ212を得る(ステップS32112)。
【0042】
続いて、カタログコンテンツ編集データ211内の全ての項目名データおよび項目値データの組合せについて、木構造階層コードの検索および取得を行い、カタログコンテンツ編集データ212の編集が終了したか否かを判断する(ステップS32113)。未実施の項目名データおよび項目値データの組合せがある場合には、次の項目名データおよび項目値データの組合せについて再びステップS32111からの処理を実行し、木構造階層コードの検索および取得、カタログコンテンツ編集データ212の編集を繰り返し実施する。
そして、ステップS32113において、全ての項目名データおよび項目値データの組合せについて木構造階層コードの検索、取得を完了したと判断した場合には、以下に示す木構造階層情報取得処理を実行する。
【0043】
図4は、木構造パス探索部321における木構造階層情報取得処理の動作手順を示す図である。木構造階層情報取得処理では、カタログコンテンツが属するべき木構造の分類の階層パスの候補を抽出する。
木構造パス探索部321は、カタログコンテンツ編集データ212(図3)内の木構造階層コードにより木構造階層辞書DB352を検索し、最下層フラグを取得する(ステップS32121)。例えば、カタログコンテンツ編集データ212内の項目名データ「種別」および項目値データ「LCDモジュール」に対応する木構造階層コード「A1」により木構造階層辞書DB352の検索を行った場合、最下層フラグ「0」を取得する。そして、カタログコンテンツ編集データ212に対してこの木構造階層コードに対応させて取得した最下層フラグを付加したカタログコンテンツ編集データ213を得る。
【0044】
次に、木構造パス探索部321は、取得した最下層フラグが「1」であるか否かを判断する(ステップS32122)。そして、取得した最下層フラグが木構造階層コードが木構造の最下層ノードであることを示す「1」の場合は、木構造の階層パスの探索処理を行う(ステップS32123)。
一般的にカタログコンテンツデータは、カテゴリ分類を構成する木構造の最下層ノードに属する。例えば、「赤鉛筆」という製品は「文具・鉛筆」という木構造ノードにおける「鉛筆」ノードに属するものであり、「文具」ノードは「鉛筆」ノードを含む最下層ノード群の上位(親)ノードである。これは、カタログコンテンツデータが属するべき木構造階層パスを探索する場合、カタログコンテンツ編集データ213内の各項目データ(カタログコンテンツデータ)に付与されている木構造階層コードのうち最下層ノードを選定し、この最下層ノードから順に上位階層ノードを探索していくことで、効率的に木構造階層パスを決定することができるということである。
【0045】
ステップS32123において、木構造パス探索部321は、始めに最下層フラグが「1」のカタログコンテンツ編集データ213内の木構造階層コードにより木構造階層辞書DB352を検索し、親階層コードを取得する。次に取得した親階層コードと、木構造階層辞書DB352内の木構造階層コードが一致するレコードの親階層コードを取得する。木構造パス探索部321は、この処理を、親階層コードの値が最上位ノードであることを表す「ROOT」になるまで繰り返し行うことにより、最下層ノードから最上位ノード「ROOT」までの階層パスを探索する。
例えば、最下層フラグが「1」であるカタログコンテンツ編集データ213内の木構造階層コード「A10201」により木構造階層辞書DB352内の木構造階層コードを検索し、親階層コード「A102」を取得する。次に、取得した親階層コード「A102」により、木構造階層辞書DB352内の木構造階層コードを検索し、親階層コード「A1」を取得する。さらに、取得した親階層コード「A1」により、木構造階層辞書DB352内の木構造階層コードを検索し、親階層コード「ROOT」を取得する。これによって最下層ノード「A10201」から最上位ノード「ROOT」までの階層パス「ROOT・A1・A102・A10201」を探索することができる。
【0046】
木構造パス探索部321は、最下層ノードから最上位ノードまでの階層パスの探索が完了すると、カタログコンテンツ編集データ213内の全ての木構造階層コードが最下層ノードであるか否かの確認と、最下層ノードである全ての木構造階層コードについて最上位ノードまでの階層パスの探索を実施したか否かを判断する(ステップS32124)。未実施の最下層ノードであるか否かの確認、あるいは、最下層ノードから最上位ノードまでの階層パスの探索がある場合には、再びカタログコンテンツ編集データ212内の次の木構造階層コードについて、ステップS32121からの処理を実施する。
【0047】
図5は、図4の続きの動作手順を示す。
図5のステップS32124において、木構造パス探索部321が全ての木構造階層コードについて最下層ノードであるか否かの確認、および、最下層ノードから最上位ノードまでの階層パスの探索が完了したと判断した場合すると、抽出したカタログコンテンツが属するべき木構造の階層パスの各候補についてその妥当性を確認する(ステップS32125)。これは、ステップS32123において抽出された階層パスの各候補の最上位ノードから最下層ノードまでの各ノードを表す木構造階層コードが、カタログコンテンツ編集データ213内に含まれている木構造階層コードと一致するか否かを検証することによって行うことができる。一致しない場合は、カタログコンテンツ編集データ213を構成する項目名データと項目値データの組合せがこの階層パスの構成とは異なることを意味し、カタログコンテンツが属するべきではない、不適合な階層パスであるということを示す。
【0048】
木構造パス探索部321は、まず、階層パスの最上位ノードの1つ下位ノードが、カタログコンテンツ編集データ213内の木構造階層コードに含まれていることを確認する。この下位ノードがカタログコンテンツ編集データ213内の木構造階層コードに含まれていない場合は、不適合な階層パスということになる。最上位ノード(ROOT)の下位ノードがカタログコンテンツ編集データ213内の木構造階層コードに含まれている場合は、更にその下位ノードがカタログコンテンツ編集データ213内の木構造階層コードに含まれていることを確認する。この処理を最下層ノードまで繰り返し実施することでカタログコンテンツが属するべき階層パスを抽出する。
【0049】
例えば、階層パス1については、各ノードを表す木構造階層コード「A1」「A102」「A10201」が全てカタログコンテンツ編集データ213内の木構造階層コードに含まれているため、カタログコンテンツが属するべき階層パスと判断される。また、階層パス2は各ノードを表す木構造階層コード「A2」「A202」「A20201」の内、最上位ノードの下位ノードである「A2」がカタログコンテンツ編集データ213内の木構造階層コードに含まれていないため、不適合な階層パスということになる。
木構造パス探索部321は、階層パスの全候補について、適合の確認を完了すると、処理を完了し、木構造項目整理部322を起動する。
【0050】
図6は、木構造項目整理部322における木構造項目情報取得処理の動作手順を示す図である。この木構造項目情報取得処理では、カタログコンテンツが属するべき階層パスに付随する項目を取得する。そして、後述する木構造項目構成処理において、この取得した項目により、カタログコンテンツ編集データ213内の各項目に対して、階層パス(カテゴリ分類)に合せた項目値データのフォーマット変換(データクレンジング)や項目名データおよび項目値データの要・不要の判断を実施する。すなわち、ここでは、カタログコンテンツが属するべき階層パスに合せたカタログコンテンツデータを生成するための準備を実施する。
【0051】
木構造項目整理部322は、カタログコンテンツが属するべき階層パスを構成する各ノードを表す木構造階層コードにより木構造項目辞書DB353を検索し、品目情報コード、項目名、新単位からなる木構造項目抽出結果を取得する(ステップS32211)。
例えば、カタログコンテンツが属するべき階層パスの各ノードの木構造階層コードが「A1」、「A102」、および、「A10201」であった場合を想定する。このとき、木構造階層コード「A1」に対応して、取得した品目情報コード「IC0001」、項目名「種別」、および、新単位「NULL」からなる木構造項目抽出結果と、品目情報コード「IC0002」、項目名「CN0010」、および、新単位「NULL」からなる木構造項目抽出結果が得られる。また、木構造階層コード「A102」に対応して、品目情報コード「IC0011」、項目名「表示形態」、および、新単位「NULL」からなる木構造項目抽出結果と、品目情報コード「IC0012」、項目名「品名」、および、新単位「NULL」からなる木構造項目抽出結果が得られる。さらに、木構造階層コード「A10201」に対応して、品目情報コード「IC0111」、項目名「重量」、および、新単位「g」からなる木構造項目抽出結果と、品目情報コード「IC0112」、項目名「CN0011」、および、新単位「NULL」からなる木構造項目抽出結果が得られる。
木構造項目整理部322は、階層パスの全ノードの木構造階層コードについて木構造項目抽出結果の取得が完了すると、木構造項目構成処理を起動する。
【0052】
図7は、木構造項目整理部322における木構造項目構成処理の動作手順を示す図である。
ステップS32221において、木構造項目整理部322は、カタログコンテンツ編集データ213内の項目名データと、ステップS32211で抽出した木構造項目抽出結果内の項目名データとを比較する。そして、一致する項目名データと、この項目名データに対応するカタログコンテンツ編集データ213内の項目値データおよび単位データと、木構造項目抽出結果内の項目名コードおよび新単位データとから、カタログコンテンツ編集データ214を編集する。
この処理を通して、後述する単位変換処理(図8)において必要とされる各項目名データに対応した項目名コードを取得するとともに、カタログコンテンツが属するべき階層パス内で統一した新単位データを取得する。併せて、木構造項目抽出結果内に含まれないカタログコンテンツ編集データ213内のカタログコンテンツデータを取得対象外とすることにより、カタログコンテンツが属するべき階層パスにおいて必要な項目のみからなるカタログコンテンツ編集データ214を作成することができる。
例えば、カタログコンテンツ編集データ213内の項目名データ「CN0099」は、木構造項目抽出結果内の項目名データとは一致しない。これは、カタログコンテンツが属するべき階層パスの各ノードを表す木構造階層コード「A1」「A102」「A10201」では不要の項目であることを意味し、カタログコンテンツ編集データ214においては、格納対象外としている。
【0053】
木構造項目整理部322は、カタログコンテンツ編集データ213内の全ての項目名データについてステップS32221の処理を実施したか否かを判断する(ステップS32222)。未実施の項目名データがある場合は、再びステップS32221を実施する。全ての項目名データについてステップS32221の実施を完了すると、単位変換部323を起動する。
【0054】
図8は単位変換部323における単位変換処理の動作手順を示す図である。単位変換処理では、カタログコンテンツ編集データ214内の各単位データを、階層パスでルール化し、統一した単位データにフォーマット変換(データクレンジング)する。
単位変換部323は、カタログコンテンツ編集データ214内の単位データおよび新単位データの組合せにより単位変換辞書DB343内の単位および新単位の組合せの検索を行い、倍率データを取得する(ステップS32311)。例えば、カタログコンテンツ編集データ214内の単位データ「g」および新単位データ「kg」の組合せにより単位変換辞書DB343内の検索を行い、倍率データ「0.001」を取得する。このとき、カタログコンテンツ編集データ214内の単位データが空白(NULL)である場合には、検索の対象外となる。
【0055】
単位変換部323は、カタログコンテンツ編集データ214内の全ての単位データと新単位データの組合せについて、単位変換辞書DB343からの倍率データを取得すると、取得した倍率データとカタログコンテンツ編集データ214内の該当列の項目値データとを乗算し、新単位データに対応した項目値データへと変換したカタログコンテンツ編集データ215を得る(ステップS32312)。例えば、カタログコンテンツ編集データ214内の単位データ「g」と新単位データ「kg」の組合せの列の項目値データ「100」とステップS32311で取得した倍率データ「0.001」を乗算することで「0.1」を算出し、項目値データ「100」を算出した「0.1」で置き換える。
【0056】
単位変換部323は、カタログコンテンツ編集データ214内の該当列の項目値データについて項目値データの単位変換を完了すると、カタログコンテンツ編集データ214内の単位データと新単位データの全ての組合せについて倍率データの取得および項目値データの変換を行ったか否かを判断する(ステップS32313)。未実施の組合せがある場合はステップS32311に戻り、倍率データの取得およびカタログコンテンツ編集データ214内の項目値データの変換を実施する。カタログコンテンツ編集データ214内の単位データと新単位データの全ての組合せについてデータ変換の実施が完了すると単位変換処理323を終了し、項目値データ変換処理を起動する。
【0057】
図9は項目値データ変換部324における項目値データ変換処理の動作手順を示す図である。項目値データ変換処理では、カタログコンテンツが属するべき階層パスに合せたカタログコンテンツデータへとフォーマット変換(データクレンジング)するために、カタログコンテンツ編集データ215内の各項目値データを、階層パスでルール化された表現の項目値データにフォーマット変換(データクレンジング)する。
【0058】
項目値データ変換部324は、カタログコンテンツ編集データ215内の項目値データと項目名コードの組合せにより項目値変換辞書DB344を検索し、新項目値データを取得する(ステップS32411)。例えば、カタログコンテンツ編集データ215内の項目値データ「青」と項目名コード「IC0112」の組合せにより項目値変換辞書DB344を検索した場合には、新項目値データ「BLUE」が取得される。
【0059】
項目値データ変換部324は、カタログコンテンツ編集データ215内の項目値データと項目名コードの組合せについて、項目名変換辞書DB344から新項目値データを取得すると、カタログコンテンツ編集データ215内の項目値データを取得した新項目値データへと置き換え、カタログコンテンツ編集データ216を得る(ステップS32412)。例えば、カタログコンテンツ編集データ215内の項目名コード「IC0112」の項目値データ「青」を、ステップS32411で取得した新項目値データ「BLUE」に置き換える。
【0060】
項目値データ変換部324は、ステップS32411で取得した全ての新項目値データについて項目値データのフォーマット変換を完了すると、カタログコンテンツ編集データ215内の項目値データと項目名コードの全ての組合せについて、新項目値データを取得し、項目値データのフォーマット変換を行ったか否かを判断する(ステップS32413)。
カタログコンテンツ編集データ215内の項目値データと項目名コードの組合せで未実施の組合せがある場合は、ステップS32411からの処理を繰り返す。一方、全ての項目値データと項目名コードの組合せについてデータ変換が完了し、カタログコンテンツ編集データ216の編集が完了すると、項目値データ変換処理を終了するとともに、木構造探索処理部320の終了処理を起動する。
【0061】
木構造探索処理部320は終了処理が起動されると、フォーマット変換データファイル作成部330を起動する。
フォーマット変換データファイル作成部330は、準拠すべき標準やルールのフォーマットに従い、XML形式など所定のファイル形式により、カタログコンテンツ編集データ216内に示される木構造のノードに付随する項目(カタログコンテンツデータ)や、このカタログコンテンツが属する木構造のノード(分類)を示す木構造階層コードまたは木構造階層名などの木構造の情報などを記述したフォーマット変換データファイル220を作成する。この木構造のノードに付随する項目には、このカタログコンテンツが属する木構造のノードで統一された項目名データ、項目値データ、単位が用いられることになる。また、フォーマット変換データファイル220には、木構造のノードに付随する項目以外にも、カタログコンテンツデータファイル210、あるいは、カタログコンテンツデータファイル210にデータクレンジングを行った結果であるカタログコンテンツ編集データ211内の項目を適宜付加してもよいし、あるいは、カタログコンテンツデータファイル210と相互にリンクさせてもよい。
生成されたフォーマット変換データファイル220は、カタログコンテンツデータ管理サーバ100へ返送される。
【0062】
なお、標準や表記ルール毎に項目名変換辞書DB341、項目追加辞書DB342、項目値変換辞書DB344、木構造階層コード辞書DB351、木構造階層辞書DB352、および、木構造項目辞書DB353を保有することにより、任意の標準や表記ルールに従ったフォーマット変換を行うことができる。このとき、準拠すべき標準や表記ルールは、カタログコンテンツデータ管理サーバ100から指示を受信することでもよいし、あるいは、カタログコンテンツデータファイル210内に記述することなどでもよい。
【0063】
上記実施の形態によれば、カタログコンテンツデータ管理サーバ100からネットワークNを介して取得したカタログコンテンツデータファイル210内のカタログコンテンツデータを基に、このカタログコンテンツが属するべき木構造のカテゴリ分類の情報を付与することが出来る。
また、受信したカタログコンテンツデータファイルを、カテゴリ分類毎に統一した項目や単位へフォーマット変換することができる。これにより、例えば、「文具・鉛筆」という分類に属する製品の長さを表す単位は「mm(ミリメートル)」、「オフィス家具・机」という分類に属する製品の幅を表す単位は「cm(センチメール)」など、各カタログコンテンツが属するカテゴリ分類毎に、項目値データの単位を統一したり、項目(カタログコンテンツデータ)を統一することができる。
また、木構造項目辞書DB353に木構造階層コードをキーとしてカタログコンテンツが属するべき階層パスに必要な項目のレコードを追加し、単位変換処理323や項目値データ変換324と同様のフォーマット変換処理(データクレンジング処理)を組み込むことで、市場にある各種標準化フォーマットへのフォーマット変換要件に対して柔軟性・可用性に富んだカタログコンテンツフォーマット変換サーバ300を実現することができる。
更に、木構造辞書DB350を基点にデータクレンジング辞書DB340のデータメンテナンスを行うことで、準拠すべき標準や変換ルールを意識したメンテナンスが可能となり、各種辞書DBのメンテナンス効率を挙げることも可能となる。
【0064】
なお、上述のカタログコンテンツデータ管理サーバ100、および、カタログコンテンツフォーマット変換サーバ300は、内部にコンピュータシステムを有している。そして、上述した動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、OSや周辺機器等のハードウェアを含むものである。
【0065】
また、「コンピュータ読み取り可能な記録媒体」とは、ROMの他に、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のシステムやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0066】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0067】
【発明の効果】
この発明によれば、フォーマット変換対象のカタログコンテンツデータファイル内のカタログコンテンツデータを基に、このカタログコンテンツが属するべき木構造のカテゴリ分類の情報を付与することが出来る。
また、カタログコンテンツデータファイルを、各カタログコンテンツが属するカテゴリ分類毎に統一した項目や項目値、単位へとフォーマット変換することができる。
また、各種データベースへデータを追加することで、市場にある各種標準化フォーマットへのフォーマット変換要件に対して柔軟性・可用性に富んだフォーマット変換装置を提供することができる。
【図面の簡単な説明】
【図1】この発明の一実施の形態によるフォーマット変換装置を用いたカタログコンテンツフォーマット変換システムの概要を説明するための図である。
【図2】同実施の形態によるカタログコンテンツフォーマット変換システムの構成を示すブロック図である。
【図3】同実施の形態による木構造階層コード取得処理の動作手順を示す図である。
【図4】同実施の形態による木構造階層情報取得処理の動作手順を示す図である。
【図5】同実施の形態による木構造階層情報取得処理の動作手順の続きを示す図である。
【図6】同実施の形態による木構造項目情報取得処理の動作手順を示す図である。
【図7】同実施の形態による木構造項目構成処理の動作手順を示す図である。
【図8】同実施の形態による単位変換処理の動作手順を示す図である。
【図9】同実施の形態による項目値データ変換処理の動作手順を示す図である。
【符号の説明】
100…カタログコンテンツデータ管理サーバ
300…カタログコンテンツフォーマット変換サーバ(フォーマット変換装置)
310…データクレンジング処理部
311…項目名データ変換部
312…データ追加部
320…木構造探索処理部
321…木構造パス探索部
322…木構造項目整理部
323…単位変換部
324…項目値データ変換部
330…フォーマット変換データファイル作成部
340…データクレンジング辞書DB
341…項目名変換辞書DB
342…項目追加辞書DB
343…単位変換辞書DB
344…項目値変換辞書DB
350…木構造辞書DB
351…木構造階層コード辞書DB(ノード識別辞書データベース)
352…木構造階層辞書DB(階層辞書データベース)
353…木構造項目辞書DB(ノード項目辞書データベース)[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a content file format conversion apparatus and method, and a computer program.
[0002]
[Prior art]
In recent years, electronic commerce (BtoB) between companies has become popular, and the electronic procurement rate in the electronic information equipment industry and the like has also increased. In this electronic commerce, a digitized product catalog (hereinafter, also referred to as “catalog content” or “electronic catalog”) occupies an important position when selecting a product. However, at present, catalog contents provided by each company are inconsistent in the format format, items that specify product specifications, words that indicate item names, and notation methods of tables and sentences, which hinder the spread of electronic commerce. I have. Therefore, various standardization organizations are promoting the standardization of the description format of the electronic catalog, and the manufacturer must supply an electronic catalog corresponding to these various standard formats.
[0003]
On the other hand, when converting catalog content managed in a format such as item name data or unit data for each manufacturer or the like into a unified format such as a standard, the following forms are taken (for example, see Patent Document 1). 1-4).
(1) If the item name data and item value data in the catalog content to be format-converted match the item name data and item value data managed in the item name conversion rule dictionary, the item conversion rule dictionary Format conversion is performed by rewriting the registered item name data after format conversion.
(2) (1) Similarly, in the format conversion to the category classification of the tree structure to which the catalog content belongs, the tree structure data in the catalog content to be format-converted is the data registered in the tree structure conversion rule dictionary. When the values match, the format conversion is performed by rewriting the converted tree structure data registered in the tree structure conversion rule dictionary.
(3) When format conversion of unit data such as “g (gram)” to “kg (kilogram)” is performed, the format conversion is performed using the conversion magnification registered in the unit conversion rule dictionary. By performing numerical processing on the numerical data, the format conversion of the unit data and the numerical data accompanying the unit data is performed.
(4) If the data value in the catalog content to be format-converted matches the data value managed in the conversion rule dictionary as in (1), (2) and (3), register it in this conversion rule dictionary The format conversion is performed by performing a single conversion process such as rewriting the converted data value into a converted data value or performing a calculation process using a conversion magnification registered in the conversion rule dictionary.
(5) Further, a database of conversion rule dictionaries for format-converting a plurality of patterns of data into unique data for each user or each product type is provided.
[0004]
[Patent Document 1]
JP-A-2002-108667
[Patent Document 2]
JP-A-2001-202450
[Patent Document 3]
JP-A-11-85836
[Patent Document 4]
JP-A-10-340269
[0005]
[Problems to be solved by the invention]
The conventional technique described above is specialized in a format conversion process (data cleansing process) in which item name data and item value data are converted according to a conversion rule dictionary. As a result, the conventional technique has the following problems.
(1) Since it is assumed that the hierarchical path information of the category classification of the tree structure to which the product data should belong is described in this product data, if the classification information to which the product data belongs is not defined, data cleansing is performed. It will not be processed.
(2) When the classification to which the product data belongs is described in the product data, the data cleansing process is performed on the classification information in the product data according to the conversion rule dictionary. This is based on the premise that the data cleansing process of the related art is appropriate for the classification information described in the product data. That is, even when the validity is lacking, the data cleansing process is performed according to the classification information described in the product data.
(3) Originally, item value data to be expressed is determined for each category to which each product data belongs. For example, the unit representing the length of a product belonging to the class "stationery / pencil" is "mm (millimeter)", and the unit representing the width of the product belonging to the category "office furniture / desk" is "cm (centimeter)". And However, in the conventional technology, when format conversion of unit data is performed, if a rule for converting "cm" to "mm" is registered in the conversion rule dictionary, the length of a product belonging to the classification "stationery / pencil" is represented. The unit data and the unit data indicating the width of the product belonging to the category of "office furniture / desk" are converted to "mm" through data cleansing processing, and the unit data of the converted product data is all expressed in "mm" become. This means that the format has not been converted into the item value data to be represented in each class in consideration of the plural classes.
[0006]
The present invention has been made in view of such circumstances, and has as its object to create a tree indicating the classification to which this catalog content belongs, based on the item name data and item value data of the product data constituting the catalog content. It is an object of the present invention to provide a format conversion apparatus and method capable of allocating node information of a structure and performing format conversion to an item corresponding to an assigned node of a tree structure and a data value of a corresponding expression, and a computer program. .
[0007]
[Means for Solving the Problems]
SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problem, and an invention according to claim 1 is a format for converting a content data file including content data including data of an item name and its value into a predetermined format. A conversion device, which converts item name data in the content data file into item name data used in a unified manner in the format, and complements content data used in the format to the content data file. Means for searching for the node to which the content belongs in a hierarchical node indicating the classification of the content based on the content data in which the data cleansing means has unified the item name data and supplemented the content data. Means. A format converter according to symptoms.
[0008]
According to a second aspect of the present invention, there is provided a format conversion apparatus for converting a content data file including content data including an item name and a value thereof into a predetermined format, wherein the format conversion is performed in a hierarchical manner indicating a classification of the content. A node identification dictionary database that stores the identification information of the nodes corresponding to the content data, a hierarchical dictionary database that stores the association between the nodes, and an identification information of the node corresponding to the content data of the content data file. A format conversion apparatus, comprising: a path search unit that obtains from a node identification dictionary database, and searches a node to which the content belongs from the identification information of the node and the hierarchical dictionary database.
[0009]
According to a third aspect of the present invention, there is provided the format conversion apparatus according to the second aspect, wherein the item name data used in the content data in the content data file and the item name data used in the format are stored in the format conversion device. The item name conversion dictionary database that stores the correspondence, the item addition dictionary database that stores content data to be complemented, and the item name conversion dictionary database are referred to, and the item name data in the content data file is written in the format. Item name data conversion means for converting item name data to be used unifiedly, and data addition means for complementing content data used in the format to the content data file based on the item addition dictionary database are further provided. , The path search means unifies the item name data and Acquiring identification information of the node corresponding to the content data subjected to the complement content data from said node identification dictionary database, and wherein the.
[0010]
According to a fourth aspect of the present invention, there is provided the format conversion apparatus according to the second or third aspect, further comprising: a node item dictionary database for storing information on items associated with the nodes; An item arranging means for acquiring information on an item associated with the node to which the content belongs from the database and extracting content data corresponding to the information on the item acquired from the content data; And a format conversion data file creating means for creating a content data file according to the format.
[0011]
According to a fifth aspect of the present invention, there is provided the format conversion apparatus according to the fourth aspect, wherein the node item dictionary database further stores information on a unit used for an item associated with the node. The organizing unit further obtains, from the node item dictionary database, information on a unit used for an item associated with the node to which the content belongs, and the unit conversion unit obtains item value data of the content data based on the obtained unit information. It is characterized in that data of a unit attached to the item value data is converted.
[0012]
According to a sixth aspect of the present invention, there is provided the format conversion apparatus according to any one of the second to fifth aspects, further comprising an item for storing item value data used in an item associated with the node. A value conversion dictionary database and item value data conversion means for converting item value data in the content data into item value data used in an item associated with a node to which the content belongs with reference to the item value conversion dictionary database And characterized in that:
[0013]
The invention according to claim 7 is a format conversion method for converting a content data file including content data composed of data of an item name and its value into a predetermined format, wherein a hierarchical format indicating a classification of the content is provided. A node identification dictionary database for storing the identification information of the nodes corresponding to the content data, a hierarchical dictionary database for storing the relation between the nodes, and a node item dictionary database for storing information on items associated with the nodes. Preparing, acquiring identification information of a node corresponding to the content data of the content data file from the node identification dictionary database, searching for the node to which the content belongs from the identification information of the node and the hierarchical dictionary database, The item searched from the item dictionary database Content information corresponding to the acquired item information is obtained from the content data of the content data file, and the content data in accordance with the format is extracted based on the extracted content data. This is a format conversion method characterized by generating a content data file.
[0014]
According to another aspect of the present invention, there is provided a computer program for use in a format conversion apparatus for converting a content data file including content data including an item name and a value thereof into a predetermined format. Acquiring node identification information corresponding to the content data of the content data file from a node identification dictionary database storing identification information of the hierarchized nodes indicating the content data in association with the content data; Searching for the node to which the content belongs from the hierarchical dictionary database to be stored and the identification information of the acquired node; and searching the node to which the searched content belongs from the node item dictionary database to store the information of the items attached to the node. Accompanying item information Acquiring, extracting, from the content data of the content data file, content data corresponding to the information of the acquired item, and generating a content data file according to the format based on the extracted content data. Are executed by a computer.
[0015]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram for explaining an outline of a catalog content format conversion system using a format conversion device according to an embodiment of the present invention.
The catalog content format conversion server 300 acquires a file (catalog content data file 210) of a product specification (catalog content) provided by the manufacturer. The catalog content data file 210 includes data of item names and their values (hereinafter, “item values”), and includes a plurality of items (catalog content data) indicating product information such as product names and classifications, various specifications, and specifications. ). In addition, the unit can be attached to the item value. The catalog content format conversion server 300 allocates the classification to which the catalog content indicated by the tree structure belongs to the obtained catalog content data file 210 so as to conform to a predetermined standard or notation rule, and converts the format. (Format conversion data file 220) is returned. Therefore, the catalog content format conversion server 300 performs data cleansing on the catalog content data file 210, that is, unification of item name data and complement of the catalog content data according to the format to be output. Then, based on the catalog content data that has been data-cleansed, a category to which the catalog content belongs, that is, a tree-structured node is assigned, and a unit of the item value (a metric unit used for the quantity of the state of the object) and the item value Perform data conversion.
Note that the tree structure is a data structure that starts from one node called a root (root), repeatedly branches into lower nodes in a hierarchical manner, and spreads so that the tree extends the branch. Among connected nodes, a node close to root (upper) is called a parent, and a node not close to root (lower) is called a child. However, one node can have only one parent node. That is, in the tree structure, there is only one way from one node to another node. For example, an XML (extensible markup language) document always has a tree structure when drawn as a combination of nodes.
[0016]
FIG. 2 is a block diagram showing the configuration of the catalog content format conversion system according to one embodiment of the present invention.
The catalog content data management server 100 is connected to the catalog content format conversion server 300 via a public network such as the Internet, a private network such as a LAN (Local Area Network) or a VPN (Virtual Private Network). Then, it has a function of converting a file of a product specification (catalog content) in which product information is described into a file format used by the catalog content format conversion server 300, and generating a catalog content data file 210. For example, a catalog content data file described in a PDF format, an HTML (hypertext markup language) format, a csv format, or the like is converted into a catalog content data file 210 in an XML format. Further, it has a function of transferring the catalog content data file 210 to the catalog content format conversion server 300 via the network N.
[0017]
The catalog content format conversion server 300 is a server as a format conversion device, and includes a data cleansing processing unit 310, a tree structure search processing unit 320, a format conversion data file creating unit 330, and a data cleansing dictionary database (hereinafter, “DB”) 340. , And a tree structure dictionary DB 350. Then, data is transmitted / received to / from the catalog content data management server 100 via the network N.
[0018]
The data cleansing dictionary DB340 includes an item name conversion dictionary DB341, an item addition dictionary DB342, a unit conversion dictionary DB343, and an item value conversion dictionary DB344.
The item name conversion dictionary DB 341 stores correspondence between item name data that can be used in each catalog content data and item name data that should be used unifiedly.
The item addition dictionary DB 342 stores the item name data (additional item name), the item value data (additional item value), and the unit (additional unit) of the item value of the catalog content data to be supplemented to the catalog content data file 210. I remember the list.
The unit conversion dictionary DB 343 stores conversion rules (magnifications) for item values when converting units of item values.
The item value conversion dictionary DB 344 stores correspondence between item value data that can be used in catalog content data and item value data that should be used in a unified manner, for each item name identification information (item name code).
[0019]
The tree structure dictionary DB 350 includes a tree structure hierarchy code dictionary DB 351, a tree structure hierarchy dictionary DB 352, and a tree structure item dictionary DB 353.
The tree structure hierarchy code dictionary DB 351 stores a tree structure hierarchy code that is identification information of a node to which a combination of item name data and item value data belongs.
The tree structure hierarchy dictionary DB 352 includes a tree structure hierarchy code, a tree structure hierarchy code of the next higher node (parent hierarchy code), information indicating whether or not the node is the lowest (lowest layer flag), and the name of the node. Is stored in association with a tree structure hierarchical name.
The tree structure item dictionary DB 353 includes a tree structure hierarchy code, an item name code (item information code) for identifying an item name related to this node (hierarchy), item name data, and an item value to be used for this item. (New unit) in association with each other.
[0020]
The data cleansing processing unit 310 includes an item name data conversion unit 311 and a data addition unit 312.
The item name data conversion unit 311 has a function of converting item name data in the catalog content data file 210 into unified item name data based on the item name conversion dictionary DB 341.
The data adding unit 312 has a function of supplementing the catalog content data file 210 with necessary catalog content data based on the item addition dictionary DB 342.
[0021]
The tree structure search processing unit 320 includes a tree structure path search unit 321, a tree structure item arrangement unit 322, a unit conversion unit 323, and an item value data conversion unit 324.
The tree structure path search unit 321 uses a tree structure hierarchical code based on the catalog content data file 210 obtained by unifying and complementing the item name data necessary for searching and assigning node information by the data cleansing processing unit 310. With reference to the dictionary DB 351 and the tree structure hierarchical dictionary DB 352, a function is provided for searching for a tree structure hierarchical path to which this catalog content belongs.
The tree structure item organizing unit 322 refers to the tree structure item dictionary DB 353, and obtains information on the tree structure item that is the catalog content data associated with the nodes constituting the hierarchical path obtained by the tree structure path search unit 321.
The unit conversion unit 323 refers to the unit conversion dictionary DB 343, and performs conversion of the item value data value accompanying the conversion into the unit to be used in the node of the tree structure to which the catalog content belongs. For example, when the unit data is converted from "cm" to "mm" with respect to the data value "10" accompanying the unit data "cm", the item data value is converted from "10" to "100". .
The item value data conversion unit 324 refers to the item value conversion dictionary DB 344 and converts the item value data into item value data of a unified expression.
[0022]
The format conversion data file creation unit 330 allows the tree structure search processing unit 320 to assign tree-structured node information to each catalog content data in the catalog content data file 210 and to convert unit and item value data associated with the node information. Is stored in the format conversion data file 220.
[0023]
Table 1 shows a configuration example of the item name conversion dictionary DB 341.
[Table 1]
Figure 2004341605
[0024]
In Table 1, the item name data of “product name”, “product name”, and “product name” are unified item name data of “article name” shown in “conversion item name”, and “gross weight” , "Weight" corresponds to the unified item name data "weight" shown in "conversion item name", and so on.
[0025]
Table 2 shows a configuration example of the item addition dictionary DB 342.
[Table 2]
Figure 2004341605
[0026]
In Table 2, if the item name data is “company name”, and if the item value data is “A corporation”, the item name data is “company code”, the item value data is “00001”, and the unit is “NULL”. )) Is added. Similarly, if the item value data is “B Corporation”, the item name data “company code”, the item value data “00002”, the catalog content data of the unit “none (NULL)”, and the item value data "C Co., Ltd." indicates that item name data "company code", item value data "00003", and catalog content data in the unit "NULL" are to be supplemented.
[0027]
Table 3 shows a configuration example of the unit conversion dictionary DB 343.
[Table 3]
Figure 2004341605
[0028]
In Table 3, when the current unit is “g (unit)” and the converted unit is “kg (new unit)”, the item value data is multiplied by “0.001 (magnification)”. Which indicates that. Also, when the current unit is “m” or “cm” and the unit after conversion is “mm”, the item value data is multiplied by “10000” and “10”, respectively. ing. If the current unit is “NULL” (no unit is assigned), it indicates that there is no unit conversion (NULL) and that the item value is not converted (NULL).
[0029]
Table 4 shows a configuration example of the item value conversion dictionary DB 344.
[Table 4]
Figure 2004341605
[0030]
In Table 4, when the “item name code” is “IC0112” and the item value data is “blue”, the item value data is “red” in “BLUE” indicated by “new item value”. Indicates that it is converted to “RED”. Similarly, when the “item name code” is “IC0113” and the item value data is “for clock”, it indicates that it is converted to “clock (new item value)”.
[0031]
Table 5 shows a configuration example of the tree structure hierarchical code dictionary DB 351.
[Table 5]
Figure 2004341605
[0032]
In Table 5, the combination of the item name data “type” and the item value data “LCD module” is such that the “tree structure hierarchical code” of the corresponding node is “A1”, and the item name data “type” and the item value data The combination of “SC0001” indicates that the corresponding “tree structure hierarchical code” is “A2”. Further, the combination of the item name data “display mode” and the item value data “reflection type” indicates that the corresponding “tree structure hierarchical codes” are “A102” and “A103”. Further, when the combination of the item name data and the item value data is “CN0010” and “A000001” and “CN0011” and “blue”, it indicates that the corresponding “tree structure hierarchical code” is “A10241”. ing. Similarly, the combination of the item name data “CN0099” and the item value data “Z000001” indicates that the corresponding “tree structure hierarchical code” is “A20201”, and so on.
[0033]
Table 6 shows a configuration example of the tree structure hierarchy dictionary DB 352.
[Table 6]
Figure 2004341605
[0034]
In Table 6, there is no parent hierarchy of the hierarchy whose “tree structure hierarchy code” is indicated by “ROOT” (“parent hierarchy code” is “NULL”), and it is not the lowest hierarchy of the tree structure (“most The lower layer flag is “0”), and the “tree structure hierarchical name” is “ROOT”. Also, the “parent hierarchy code” of the hierarchy indicated by “A1” or “A2” in the “tree structure hierarchy code” is “ROOT”, which is not the lowest layer of the tree structure. It is shown that the “tier name” is “TN000A1” and “TN000A2”. Similarly, the “hierarchical tree code” is “A102”, or the “parent hierarchical code” of the hierarchy indicated by “A103” is “A1”, which is not the lowest layer of the tree structure. It is shown that the “tier name” is “TN000A102” and “TN000A103”. Further, the “parent hierarchy code” of the hierarchy whose “tree structure hierarchy code” is indicated by “A10201” is “A102”, which is the lowest level of the tree structure (“lowest level flag” is “1”); The “tree structure hierarchy name” is “TN000A10201”, and the “parent hierarchy code” of the hierarchy whose “tree structure hierarchy code” is indicated by “A20201” is “A202”, which is the lowest layer of the tree structure. , "Tree structure hierarchical name" is "TN000A20201", and so on.
[0035]
Table 7 shows a configuration example of the tree structure item dictionary DB 353.
[Table 7]
Figure 2004341605
[0036]
In Table 7, the hierarchy (node) whose “tree structure hierarchy code” is “A1” is identified by the item information code “IC0001”, the item name data is “type”, and the unit is “NULL”,. (Catalog content data) and an item identified by the item information code “IC0002”, the item name data of which is “CN0010”, the unit of which is “NULL”,... Is indicated by an item information code “IC0003”, and an item whose item name data is “type” and whose unit is “NULL”,... Also, in the hierarchy in which the “tree structure code hierarchy code” is “A102”, items identified by the item information code “IC0011”, the item name data of which is “display mode”, and the unit of “NULL”,. , The item information code is “IC0012”, the item name data is “item name”, the unit is “NULL”,..., And the “tree structure code layer code” is “A103”. Indicates that the item identified by the item information code “IC0013” is accompanied by an item whose item name data is “display mode” and whose unit is “NULL”,. Similarly, in the hierarchy in which the “tree structure code hierarchy code” is “A10201”, items identified by the item information code “IC0111” and whose item name data is “weight” and whose units are “g”,. , The item information code “IC0112”, the item name data is “CN0011”, the unit is “NULL”,..., And the “tree structure code hierarchy code” is “A20201”. Indicates that the item identified by the item information code “IC0113” is associated with an item whose item name data is “weight” and whose unit is “kg”,...
[0037]
Next, the operation of the catalog content format conversion system according to the embodiment will be described.
First, the catalog content data management server 100 receives a catalog content file described in a PDF format or the like from a personal computer of a product maker (not shown). Alternatively, it may be read from a recording medium such as a flexible disk or a memory card. Upon receiving the input of the catalog content file, the catalog content data management server 100 converts the catalog content data into an XML-format catalog content data file 210 used by the catalog content format conversion server 300.
A file in the PDF format is an aggregate of “coordinate axes” and “number of fonts” information. Therefore, the characters described in the PDF file are recognized and extracted as a series of words with the same number of fonts and the same number of lines. Thereby, items such as an item name and a type can be extracted. Further, it recognizes the vertical and horizontal description layouts of the table, and extracts the item names, their item values, and the units. Then, XML tagging is performed so that the extracted item names and units become element names and attributes, and the item values are set as the contents of the elements.
The catalog content data management server 100 transmits the catalog content data file 210 converted to the XML format to the catalog content format conversion server 300.
[0038]
Upon receiving the catalog content data file 210 from the catalog content data management server 100 via the network N, the data cleansing processing unit 310 of the catalog content format conversion server 300 activates the item name data conversion unit 311.
The item name data conversion unit 311 refers to the item name conversion dictionary DB 341 and converts the received item name data in the catalog content data file 210 into unified item name data. For example, if the item name data representing the product name varies among the catalog content data files 210 of each manufacturer such as “product name”, “product name”, and “product name”, these are represented by “product name”. To implement the unification of the item name data representing the product name.
[0039]
Subsequently, the data adding unit 312 refers to the item addition dictionary DB 342 and complements necessary catalog content data. For example, when the catalog content data file 210 has a combination of item name data “company name” and item value data “A corporation”, the item name data “company code” and “A corporation” are represented. Item value data “00001” (no unit) is added as a company code.
The result of performing data cleansing in the item name data conversion unit 311 and the data addition unit 312, that is, unification of item name data necessary for searching and assigning node information to the catalog content data file 210, and complementing required data Is performed as catalog content editing data 211.
The processes of the item name data conversion unit 311 and the data addition unit 312 described above are necessary as preprocessing of the tree structure search processing unit 320 when searching and allocating information of the tree structure node of the catalog content according to the tree structure dictionary DB 350. It has the role of unifying the item name data and adding necessary data.
[0040]
FIG. 3 is a diagram showing an operation procedure of a tree structure hierarchical code acquisition process in the tree structure path search unit 321. In the tree structure hierarchy code acquisition process, a tree structure hierarchy code indicating a node of the tree structure to which the combination of the item name data and the item value data in the catalog content editing data 211 belongs is given.
[0041]
The tree structure search processing unit 320 is activated by the data cleansing processing unit 310 when the data cleansing processing is completed. Then, the tree structure search processing unit 320 activates the tree structure path search unit 321 to execute a tree structure hierarchical code acquisition process.
The tree structure path search unit 321 extracts a combination of item name data and item value data in the catalog content editing data 211. Then, the combination of the item name data and the item value data is searched for the combination of the item name and the item value in the tree structure hierarchy code dictionary DB351, and the corresponding tree structure hierarchy code is obtained (step S32111). For example, when the tree structure hierarchy code dictionary DB 351 is searched by a combination of the item name data “type” and the item value data “LCD module” in the catalog content editing data 211, the tree structure hierarchy code “A1” may be acquired. it can. If there is no matching item name and item value data combination as a result of the search, a blank (NULL) is obtained.
When the tree structure path search unit 321 acquires the tree structure hierarchy code, the catalog content edit data 212 with the tree structure hierarchy code added to the catalog content edit data 211 in association with the combination of item name data and item value data. Is obtained (step S32112).
[0042]
Subsequently, the tree structure hierarchical code is searched and obtained for all combinations of item name data and item value data in the catalog content editing data 211, and it is determined whether or not the editing of the catalog content editing data 212 has been completed. (Step S32113). If there is a combination of unexecuted item name data and item value data, the process from step S32111 is executed again for the next combination of item name data and item value data to search and acquire the tree structure hierarchy code, catalog The editing of the content editing data 212 is repeatedly performed.
If it is determined in step S32113 that the search and acquisition of the tree structure hierarchy code have been completed for all combinations of item name data and item value data, the following tree structure hierarchy information acquisition process is executed.
[0043]
FIG. 4 is a diagram showing an operation procedure of the tree structure hierarchy information acquisition process in the tree structure path search unit 321. In the tree structure hierarchical information acquisition processing, a candidate for a hierarchical path for classification of the tree structure to which the catalog content should belong is extracted.
The tree structure path search unit 321 searches the tree structure hierarchy dictionary DB 352 based on the tree structure hierarchy code in the catalog content editing data 212 (FIG. 3), and acquires the lowest layer flag (step S32121). For example, when the tree structure hierarchy dictionary DB 352 is searched using the tree structure hierarchy code “A1” corresponding to the item name data “type” and the item value data “LCD module” in the catalog content editing data 212, the lowermost layer flag “ 0 ”is obtained. Then, the catalog content editing data 213 is obtained by adding the lowermost layer flag acquired in association with the tree structure hierarchical code to the catalog content editing data 212.
[0044]
Next, the tree structure path search unit 321 determines whether or not the acquired lowermost-layer flag is “1” (Step S32122). If the obtained lowermost-layer flag is “1” indicating that the tree-structured hierarchical code is the lowest-layer node of the tree structure, a search process for a tree-structured hierarchical path is performed (step S32123).
Generally, catalog content data belongs to the lowest node of the tree structure forming the category classification. For example, the product “red pencil” belongs to the “pencil” node in the tree structure node “stationery / pencil”, and the “stationery” node is an upper (parent) node of the lowest node group including the “pencil” node It is. This is because, when searching for a tree structure hierarchical path to which catalog content data should belong, the lowest layer node is selected from the tree structure hierarchical code assigned to each item data (catalog content data) in the catalog content edit data 213. This means that the tree-structured hierarchical path can be determined efficiently by searching the upper hierarchical nodes in order from the lowest hierarchical node.
[0045]
In step S32123, the tree structure path search unit 321 first searches the tree structure hierarchy dictionary DB 352 using the tree structure hierarchy code in the catalog content edit data 213 whose lowermost layer flag is “1”, and acquires the parent hierarchy code. Next, a parent hierarchy code of a record in which the acquired parent hierarchy code matches the tree structure hierarchy code in the tree structure hierarchy dictionary DB 352 is acquired. The tree-structured path search unit 321 repeats this process until the value of the parent hierarchy code becomes “ROOT” indicating that it is the highest node, and thereby the hierarchy from the lowest node to the highest node “ROOT” is obtained. Search for a path.
For example, the tree structure hierarchy code in the tree structure hierarchy dictionary DB 352 is searched using the tree structure hierarchy code “A10201” in the catalog content editing data 213 whose lowermost flag is “1”, and the parent hierarchy code “A102” is acquired. . Next, the tree structure hierarchy code in the tree structure hierarchy dictionary DB 352 is searched using the acquired parent hierarchy code “A102”, and the parent hierarchy code “A1” is acquired. Further, the tree structure hierarchy code in the tree structure hierarchy dictionary DB 352 is searched by the acquired parent hierarchy code “A1”, and the parent hierarchy code “ROOT” is acquired. As a result, the hierarchical path “ROOT / A1 / A102 / A10201” from the lowest node “A10201” to the highest node “ROOT” can be searched.
[0046]
When the search for the hierarchical path from the lowest node to the highest node is completed, the tree structure path search unit 321 checks whether all the tree structure hierarchical codes in the catalog content editing data 213 are the lowest node. It is determined whether or not a search for a hierarchical path up to the highest node has been performed for all tree structure hierarchical codes that are the lowest nodes (step S32124). If it is confirmed whether the node is an unexecuted lowermost node or if a search for a hierarchical path from the lowermost node to the uppermost node is performed, the next tree-structured hierarchical code in the catalog content editing data 212 is again processed. , The processing from step S32121 is performed.
[0047]
FIG. 5 shows a continuation of the operation procedure of FIG.
In step S32124 in FIG. 5, the tree-structured path search unit 321 has confirmed whether or not all tree-structured hierarchical codes are the lowest-level nodes, and completed the search for the hierarchical path from the lowest-level node to the highest-level node. If it is determined that it is, the validity of each candidate of the tree-structured hierarchical path to which the extracted catalog content should belong is confirmed (step S32125). This is because the tree structure hierarchical code representing each node from the highest node to the lowest node of each candidate of the hierarchical path extracted in step S32123 is the same as the tree structure hierarchy code included in the catalog content editing data 213. This can be done by verifying whether they match. If they do not match, it means that the combination of the item name data and the item value data making up the catalog content editing data 213 is different from the configuration of this hierarchical path, and it is an inappropriate hierarchical path to which the catalog content should not belong. Indicates that.
[0048]
First, the tree structure path search unit 321 confirms that one lower node of the highest node of the hierarchy path is included in the tree structure hierarchy code in the catalog content editing data 213. If this lower node is not included in the tree structure hierarchical code in the catalog content editing data 213, it is an inappropriate hierarchical path. When the lower node of the highest node (ROOT) is included in the tree structure hierarchical code in the catalog content editing data 213, the lower node is further included in the tree structure hierarchical code in the catalog content editing data 213. Make sure that By repeating this process up to the lowest node, the hierarchical path to which the catalog content should belong is extracted.
[0049]
For example, as for the hierarchical path 1, since the tree structure hierarchy codes “A1”, “A102”, and “A10241” representing all the nodes are all included in the tree structure hierarchy code in the catalog content editing data 213, the catalog content should belong. It is determined to be a hierarchical path. The hierarchical path 2 is such that, among the tree structure hierarchy codes “A2”, “A202”, and “A20201” representing each node, “A2”, which is a lower node of the highest node, is used as the tree structure hierarchy code in the catalog content editing data 213. Since it is not included, it is an inappropriate hierarchical path.
When the tree structure path search unit 321 completes the matching check for all the hierarchical path candidates, it completes the process and activates the tree structure item arrangement unit 322.
[0050]
FIG. 6 is a diagram illustrating an operation procedure of the tree structure item information acquisition processing in the tree structure item arrangement unit 322. In this tree structure item information acquisition process, an item associated with the hierarchical path to which the catalog content belongs is acquired. Then, in the tree structure item configuration processing described later, the format conversion (data cleansing) of the item value data according to the hierarchical path (category classification) is performed for each item in the catalog content editing data 213 by the obtained item. Judge whether the item name data and item value data are necessary or not. That is, here, preparations are made to generate catalog content data that matches the hierarchical path to which the catalog content belongs.
[0051]
The tree structure item organizing unit 322 searches the tree structure item dictionary DB 353 using a tree structure hierarchy code representing each node constituting a hierarchical path to which the catalog content belongs, and finds a tree structure item including an item information code, an item name, and a new unit. An extraction result is obtained (step S32211).
For example, it is assumed that the tree structure hierarchy codes of the nodes of the hierarchy path to which the catalog content belongs are “A1”, “A102”, and “A10201”. At this time, in correspondence with the tree structure hierarchy code “A1”, the tree structure item extraction result including the acquired item information code “IC0001”, the item name “type”, and the new unit “NULL”, and the item information code “ A tree structure item extraction result including “IC0002”, the item name “CN0010”, and the new unit “NULL” is obtained. Also, in correspondence with the tree structure hierarchical code "A102", a tree structure item extraction result including an item information code "IC0011", an item name "display mode", and a new unit "NULL", and an item information code "IC0012" , An item name “article name” and a new unit “NULL” are obtained. Further, corresponding to the tree structure hierarchy code “A10201”, a tree structure item extraction result including an item information code “IC0111”, an item name “weight” and a new unit “g”, and an item information code “IC0112”, A tree structure item extraction result including the item name “CN0011” and the new unit “NULL” is obtained.
The tree structure item organizing unit 322 activates the tree structure item configuration process when the tree structure item extraction result has been obtained for the tree structure hierarchy codes of all nodes in the hierarchy path.
[0052]
FIG. 7 is a diagram illustrating an operation procedure of the tree structure item configuration processing in the tree structure item arrangement unit 322.
In step S32221, the tree structure item organizing unit 322 compares the item name data in the catalog content editing data 213 with the item name data in the tree structure item extraction result extracted in step S32211. Then, from the matching item name data, the item value data and unit data in the catalog content editing data 213 corresponding to the item name data, and the item name code and new unit data in the tree structure item extraction result, the catalog content is obtained. Edit the edit data 214.
Through this process, an item name code corresponding to each item name data required in a unit conversion process (FIG. 8) to be described later is obtained, and new unit data unified within a hierarchical path to which the catalog content should belong is obtained. . At the same time, by excluding the catalog content data in the catalog content edit data 213 that is not included in the tree structure item extraction result from the acquisition target, the catalog content edit data including only the necessary items in the hierarchical path to which the catalog content should belong 214 can be created.
For example, the item name data “CN0099” in the catalog content editing data 213 does not match the item name data in the tree structure item extraction result. This means that the tree structure hierarchical codes “A1,” “A102,” and “A10241” representing the nodes of the hierarchical path to which the catalog content should belong are unnecessary items, and are not stored in the catalog content editing data 214. And
[0053]
The tree structure item organizing unit 322 determines whether or not the process of step S32221 has been performed for all item name data in the catalog content editing data 213 (step S32222). If there is unexecuted item name data, step S32221 is executed again. When the execution of step S32221 is completed for all item name data, the unit conversion unit 323 is activated.
[0054]
FIG. 8 is a diagram illustrating an operation procedure of the unit conversion process in the unit conversion unit 323. In the unit conversion process, each unit data in the catalog content editing data 214 is converted into a rule by a hierarchical path, and the format is converted (data cleansing) into unified unit data.
The unit conversion unit 323 searches for a combination of a unit and a new unit in the unit conversion dictionary DB 343 based on a combination of the unit data and the new unit data in the catalog content editing data 214, and acquires magnification data (step S32311). For example, a search in the unit conversion dictionary DB 343 is performed using a combination of the unit data “g” and the new unit data “kg” in the catalog content editing data 214, and magnification data “0.001” is obtained. At this time, if the unit data in the catalog content editing data 214 is blank (NULL), it is not searched.
[0055]
When the unit conversion unit 323 acquires the magnification data from the unit conversion dictionary DB 343 for all combinations of the unit data and the new unit data in the catalog content editing data 214, the acquired magnification data and the corresponding The catalog content editing data 215 converted to the item value data corresponding to the new unit data is obtained by multiplying by the item value data of the column (step S32312). For example, by multiplying the item value data “100” in the column of the combination of the unit data “g” and the new unit data “kg” in the catalog content editing data 214 by the magnification data “0.001” acquired in step S32311. “0.1” is calculated, and the item value data “100” is replaced with the calculated “0.1”.
[0056]
When the unit conversion unit 323 completes the unit conversion of the item value data for the item value data of the corresponding column in the catalog content editing data 214, the magnification conversion data for all combinations of the unit data and the new unit data in the catalog content editing data 214 It is determined whether or not the acquisition of the item value and the conversion of the item value data are performed (step S32313). If there is an unexecuted combination, the process returns to step S32311 to acquire magnification data and convert item value data in the catalog content editing data 214. When the data conversion is completed for all combinations of the unit data and the new unit data in the catalog content editing data 214, the unit conversion process 323 is terminated, and the item value data conversion process is started.
[0057]
FIG. 9 is a diagram showing an operation procedure of the item value data conversion processing in the item value data conversion unit 324. In the item value data conversion processing, in order to format-convert (data cleanse) into catalog content data that matches the hierarchical path to which the catalog content should belong, each item value data in the catalog content editing data 215 is ruled by a hierarchical path. Format conversion (data cleansing) to the item value data of the expressed expression.
[0058]
The item value data conversion unit 324 searches the item value conversion dictionary DB 344 based on a combination of the item value data and the item name code in the catalog content editing data 215, and acquires new item value data (step S32411). For example, when the item value conversion dictionary DB 344 is searched by a combination of the item value data “blue” and the item name code “IC0112” in the catalog content editing data 215, new item value data “BLUE” is obtained.
[0059]
When the item value data conversion unit 324 acquires new item value data from the item name conversion dictionary DB 344 for the combination of the item value data and the item name code in the catalog content editing data 215, the item value data in the catalog content editing data 215 Is replaced with the acquired new item value data, and the catalog content editing data 216 is obtained (step S32412). For example, the item value data “blue” of the item name code “IC0112” in the catalog content editing data 215 is replaced with the new item value data “BLUE” acquired in step S32411.
[0060]
When the item value data conversion unit 324 completes the format conversion of the item value data for all the new item value data acquired in step S32411, for all the combinations of the item value data and the item name codes in the catalog content editing data 215, The new item value data is acquired, and it is determined whether or not the format of the item value data has been converted (step S32413).
If there is an unexecuted combination of the item value data and the item name code in the catalog content editing data 215, the processing from step S32411 is repeated. On the other hand, when the data conversion is completed for all the combinations of the item value data and the item name codes and the editing of the catalog content editing data 216 is completed, the item value data conversion processing ends and the tree structure search processing unit 320 ends processing. Start
[0061]
When the termination process is activated, the tree structure search processing unit 320 activates the format conversion data file creation unit 330.
The format conversion data file creation unit 330 uses a predetermined file format such as an XML format in accordance with a standard or rule format to be compliant with an item (catalog content data) associated with a tree-structured node shown in the catalog content edit data 216. Also, a format conversion data file 220 that describes tree structure information such as a tree structure hierarchy code or a tree structure hierarchy name indicating a tree structure node (classification) to which the catalog content belongs is created. For the items attached to the tree-structured node, item name data, item value data, and unit unified by the tree-structured node to which the catalog content belongs are used. The format conversion data file 220 includes, in addition to the items associated with the tree-structured nodes, the catalog content data file 210 or the catalog content editing data 211 which is the result of performing data cleansing on the catalog content data file 210. May be added as appropriate, or may be mutually linked to the catalog content data file 210.
The generated format conversion data file 220 is returned to the catalog content data management server 100.
[0062]
It should be noted that by holding an item name conversion dictionary DB341, an item addition dictionary DB342, an item value conversion dictionary DB344, a tree structure hierarchy code dictionary DB351, a tree structure hierarchy dictionary DB352, and a tree structure item dictionary DB353 for each standard or notation rule. Format conversion according to any standard or notation rule. At this time, the standards and notation rules to be followed may be received from the catalog content data management server 100 or may be described in the catalog content data file 210.
[0063]
According to the above embodiment, based on the catalog content data in the catalog content data file 210 obtained from the catalog content data management server 100 via the network N, information on the category classification of the tree structure to which this catalog content should belong is given. Can be granted.
Further, the format of the received catalog content data file can be converted into items and units unified for each category. Thus, for example, the unit representing the length of a product belonging to the classification “stationery / pencil” is “mm (millimeter)”, and the unit representing the width of the product belonging to the classification “office furniture / desk” is “cm (cm) For example, the unit of item value data or the item (catalog content data) can be unified for each category classification to which each catalog content belongs, such as “mail”.
Further, a record of an item necessary for a hierarchical path to which the catalog content belongs is added to the tree structure item dictionary DB 353 by using the tree structure hierarchy code as a key, and the same format conversion process (data conversion process 323 and item value data conversion 324 (data By incorporating the cleansing process, it is possible to realize a catalog content format conversion server 300 that is highly flexible and available for format conversion requirements to various standardized formats on the market.
Further, by performing data maintenance of the data cleansing dictionary DB 340 with the tree structure dictionary DB 350 as a base point, it becomes possible to perform maintenance that is conscious of standards and conversion rules to be followed, and it is possible to increase the maintenance efficiency of various dictionary DBs.
[0064]
The above-described catalog content data management server 100 and catalog content format conversion server 300 have a computer system therein. The above-described process of the operation is stored in a computer-readable recording medium in the form of a program, and the computer system reads and executes the program to perform the above-described processing. Here, the computer system includes an OS and hardware such as peripheral devices.
[0065]
The “computer-readable recording medium” refers to not only ROM but also portable media such as magnetic disks, magneto-optical disks, CD-ROMs, and DVD-ROMs, and storage devices such as hard disks built into computer systems. That means. Further, the “computer-readable recording medium” is a system such as a volatile memory (RAM) in a computer system which is a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. In addition, programs that hold programs for a certain period of time are also included.
[0066]
Further, the above program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the "transmission medium" for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
Further, the program may be for realizing a part of the functions described above. Furthermore, what can realize the above-mentioned function in combination with a program already recorded in the computer system, that is, a so-called difference file (difference program) may be used.
[0067]
【The invention's effect】
According to the present invention, based on the catalog content data in the catalog content data file to be format-converted, it is possible to add information on the category classification of the tree structure to which the catalog content belongs.
Further, the format of the catalog content data file can be converted into items, item values, and units unified for each category classification to which each catalog content belongs.
Further, by adding data to various databases, it is possible to provide a format conversion device that is highly flexible and available for format conversion requirements to various standardized formats on the market.
[Brief description of the drawings]
FIG. 1 is a diagram for explaining an outline of a catalog content format conversion system using a format conversion device according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of a catalog content format conversion system according to the embodiment.
FIG. 3 is a diagram showing an operation procedure of a tree structure hierarchical code acquisition process according to the embodiment.
FIG. 4 is a diagram showing an operation procedure of tree structure hierarchical information acquisition processing according to the embodiment.
FIG. 5 is a diagram showing a continuation of the operation procedure of the tree structure hierarchy information acquisition process according to the embodiment.
FIG. 6 is a diagram showing an operation procedure of tree structure item information acquisition processing according to the embodiment.
FIG. 7 is a diagram showing an operation procedure of a tree structure item configuration process according to the embodiment.
FIG. 8 is a diagram showing an operation procedure of a unit conversion process according to the embodiment.
FIG. 9 is a diagram showing an operation procedure of an item value data conversion process according to the embodiment.
[Explanation of symbols]
100: Catalog content data management server
300: Catalog content format conversion server (format conversion device)
310: Data cleansing processing unit
311 ... Item name data converter
312 ... Data addition section
320: Tree structure search processing unit
321... Tree structure path search unit
322: tree structure item arrangement section
323 Unit conversion unit
324: item value data conversion unit
330: Format conversion data file creation unit
340: Data cleansing dictionary DB
341: item name conversion dictionary DB
342: additional item dictionary DB
343: Unit conversion dictionary DB
344: item value conversion dictionary DB
350: Tree structure dictionary DB
351... Tree structure hierarchical code dictionary DB (node identification dictionary database)
352... Tree structure hierarchical dictionary DB (hierarchical dictionary database)
353: tree structure item dictionary DB (node item dictionary database)

Claims (8)

項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換装置であって、
前記コンテンツデータファイル内の項目名データを前記フォーマットで統一して使用される項目名データに変換するとともに、このコンテンツデータファイルへ前記フォーマットで用いられるコンテンツデータを補完するデータクレンジング手段と、
前記データクレンジング手段が項目名データの統一およびコンテンツデータの補完を行った前記コンテンツデータを基に、コンテンツの分類を示す階層化されたノードにおいて、該コンテンツが属する前記ノードを探索する探索手段と、
を備えることを特徴とするフォーマット変換装置。
A format conversion device for converting a content data file containing content data consisting of item name and value data into a predetermined format,
Data cleansing means for converting the item name data in the content data file into item name data used in a unified manner in the format, and complementing the content data used in the format with the content data file,
Search means for searching for the node to which the content belongs in a hierarchical node indicating the classification of the content, based on the content data in which the data cleansing means has unified the item name data and complemented the content data,
A format conversion device comprising:
項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換装置であって、
コンテンツの分類を示す階層化されたノードの識別情報を、コンテンツデータと対応して記憶するノード識別辞書データベースと、
前記ノード間の関連を記憶する階層辞書データベースと、
前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得し、このノードの識別情報と前記階層辞書データベースとから該コンテンツが属するノードを探索するパス探索手段と、
を備えることを特徴とするフォーマット変換装置。
A format conversion device for converting a content data file containing content data consisting of item name and value data into a predetermined format,
A node identification dictionary database storing identification information of hierarchized nodes indicating the classification of content in association with the content data;
A hierarchical dictionary database storing associations between the nodes,
Path search means for obtaining identification information of a node corresponding to the content data of the content data file from the node identification dictionary database, and searching for the node to which the content belongs from the identification information of the node and the hierarchical dictionary database;
A format conversion device comprising:
コンテンツデータファイル内のコンテンツデータで使用されうる項目名データと、前記フォーマットで使用される項目名データとの対応を記憶する項目名変換辞書データベースと、
補完すべきコンテンツデータを記憶する項目追加辞書データベースと、
前記項目名変換辞書データベースを参照して、前記コンテンツデータファイル内の項目名データを前記フォーマットで統一して使用される項目名データに変換する項目名データ変換手段と、
前記項目追加辞書データベースを基に、前記コンテンツデータファイルへ前記フォーマットで用いられるコンテンツデータを補完するデータ追加手段とをさらに備え、
前記パス探索手段は、項目名データの統一およびコンテンツデータの補完を行った前記コンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得する、
ことを特徴とする請求項2に記載のフォーマット変換装置。
Item name data that can be used in the content data in the content data file, and an item name conversion dictionary database that stores a correspondence between the item name data used in the format,
An item additional dictionary database that stores content data to be complemented,
Item name data conversion means for referring to the item name conversion dictionary database and converting item name data in the content data file into item name data used in a unified manner in the format,
Data addition means for complementing content data used in the format to the content data file based on the item addition dictionary database,
The path search means acquires, from the node identification dictionary database, identification information of a node corresponding to the content data obtained by unifying item name data and complementing content data.
The format conversion apparatus according to claim 2, wherein:
さらに、ノードに付随する項目の情報を記憶するノード項目辞書データベースと、
前記ノード項目辞書データベースから該コンテンツが属するノードに付随する項目の情報を取得し、前記コンテンツデータから取得した項目の情報に対応したコンテンツデータを抽出する項目整理手段と、
前記項目整理手段が抽出したコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成するフォーマット変換データファイル作成手段とを備える、
ことを特徴とする請求項2または請求項3に記載のフォーマット変換装置。
Further, a node item dictionary database for storing information on items attached to the node,
Item arrangement means for acquiring information on an item associated with a node to which the content belongs from the node item dictionary database and extracting content data corresponding to the information on the item acquired from the content data;
Format conversion data file creating means for creating a content data file according to the format based on the content data extracted by the item organizing means,
The format conversion device according to claim 2 or 3, wherein:
前記ノード項目辞書データベースは、さらに、ノードに付随する項目に用いられる単位の情報を記憶し、
前記項目整理手段は、さらに、前記ノード項目辞書データベースから該コンテンツが属するノードに付随する項目に用いられる単位の情報を取得し、
単位変換手段は、取得した単位の情報により前記コンテンツデータの項目値データ及び該項目値データに付随する単位のデータを変換する、
ことを特徴とする請求項4に記載のフォーマット変換装置。
The node item dictionary database further stores information on units used for items associated with the nodes,
The item arranging unit further obtains, from the node item dictionary database, information on a unit used for an item attached to a node to which the content belongs,
The unit conversion means converts the item value data of the content data and the data of the unit attached to the item value data according to the acquired unit information,
The format conversion apparatus according to claim 4, wherein:
さらに、ノードに付随する項目で用いられる項目値データを記憶する項目値変換辞書データベースと、
前記項目値変換辞書データベースを参照して、前記コンテンツデータ内の項目値データを、該コンテンツが属するノードに付随する項目で用いられる項目値データに変換する項目値データ変換手段とを備える、
ことを特徴とする請求項2から請求項5のいずれかの項に記載のフォーマット変換装置。
Further, an item value conversion dictionary database that stores item value data used in items associated with the nodes,
Item value data conversion means for converting item value data in the content data into item value data used in an item associated with a node to which the content belongs by referring to the item value conversion dictionary database,
The format conversion device according to claim 2, wherein
項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換方法であって、
コンテンツの分類を示す階層化されたノードの識別情報を、コンテンツデータと対応して記憶するノード識別辞書データベースと、
前記ノード間の関連を記憶する階層辞書データベースと、
ノードに付随する項目の情報を記憶するノード項目辞書データベースとを用意し、
前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を前記ノード識別辞書データベースから取得し、このノードの識別情報と前記階層辞書データベースとから該コンテンツが属するノードを探索し、
前記ノード項目辞書データベースから探索された該コンテンツが属するノードに付随する項目の情報を取得し、
前記コンテンツデータファイルのコンテンツデータから、取得した項目の情報に対応したコンテンツデータを抽出し、
抽出されたコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成する、
ことを特徴とするフォーマット変換方法。
A format conversion method for converting a content data file including content data composed of data of an item name and its value into a predetermined format,
A node identification dictionary database storing identification information of hierarchized nodes indicating the classification of content in association with the content data;
A hierarchical dictionary database storing associations between the nodes,
Prepare a node item dictionary database that stores information on items attached to nodes,
Obtaining the identification information of the node corresponding to the content data of the content data file from the node identification dictionary database, searching for the node to which the content belongs from the identification information of the node and the hierarchical dictionary database,
Obtain information on items associated with the node to which the content searched from the node item dictionary database belongs,
From the content data of the content data file, extract content data corresponding to the information of the acquired item,
Generating a content data file according to the format based on the extracted content data,
A format conversion method characterized in that:
項目名およびその値のデータからなるコンテンツデータを含んだコンテンツデータファイルを所定のフォーマットへ変換するフォーマット変換装置に用いられるコンピュータプログラムであって、
コンテンツの分類を示す階層化されたノードの識別情報をコンテンツデータと対応して記憶するノード識別辞書データベースから、前記コンテンツデータファイルのコンテンツデータに対応したノードの識別情報を取得するステップと、
ノード間の関連を記憶する階層辞書データベースと取得したノードの識別情報とから該コンテンツが属するノードを探索するステップと、
ノードに付随する項目の情報を記憶するノード項目辞書データベースから、探索された該コンテンツが属するノードに付随する項目の情報を取得するステップと、
前記コンテンツデータファイルのコンテンツデータから、取得した項目の情報に対応したコンテンツデータを抽出するステップと、
抽出されたコンテンツデータを基に前記フォーマットに従ったコンテンツデータファイルを生成するステップと、
をコンピュータに実行させることを特徴とするコンピュータプログラム。
A computer program used in a format conversion device that converts a content data file containing content data consisting of item name and value data into a predetermined format,
From the node identification dictionary database that stores the identification information of the hierarchized nodes indicating the classification of the content in association with the content data, acquiring the identification information of the node corresponding to the content data of the content data file;
Searching for a node to which the content belongs from a hierarchical dictionary database storing associations between the nodes and the acquired node identification information;
Acquiring information on items associated with the node to which the searched content belongs from a node item dictionary database storing information on items associated with the nodes;
Extracting, from the content data of the content data file, content data corresponding to the information of the acquired item;
Generating a content data file according to the format based on the extracted content data;
Computer program for causing a computer to execute the following.
JP2003134421A 2003-05-13 2003-05-13 Format conversion device and method, and computer program Pending JP2004341605A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003134421A JP2004341605A (en) 2003-05-13 2003-05-13 Format conversion device and method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003134421A JP2004341605A (en) 2003-05-13 2003-05-13 Format conversion device and method, and computer program

Publications (1)

Publication Number Publication Date
JP2004341605A true JP2004341605A (en) 2004-12-02

Family

ID=33524991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003134421A Pending JP2004341605A (en) 2003-05-13 2003-05-13 Format conversion device and method, and computer program

Country Status (1)

Country Link
JP (1) JP2004341605A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249747A (en) * 2006-03-17 2007-09-27 Fujitsu Ltd Common format creation program
JP2007287059A (en) * 2006-04-20 2007-11-01 Mitsubishi Electric Corp Data conversion device, data conversion method and data conversion program
JP2017076350A (en) * 2015-10-16 2017-04-20 富士通株式会社 Information conversion method, information processing device, and information conversion program
JP2020135168A (en) * 2019-02-15 2020-08-31 富士通株式会社 Information processor, information processing device, and data storage program
JP2023501098A (en) * 2019-11-10 2023-01-18 タブロー ソフトウェア,インコーポレイテッド Data preparation using semantic roles

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249747A (en) * 2006-03-17 2007-09-27 Fujitsu Ltd Common format creation program
JP2007287059A (en) * 2006-04-20 2007-11-01 Mitsubishi Electric Corp Data conversion device, data conversion method and data conversion program
JP2017076350A (en) * 2015-10-16 2017-04-20 富士通株式会社 Information conversion method, information processing device, and information conversion program
JP2020135168A (en) * 2019-02-15 2020-08-31 富士通株式会社 Information processor, information processing device, and data storage program
JP7176434B2 (en) 2019-02-15 2022-11-22 富士通株式会社 Information processing system, information processing device and data storage program
JP2023501098A (en) * 2019-11-10 2023-01-18 タブロー ソフトウェア,インコーポレイテッド Data preparation using semantic roles

Similar Documents

Publication Publication Date Title
KR100372584B1 (en) Method and system for data processing
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
JP4141556B2 (en) Structured document management method, apparatus for implementing the method, and medium storing the processing program
Laclavík et al. Email analysis and information extraction for enterprise benefit
JPH11242676A (en) Method for registering structured document, method for retrieving structured document, and portable medium used in these methods
JP6186198B2 (en) Learning model creation device, translation device, learning model creation method, and program
CN113704575B (en) SQL method, device, equipment and storage medium for analyzing XML and Java files
JP7103763B2 (en) Information processing system and information processing method
JP4393404B2 (en) Database management apparatus and database management method
JP2005250820A (en) Xml document classification method in storage system
JP2004341605A (en) Format conversion device and method, and computer program
JP2003099442A (en) Key concept extraction rule preparing method, key concept extraction method, key concept extraction rule preparing device, key concept extraction device, and program and recording medium for them
JPWO2006001241A1 (en) Node insertion method, information processing apparatus, and node insertion program
CN115329753B (en) Intelligent data analysis method and system based on natural language processing
CN112783836A (en) Information exchange method, device and computer storage medium
CN106777140A (en) For the method and device of non-structured document search
JPH10222510A (en) Document converting method
US7953761B2 (en) System, method, and apparatus for retrieving structured document and apparatus for managing structured document
JP3842576B2 (en) Structured document editing method and structured document editing system
CN112699642A (en) Index extraction method and device for complex medical texts, medium and electronic equipment
JP4904828B2 (en) Information analysis knowledge management device, data structure, information analysis device, dictionary generation method and program
JP2021086400A (en) Information processing device, instruction statement data producing method and program
JP7323138B2 (en) Technology map output device, technology map output method, and program
JP2003288365A (en) Additive information management method and additive information management system
JP5337575B2 (en) Candidate word extraction device, candidate word extraction method, and candidate word extraction program