JP5348699B2

JP5348699B2 - データ分類システム、データ分類方法およびプログラム

Info

Publication number: JP5348699B2
Application number: JP2010254657A
Authority: JP
Inventors: 寛泰石川
Original assignee: NEC System Technologies Ltd
Current assignee: NEC Solution Innovators Ltd
Priority date: 2010-11-15
Filing date: 2010-11-15
Publication date: 2013-11-20
Anticipated expiration: 2030-11-15
Also published as: JP2012108575A

Description

本発明は、データ分類システム、データ分類方法およびプログラムに関する。

従来、コンピュータを用いて多くのデータベースのデータを分類することが行われてきた。しかしながら、同じ事を示すデータであっても、データが完全に一致しなければ同一グループとして認識されないことがあった。データ分類を正確に行うために、同一グループであることをシステムに登録したり、自動で分類したデータを手動で確認したり、と手間がかかるという問題が生じていた。その結果、できるだけデータの分類を効率よく正確に行うため、以下に開示する先行文献のような様々な工夫がなされてきた。

特許文献１には、入力したかな文字列の単語の、カタカナ表記をひらがな表記に変換処理する文書処理装置が記載されている。

特許文献２には、テキストの分類パターンを生成し、分類パターンをもとにテキストのクラスタリングを実行することで、同じ意味的性質の単語で異なる表現の単語が用いられている文書であっても、テキストの分類を一貫性を持って行える事例ベース構築方法が記載されている。

特許文献３には、自動分類システムが自動分類するための前情報となるカテゴリとそれに割り当てられているサンプル文書を入力し、検索回数の集計した結果をもとに各カテゴリに対する単語の重要度を算出する単語重要度算出方法が記載されている。

特許文献４には、照合対象となるデータを選択し、特定の照合項目で照合することによりデータの一致度を決定する顧客データベース等の生成を行うデータベース生成装置が記載されている。

特許文献５には、関連語が表記単語に類似しているか否か判定し、類似の場合に関連語を異表記辞書に追加することで、より多くの語彙を持つ異表記辞書を作成することができる異表記辞書作成装置が記載されている。

特許文献６には、ユーザの検索結果に関連付けてカタログ情報をグループ別に登録することで、ユーザにとって使い勝手のよいカタログデータベースとなる技術が記載されている。

特開平０４−９７４７７号公報特開２００１−２２９１７７号公報特開２００３−１６７８９１号公報特開２００３−１７３３４５号公報特開２００４−１１０６３３号公報特開２００９−２８９１２２号公報

関連する技術では、使用用途が限定されており、汎用性に欠けることがある。例えば、特許文献４では、住所情報など特定の項目に限定されており、一般的なデータベースに用いるためには、その都度、必要なルールなどの情報を入力する必要があった。このように、充分な分類を行うためには、新たにグループ分類のためのルールを設けたり、目視確認するなど一部を自動ではなく手動にしたり、手間がかかるおそれがあった。

また、関連する技術において、過去に分類した結果を用いて分類する方法や、特定の単語の出現頻度を基に分類ルールを設定して分類を行う方法が記載されている。例えば、特許文献２では、テキストを分類することで、類似する語句を含めて判断しており、基になるテキストには所定の長さが必要であり、テキストの長さによっては利用することができないという問題があった。特許文献３や特許文献６では、所定の単語が所定の割合以上出てくる必要があり、単語の使用頻度が少ない場合は利用できないおそれがあった。このように、分析するデータが少ない場合や過去のデータが充分でない場合などは、分類基準があいまいとなり、分類が不充分となるおそれがあった。

文字列が完全に一致しない単語の場合、全く異なる単語で同じ意味を有する単語の場合、同じ単語を指していてひらがな、カタカナ、漢字の表記方法が異なっている単語の場合、などの文字列が完全に一致しない場合であっても、これらの単語は同一グループに分類されることが好ましい。これらの課題を解決するために、特許文献１ではカタカナをひらがなに変換する技術、特許文献５では関連語（類似する単語）を追加する技術、が用いられていたが、誤表記などの表記の揺れについては考慮しておらず、同一グループへ分類される割合は高くはなかった。

本発明は、上述のような事情に鑑みてなされたもので、データの文字列が完全に一致しない場合や表現が異なる場合においても、データを分類することができるデータ分類システム、データ分類方法およびプログラムを提供することを目的とする。

本発明の第１の観点に係るデータ分類システムは、
検索可能な文字列を含むデータを取得するデータ取得手段と、
前記データに含まれる所定の文字列を抽出する抽出手段と、
文字列を変換する変換ルールを記憶するルール記憶手段と、
前記変換ルールに基づき前記所定の文字列を変換する変換手段と、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶手段と、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定手段と、
前記判定手段で判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類手段と、
を備えることを特徴とする。

本発明の第２の観点に係るデータ分類方法は、
データベースにおけるデータの分類をデータ分類システムが行う方法であって、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を備えることを特徴とする。

本発明の第３の観点に係るプログラムは、
コンピュータに、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を実行させることを特徴とする。

本発明のデータ分類システム、データ分類方法およびプログラムによれば、データの文字列が完全に一致しない場合や表現が異なる場合においても、データを分類することができる。

本発明の実施の形態１に係るデータ分類システムの構成の一例を示すブロック図である。実施の形態１に係るデータの対象テーブルの一例を示す図である。実施の形態１に係るカテゴリ情報の一例を示す図である。実施の形態１に係る辞書情報の一例を示す図である。実施の形態１に係る単語情報の一例を示す図である。実施の形態１に係るデータ分類の動作の順序の一例を示す図である。実施の形態１に係るデータ分類システムのデータ分類動作の一例を示すフローチャートである。実施の形態１に係るデータ分類システムの文字列変換動作の一例を示すフローチャートである。本発明の実施の形態２に係るデータ分類システムの構成の一例を示すブロック図である。実施の形態２に係るカテゴリ情報の一例を示す図である。実施の形態２に係るデータ分類の動作の順序の一例を示す図である。実施の形態２に係るデータ分類システムのデータ分類動作の一例を示すフローチャートである。本発明の実施の形態に係るデータ分類システムの物理的な構成例を示すブロック図である。

以下、本発明を実施するための形態について図を参照して詳細に説明する。なお図中、同一または同等の部分には同一の符号を付す。

（実施の形態１）
図１は、本発明の実施の形態１に係るデータ分類システムの構成の一例を示すブロック図である。データ分類システム１００は、処理装置１、記憶部２、入力部３および出力部４を備える。

処理装置１は、データ取得部１１、文字列抽出部１２、判定部１３、変換部１４および分類部１５を備える。記憶部２は、データ分類システム１００に必要なさまざまな情報やルールを記憶する。記憶部２で記憶する情報やルールは、具体的には、データ情報２１、辞書情報２２、変換ルール２３およびカテゴリ情報２４を指す。

データ情報２１は、データ分類を行う対象のデータを指す。データ情報２１は、文字列を検索可能なデータであり、テキストの形式で取得可能なデータであることが好ましい。光学文字認識によりテキストの形式で取得可能となるデータであってもよい。

辞書情報２２は、予めデータの形式で取得しておいた国語辞典などの辞書データや、その都度インターネットやオンラインなどで外部から取得した辞書データの情報を指す。対象となる情報には、漢和辞典や英語辞典だけでなく、百科事典などの辞書データも含む。

変換ルール２３は、所定の文字列を変換するルールを指す。例えば表記方法は、漢字、ひらがな、カタカナ、アルファベットなどがあり、最終的にひらがなの表記に変換するというルールを定める。また、同意語や類義語がある場合に、一般的に使用頻度の高い語句に置き換えたり、データ情報２１に含まれる割合の高い語句に置き換えるなどのルールを定めてもよい。例えば、「紅」、「朱」、「丹」、「緋」などの文字は全て「赤」という文字に置き換えることができ、また、「レッド」、「ＲＥＤ」、「ｒｅｄ」も全て「赤」という文字に置き換えることができる。また、最終的にひらがなの表記に変換するため、「赤」、「紅」、「朱」、「丹」、「緋」、「レッド」、「ＲＥＤ」、「ｒｅｄ」は全て、最終的には「あか」に変換する。

カテゴリ情報２４は、条件式および条件値を含むデータをいう。条件式とは、条件値を満たすかどうかの判断基準を示すものである。条件値は、分類するカテゴリの名称であるカテゴリ名をいい、辞書情報２２に含まれる単語（用語）の一部に該当する。辞書情報２２に含まれる単語（用語）を、基準の文字列ともいう。条件式は、本発明では、データ情報２１に含まれる所定の文字列、またはその所定の文字列を変換ルール２３に基づいて変換した文字列が、条件値（基準の文字列）とどのくらい類似するかを表す類似度で設定する。

データ取得部１１は、データ分類を行う対象のデータを取得する。記憶部２は、データ情報２１に取得したデータを記憶する。

文字列抽出部１２は、データ情報２１に含まれる所定の文字列を抽出する。具体的には、データに含まれる文章などから、名詞などの単語を抽出する。抽出する単語は名詞だけでなく、名詞を含むフレーズなどであってもよい。具体的には、文字列抽出部１２は、記憶部２の辞書情報２２を参照して所定の文字列の抽出を行う。

判定部１３は、所定の文字列の類似度をカテゴリ情報２４に基づき判定する。判定するために、所定の文字列を変換する必要がある場合は、制御部（図示せず）を介して変換部１４へ指示を出す。そして変換部１４で所定の文字列を変換させた後に、その変換後の文字列で、再度判定を行う。類似度の判定は、記憶部２のカテゴリ情報２４に記憶したカテゴリ名となる条件値（基準の文字列）と、所定の文字列または変換した文字列を比較し、類似度が所定の値以上となればよい。

変換部１４は、制御部により所定の文字列の変換の指示を受け、文字列の変換を行う。変換は、記憶部２の変換ルール２３に基づいて行う。まず、変換部１４は辞書情報２２とカテゴリ情報２４を参照し、所定の文字列がカテゴリ情報２４に含まれていれば、そのまま所定の文字列をカテゴリ名として用いる。また、辞書情報２２で同意語および／または類義語があり、その同意語および／または類義語がカテゴリ情報２４に含まれていれば、その同意語および／または類義に変換した文字列、すなわち変換後の文字列をカテゴリ名として用いる。さらに必要であれば、変換部１４は、所定の文字列または変換後の文字列をひらがなへ変換する。

分類部１５は、判定部１３で判定した類似度に基づき、カテゴリに分類する。所定の文字列または変換後の文字列と、カテゴリ情報２４に含まれる条件値（基準の文字列）とを比較した類似度が所定値を満たしていれば、カテゴリ名が条件値（基準の文字列）で表されるカテゴリに分類する。類似度が所定値を満たしていなければ、所定の文字列または変換後の文字列で表される新たなカテゴリに分類する。

判定部１３で行う判定の基準となる類似度は、例えば、９５％以上類似するなどの高い割合で設定することが好ましい。ただし、外来語など、表記の間違いを行いやすい文字列に対しては、８５％以上など、数値を下げて設定する。ここで類似度を１００％（単語が一致する）としないのは、例えば、「シュミレーション（シミュレーションの誤記）」と「シミュレーション」や、「コンピュータ（コンピューターの長音符の省略）」と「コンピューター」、など異なる表記であって同じ単語を表す文字列を、同じ単語として判断するためである。これにより、揺れ表記を含めて判定を行うことができる。その他にも、いずれも使用されることのある語句である長音符（ー）がある語句とない語句、間違えて表記しやすい小文字と大文字（「っ」と「つ」など）、濁音および半濁音と清音、を考慮して判断することができる。また、記号やスペースの有無、異なる記号（「・」、「、」、「’」）の表記の違いも考慮することができる。

図２は、実施の形態１に係るデータの対象テーブルの一例を示す図である。図２（ａ）は一般例であり、図２（ｂ）は「ハマチ」などの魚を例にした対象テーブルである。例えば、データ取得部１１で取得したデータは、対象テーブルの形式で記憶する。項目数は少なくとも２つ備える。２つとは、所定の文字列を含む単語の項目と、そのＩＤもしくは割り当てられた番号を含む項目である。項目は必要に応じて増えていき、例えば、リンクする先の情報であったり、分類するカテゴリ（カテゴリ名）であったり、と情報に合わせて項目を追加していく。

図３は、実施の形態１に係るカテゴリ情報の一例を示す図である。図３（ａ）は一般例であり、図３（ｂ）は「ぶり」を例にしたカテゴリ情報である。条件式と条件値は、カテゴリの分類に関するルールの１つを示す。データ分類システム１００は、用語をカテゴリに分類する際に、カテゴリ情報の条件値（カテゴリ名）の記載と用語が一致すれば、その条件値のカテゴリに分類する。条件値と一致しない場合であっても、いずれかの条件値に分類できる場合はそのカテゴリに分類し、さらにいずれの条件値にも分類できない場合は新しいカテゴリに分類する。

図４は、実施の形態１に係る辞書情報の一例を示す図である。図４（ａ）は一般例であり、図４（ｂ）、（ｃ）は「ハマチ」などの魚を例にした辞書情報である。辞書情報は、例えば、既に構築されている情報をネットワークなどを介して取得してもよいし、また、データの形式で取得してもよい。図４（ｂ）、（ｃ）では、「ハマチ」を表す同じ魚を表す言葉である「ブリ」、「イナダ」が、変換後の用語として記載されている。

図５は、実施の形態１に係る単語情報の一例を示す図であり、辞書情報の一例に該当する。図５（ａ）は一般例であり、図５（ｂ）は「鰤」などの魚を例にした辞書情報である。単語情報は辞書情報と同様に、ネットワークを介したりデータで取得したりすることができ、漢字をひらがなに変換するための基本情報として用いられる。図５（ｂ）では、「鰤」の読み方である「ぶり」が記載されている。

図６は、実施の形態１に係るデータ分類の動作の順序の一例を示す図である。図１ないし図６を用いて、データ分類システム１００の動作について説明する。

データ取得部１１は、入力部３を介して処理装置１へ入力された所定の文字列を含むデータを取得する。記憶部２は、その所定の文字列を含むデータをデータ情報２１に記憶する。

文字列抽出部１２は、辞書情報２２を参照し、データに含まれる所定の文字列を抽出する。このとき、記憶部２の辞書情報２２が用いられる。データ情報２１に保存されたデータを、図２（ｂ）の対象テーブルに示すデータの形式の形で保存する。

判定部１３は、まず、新カテゴリ名を設定するために、項目の追加を行う。ここでは図２（ｂ）の項目２の「ハマチ」、「鰤」にカテゴリを追加するための爛を設ける。図６（ａ）に示すように、データ情報２１の図２（ｂ）の形式で保存されたデータに、対象テーブル項目である項目ｎに新カテゴリ名を入れて、項目の追加を行う。

変換部１４は、カテゴリ情報２４を参照し、カテゴリ情報２４に「ハマチ」の単語はなく「ブリ」の単語はあることを確認する。また、辞書情報２２を参照し、「ハマチ」を「ブリ」に変換可能であることを確認する。そして、図６（ｂ）に示すように、「ハマチ」を「ブリ」に変換する。

また、変換部１４は、図５（ｂ）に示す単語情報となる辞書情報２２を参照して、図６（ｃ）に示すように、「鰤」を「ぶり」に変換する。その後、図６（ｂ）で変換した「ブリ」をひらがなに表記である「ぶり」に直し、図６（ｄ）に示す対象テーブルの形式に変換する。

判定部１３は、基準の文字列と所定の文字列との類似度を判定する。まず、抽出した所定の文字列がカテゴリを示す単語に該当するかを確認し、その選択した基準の文字列と所定の文字列とを比較して類似度を判定する。判定部１３は、カテゴリ情報２４の条件値（基準の文字列）の単語「ぶり」と、変換部１４で「ハマチ」および「鰤」を変換した新カテゴリ名「ぶり」との比較を行う。「ハマチ」および「鰤」について、共に、カテゴリ情報２４の条件値（基準の文字列）と、変換後の文字列である新カテゴリ名とが一致し、類似度は所定の値を満たすので条件式も満たすことが分かる。

分類部１５は、判定部１３で判定した類似度に基づき、「ハマチ」および「鰤」を、「ぶり」のカテゴリに分類し、データ分類を終える。そのカテゴリ名は、記憶部２のデータ情報２１に併せて記憶しておく。

図７は、実施の形態１に係るデータ分類システムのデータ分類動作の一例を示すフローチャートである。

データ取得部１１は、入力部３に入力されたデータを取得し、記憶部２のデータ情報２１に記憶する（ステップＳ１１）。文字列抽出部１２は、辞書情報２２を参照しながら、取得したデータより所定の文字列の抽出を行う（ステップＳ１２）。

変換部１４は、所定の文字列を変換ルール２３に基づき、必要があれば文字列の変換を行い、カテゴリ名を決定する（ステップＳ１３）。具体的には、変換ルール２３に基づき、所定の文字列を、同意語や類義語への変換したり、ひらがな表記への変換を行う。そして、判定部１３でカテゴリ情報２４のカテゴリ名となる条件値（基準の文字列）と条件式を参照し、類似度の判定を行う（ステップＳ１４）。

判定部１３で判定した類似度に基づき、類似度が所定の値より大きければ（ステップＳ１５；ＹＥＳ）、その条件値（基準の文字列）のカテゴリに分類し（ステップＳ１６）、終了する。類似度が所定の値より小さければ（ステップＳ１５；ＮＯ）、所定の文字列または変換後の文字列で表す新カテゴリに分類し（ステップＳ１７）、終了する。ステップＳ１７の新カテゴリは、カテゴリ情報２４に記載されていなかった条件値の基準の文字列であり、辞書情報２２に記載されてはいるが新たなカテゴリのものや、新しい言葉や造語、揺れ表記で修正できる範囲を超えた誤記の単語などの、辞書情報２２に記載されてなく分類不能な文字列で表すカテゴリのものを含む。

図８は、実施の形態１に係るデータ分類システムの文字列変換動作の一例を示すフローチャートである。図８の文字列変換動作は、図７に示すデータ分類動作１の文字列の変換動作（ステップＳ１３）の部分にあたる。

判定部１３は、まず、記憶部２のカテゴリ情報２４を確認する（ステップＳ２１）。文字列抽出部１２にて抽出した所定の文字列が、カテゴリ情報２４の条件値（基準の文字列）に該当しなければ（ステップＳ２２；ＮＯ）、辞書情報２２を参照し、同意語および／または類義語があるか確認する。その所定の文字列が同意語および／または類義語を有しており、その変換対象の語句がカテゴリ情報２４の条件値（基準の文字列）に該当すれば（ステップＳ２３；ＹＥＳ）、変換ルール２３に基づき所定の文字列を変換し（ステップＳ２４）、ステップＳ２５へ進む。文字列抽出部１２にて抽出した所定の文字列が、カテゴリ情報２４の条件値（基準の文字列）に該当する場合（ステップＳ２２；ＹＥＳ）は、そのままステップＳ２５へ進む。文字列抽出部１２にて抽出した所定の文字列がカテゴリ情報２４の条件値（基準の文字列）に該当せず（ステップＳ２２；ＮＯ）、かつ、同意語および／または類義語となる変換する対象がない場合（ステップＳ２３；ＮＯ）についても、そのままステップＳ２５へ進む。

抽出した所定の文字列または変換後の文字列に、漢字やカタカナが含まれてなく、ひらがな表記であれば（ステップＳ２５；ＹＥＳ）、文字列の変換動作を終了する。また、抽出所定の文字列または変換後の文字列に、漢字やカタカナが含まれており、ひらがな表記でなければ（ステップＳ２５；ＮＯ）、漢字やカタカナの部分をひらがなへ変換し（ステップＳ２６）、文字列の変換動作を終了する。なお、漢字をひらがなへ変換する場合は、辞書情報２２を参照し、読み方をひらがなで入力する。

（実施の形態２）
図９は、本発明の実施の形態２に係るデータ分類システムの機能を説明する図である。実施の形態２では、異なるカテゴリではあるがカテゴリ同士が関連する場合、もしくは分類方法によっては同一カテゴリに属する場合に、同じカテゴリに分類することができる。

異なるカテゴリとして分類した場合であっても、実際は同一のカテゴリに属することがあり、例えば、「電気釜」のカテゴリと「炊飯ジャー」のカテゴリは、共に「炊飯器」のカテゴリに属することができる。また、異なるカテゴリであるが、分類の方法によっては同じカテゴリとして分類することがあり、例えば、「炊飯器」のカテゴリと「冷蔵庫」のカテゴリは異なるカテゴリのものであるが、共に「白物家電」のカテゴリとして分類することができる。

実施の形態２に係るデータ分類システム１００の基本的な構造は、実施の形態１に係るデータ分類システム１００と同じである。実施の形態２では、処理装置１にカテゴリ判定部１６およびカテゴリ更新部１７を追加して備える。また、記憶部２はカテゴリ分類ルール２５を記憶する。

カテゴリ判定部１６は、データ情報２１にあるデータのそれぞれについて分類部１５で分類したカテゴリが一致しない場合に、カテゴリの確認を行う。確認とは、同一もしくは類似のカテゴリの有無を確認することで、辞書情報２２、カテゴリ情報２４およびカテゴリ分類ルール２５をもとに判断する。カテゴリ判定部１６は、分類したそれぞれのカテゴリについて、辞書情報２２をもとにして同意語および／または類義語がないかを確認し、かつ、カテゴリ情報２４およびカテゴリ分類ルール２５を満たすかを確認する。

カテゴリ分類ルール２５とは、カテゴリの分類に関するルールを指す。例えば、分類の際に、辞書情報２２をもとに選択された同意語や類義語などは全て同一グループとしてカテゴリに分類する方法や、カテゴリサイズをもとにカテゴリに分類する方法や、カテゴリ特徴をもとにカテゴリに分類する方法がある。

適用するカテゴリ分類ルール２５の選択の際に、データ情報２１を参照して、保存されたデータの分類傾向に基づき、最も好ましいルールを選択してもよい。例えば複数のデータを参照し、使用頻度の高い用語のカテゴリサイズをもとにカテゴリに分類する。また、データ分類システム１００を利用するユーザに対して、出力部４を介してルール選択の指示を行い、入力部３により入力されたルールを実行してもよい。

カテゴリサイズとは、カテゴリの単位の大きさをいう。例えば「大阪市」という単語は、「大阪市」、「大阪府」、「関西圏」、「日本」などの、複数の大きさの異なるカテゴリに属する。上述の例では、カテゴリサイズは、昇順のサイズの順で記載されている。

カテゴリの分類に関するルールの１つである、カテゴリサイズをもとに分類する方法には、最も小さいサイズのカテゴリに分類する方法、類似したサイズのカテゴリに分類する方法、などが挙げられる。既に、「横浜市」を「関東圏」というカテゴリに分類しており、類似したサイズのカテゴリに分類するというルールを適用した場合、「大阪市」について、同じカテゴリサイズの「関西圏」をカテゴリとして選択する。最も小さいサイズのカテゴリに分類するというルールであれば、「大阪市」、「横浜市」はそのままそれぞれのカテゴリが適用される。また、カテゴリ特徴をもとにカテゴリの分類を行う場合に「横浜市」を「都道府県庁所在地」として分類していれば、「大阪市」も「都道府県庁所在地」として分類する。

カテゴリ更新部１７は、カテゴリ判定部１６で確認し、共通する同意語および／または類義語であって、カテゴリ情報２４およびカテゴリ分類ルール２５を満たすカテゴリ名に、カテゴリ名を更新する。

図１０は、実施の形態２に係るカテゴリ情報の一例を示す図である。図１０（ａ）は一般例であり、図１０（ｂ）は「いなだ」、「わらさ」などの魚を例にしたカテゴリ情報である。図３に示したカテゴリ情報と比較すると、条件式と条件値は同じであるが、カテゴリ名の項目が追加されている。

図１１は、実施の形態２に係るデータ分類の動作の順序の一例を示す図である。図２、図４、図５および図９ないし図１１を用いて、データ分類システム１００の動作について説明する。

データ取得部１１は、入力部３を介して処理装置１へ入力された所定の文字列を含むデータを取得し、記憶部２のデータ情報２１へ記憶する。

判定部１３は、まず、新カテゴリ名を設定するために、項目の追加を行う。ここでは図２（ｂ）の項目２の「ハマチ」、「鰤」にカテゴリを追加するための爛を設ける。図１１（ａ）に示すように、データ情報２１の図２（ｂ）の形式で保存されたデータに、対象テーブル項目である項目ｎに新カテゴリ名を入れて、項目の追加を行う。

変換部１４は、カテゴリ情報２４を参照し、カテゴリ情報２４の条件値に「ハマチ」の単語はなく「イナダ」の単語はあることを確認する。また、図４（ｃ）に示す辞書情報２２を参照して、図１１（ｂ）に示すように、「ハマチ」を「イナダ」に変換する。さらに、図５（ｂ）に示す単語情報となる辞書情報２２を参照して、図１１（ｃ）に示すように、「鰤」を「ぶり」に変換する。そして、「イナダ」をひらがなに表記である「いなだ」に直し、図１１（ｄ）に示す対象テーブルの形式に変換する。

判定部１３は、基準の文字列と所定の文字列とを比較し、類似度を判定する。まず、カテゴリ情報２４を参照して抽出した所定の文字列がカテゴリを示す条件値（基準の文字列）の単語に該当するかを確認し、その基準の文字列と所定の文字列とを比較して類似度を判定する。「いなだ」と「ぶり」は、それぞれカテゴリ情報２４に記載されたカテゴリ名の、基準の文字列である「いなだ」と「ぶり」に一致し、類似度は所定の値を満たす。

一旦、分類部１５は、図１１（ｄ）に示す対象テーブルの形式である「いなだ」と「ぶり」のそれぞれのカテゴリに仮分類する。

次に、カテゴリ判定部１６は、それぞれのカテゴリについて、同意語および／または類義語がないかを確認し、かつ、カテゴリ分類ルール２５を満たすかを確認する。ここでは、カテゴリ分類ルール２５は、同一のカテゴリ名となる場合に統一するものとしておく。

カテゴリ判定部１６は、図１０（ｂ）より、「いなだ」は「ぶり」とほぼ同一のカテゴリとして置き換え可能であることを確認する。また、「いなだ」と「ぶり」は、ともにカテゴリ情報２４の条件値（基準の文字列）にあり、かつ、同一のカテゴリ「ぶり」に属するのでカテゴリ分類ルール２５を満たすことを確認する。

カテゴリ更新部１７は、カテゴリ判定部１６の結果に基づき、共通する同意語および／または類義語であり、かつ、カテゴリ情報２４およびカテゴリ分類ルール２５を満たすカテゴリ名である「ぶり」にカテゴリ名を更新し、図１１（ｅ）に示す対象テーブルの形式に変換する。

分類部１５は、カテゴリ更新部１７で、「ハマチ」および「鰤」が共に「ぶり」のカテゴリとしてカテゴリの更新が行われたことに基づき、「ハマチ」および「鰤」を、仮分類していた「いなだ」と「ぶり」のカテゴリ（図１１（ｄ）参照）から、「ぶり」のカテゴリ（図１１（ｅ）参照）に分類し直し、データ分類を終える。そのカテゴリ名は、記憶部２のデータ情報２１に併せて記憶しておく。

図１２は、実施の形態２に係るデータ分類システムのデータ分類動作の一例を示すフローチャートである。

変換部１４は、所定の文字列を変換ルール２３に基づき必要があれば文字列の変換を行い、カテゴリ名を仮決定する（ステップＳ３１）。具体的には、変換ルール２３に基づき、所定の文字列を、同意語や類義語への変換したり、ひらがな表記への変換を行う。そして、判定部１３でカテゴリ情報２４の条件値（カテゴリ名）と条件式を参照し、類似度の判定を行う（ステップＳ１４）。

判定部１３で判定した類似度に基づき、類似度が所定の値より大きければ（ステップＳ１５；ＹＥＳ）、その条件値（基準の文字列）のカテゴリに仮分類し（ステップＳ３２）、ステップＳ３４へ進む。類似度が所定の値より小さければ（ステップＳ１５；ＮＯ）、所定の文字列または変換後の文字列で表す新カテゴリに仮分類し（ステップＳ３３）、ステップＳ３４へ進む。

次に、カテゴリ判定部１６は、データ分類を行うそれぞれのデータについて、カテゴリ名が一致しているか確認する（ステップＳ３４）。カテゴリ名が一致していれば（ステップＳ３４；ＹＥＳ）、そのままそのカテゴリに分類し（ステップＳ３８）、終了する。

カテゴリ名が一致していなければ（ステップＳ３４；ＮＯ）、比較したそれぞれのカテゴリ名について辞書情報２２を参照し、変換対象となる同意語および／または類義語がないかを確認する（ステップＳ３５）。変換対象があり（ステップＳ３５；ＹＥＳ）、かつ、カテゴリ情報２４に記載があり、カテゴリ分類ルール２５を満たしていれば（ステップＳ３６；ＹＥＳ）、それぞれのカテゴリについて、同一のカテゴリ名で更新する（ステップＳ３７）。そして、その更新したカテゴリに分類し（ステップＳ３８）、終了する。

カテゴリ名が不一致であり（ステップＳ３４；ＮＯ）、変換すべき対象がないもの（ステップＳ３５；ＮＯ）、または変換すべき対象はあるが（ステップＳ３５；ＹＥＳ）、カテゴリ分類ルール２５を満たさないもの（ステップＳ３６；ＮＯ）は、カテゴリ名の更新をすることなく、そのままのカテゴリに分類し（ステップＳ３８）、終了する。そのままのカテゴリに分類とは、仮カテゴリ名をそのままカテゴリ名として、カテゴリに分類することをいう。

以上説明したように、本実施の形態のデータ分類システムによれば、データの文字列が完全に一致しない場合や表現が異なる場合においても、データを分類することができる。

カテゴリに分類しようとするデータが完全に一致していなくても、同じ意味であれば同一のカテゴリに分類することができる。同じ意味合いで用いられているが単語が異なるものは多く、日本語と外来語で呼び方が異なるもの、時代により呼び方が異なるもの、地域により呼び方が異なるものなどがあり、その両方とも使用される単語の場合、同じカテゴリに分類することで、明確に分類することができる。

また、カタカナや漢字をひらがなに変換してカテゴリに分類することで、より分類を行いやすくすることができる。特に、漢字をひらがなに変換することで、「行う」と「行なう」などのように送り仮名が異なる表記方法を用いたものについても、「おこなう」として同じ文字列であることが分かり、容易にカテゴリに分類することができる。

さらに、揺れ表記を含めて類似度を判定することで、軽微な間違いや表記のずれを含めて分類することができ、分類を行いやすくする。例えば、いずれも使用されることのある語句である長音符（ー）がある語句とない語句、間違えて表記しやすい小文字と大文字、濁音および半濁音と清音、を考慮して判断することができる。また、記号やスペースの有無、異なる記号（「・」、「、」、「’」）の表記の違いも考慮することができる。

関連する技術では、従来、カテゴリに分類した後に、重複するカテゴリがないかの確認や、未分類のもの（新カテゴリとして分類されるものを指す）の確認の作業が必要であったが、本発明を用いることにより分類が容易、かつ、高度に行われ、確認作業にかかる時間を省略することが可能となる。また、重複するカテゴリがなくなり、カテゴリが明確になるなど、好ましい分類を行うことができる。

さらに、一旦カテゴリに分類した後に、分類ルールを用いて再分類が可能であり、カテゴリをまとめたり、異なる基準でカテゴリに分類したり、など、ユーザの希望に沿った分類を行うことが可能となる。

図１３は、本発明の実施の形態に係るデータ分析システムの物理的な構成例を示すブロック図である。データ分析システム１００は、図１３に示すように、制御部３１、主記憶部３２、外部記憶部３３、操作部３４、表示部３５および送受信部３６を備える。主記憶部３２、外部記憶部３３、操作部３４、表示部３５および送受信部３６はいずれも内部バス３０を介して制御部３１に接続されている。

制御部３１はＣＰＵ（Central Processing Unit）等から構成され、外部記憶部３３に記憶されている制御プログラム３９に従って、前述の通信処理を実行する。制御部は、処理装置１として機能する。

主記憶部３２はＲＡＭ（Random-Access Memory）等から構成され、外部記憶部３３に記憶されている制御プログラム３９をロードし、制御部３１の作業領域として用いられる。記憶部２は、主記憶部３２に構成される。

外部記憶部３３は、フラッシュメモリ、ハードディスク、ＤＶＤ−ＲＡＭ（Digital Versatile Disc Random-Access Memory）、ＤＶＤ−ＲＷ（Digital Versatile Disc ReWritable）等の不揮発性メモリから構成され、前記の処理を制御部３１に行わせるための制御プログラム３９を予め記憶し、また、制御部３１の指示に従って、この制御プログラム３９が記憶するデータを制御部３１に供給し、制御部３１から供給されたデータを記憶する。記憶部２は、主外部記憶部３３に構成される。

操作部３４はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス３０に接続するインタフェース装置から構成されている。操作部３４を介して、データ情報２１や変換ルール２３、カテゴリ分類ルール２５などが入力され、制御部３１に供給される。

表示部３５は、ＣＲＴ（Cathode Ray Tube）またはＬＣＤ（Liquid Crystal Display）などから構成され、出力部４を介して分類したカテゴリを表示するなど、その他データ分類に関する情報などを表示する。

送受信部３６は、網終端装置または無線送受信機およびそれらと接続するシリアルインタフェースまたはＬＡＮ（Local Area Network）インタフェースから構成されている。送受信部３６は、入力部３および出力部４として機能する。

図１または図９に示すデータ分析システム１００のデータ取得部１１、文字列抽出部１２、判定部１３、変換部１４、分類部１５、カテゴリ判定部１６およびカテゴリ更新部１７を含む処理装置１、記憶部２、入力部３および出力部４の処理は、制御プログラム３９が、制御部３１、主記憶部３２、外部記憶部３３、操作部３４、表示部３５および送受信部３６などを資源として用いて処理することによって実行する。

その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更および修正が可能である。

データ分析システム１００の制御部３１、主記憶部３２、外部記憶部３３、操作部３４、表示部３５および送受信部３６などから構成されるデータ分析システム１００の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体（フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等）に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行するデータ分析システム１００を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することでデータ分析システム１００を構成してもよい。

また、データ分析システム１００の機能を、ＯＳ（オペレーティングシステム）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
検索可能な文字列を含むデータを取得するデータ取得手段と、
前記データに含まれる所定の文字列を抽出する抽出手段と、
文字列を変換する変換ルールを記憶するルール記憶手段と、
前記変換ルールに基づき前記所定の文字列を変換する変換手段と、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶手段と、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定手段と、
前記判定手段で判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類手段と、
を備えることを特徴とするデータ分類システム。

（付記２）
辞書情報を取得する情報取得手段を備え、
前記変換手段で変換する際に用いる変換ルールは、前記情報取得手段で取得した辞書情報を用いて前記所定の文字列を同意語および／または類義語に変換するルールであることを特徴とする付記１に記載のデータ分類システム。

（付記３）
前記変換手段で変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび／または漢字をひらがなに変換するルールであることを特徴とする付記１または２に記載のデータ分類システム。

（付記４）
前記分類手段でグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定手段と、
前記カテゴリ判定手段で判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および／または類義語に変換し、該カテゴリを更新するカテゴリ更新手段と、
を備えることを特徴とする付記１ないし３のいずれかに記載のデータ分類システム。

（付記５）
データベースにおけるデータの分類をデータ分類システムが行う方法であって、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を備えることを特徴とするデータ分類方法。

（付記６）
辞書情報を取得する情報取得ステップを備え、
前記変換ステップで変換する際に用いる変換ルールは、前記情報取得ステップで取得した辞書情報を用いて前記所定の文字列を同意語および／または類義語に変換するルールであることを特徴とする付記５に記載のデータ分類方法。

（付記７）
前記変換ステップで変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび／または漢字をひらがなに変換するルールであることを特徴とする付記５または６に記載のデータ分類方法。

（付記８）
前記分類ステップでグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定ステップと、
前記カテゴリ判定ステップで判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および／または類義語に変換し、該カテゴリを更新するカテゴリ更新ステップと、
を備えることを特徴とする付記５ないし７のいずれかに記載のデータ分類方法。

（付記９）
コンピュータに、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を実行させることを特徴とするプログラム。

１処理装置
２記憶部
３入力部
４出力部
１１データ取得部
１２文字列抽出部
１３判定部
１４変換部
１５分類部
１６カテゴリ判定部
１７カテゴリ更新部
２１データ情報
２２辞書情報
２３変換ルール
２４カテゴリ情報
２５カテゴリ分類ルール
３１制御部
３２主記憶部
３３外部記憶部
３４操作部
３５表示部
３６送受信部
３９制御プログラム
１００データ分類システム

Claims

検索可能な文字列を含むデータを取得するデータ取得手段と、
前記データに含まれる所定の文字列を抽出する抽出手段と、
文字列を変換する変換ルールを記憶するルール記憶手段と、
前記変換ルールに基づき前記所定の文字列を変換する変換手段と、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶手段と、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定手段と、
前記判定手段で判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類手段と、
を備えることを特徴とするデータ分類システム。
辞書情報を取得する情報取得手段を備え、
前記変換手段で変換する際に用いる変換ルールは、前記情報取得手段で取得した辞書情報を用いて前記所定の文字列を同意語および／または類義語に変換するルールであることを特徴とする請求項１に記載のデータ分類システム。
前記変換手段で変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび／または漢字をひらがなに変換するルールであることを特徴とする請求項１または２に記載のデータ分類システム。
前記分類手段でグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定手段と、
前記カテゴリ判定手段で判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および／または類義語に変換し、該カテゴリを更新するカテゴリ更新手段と、
を備えることを特徴とする請求項１ないし３のいずれか１項に記載のデータ分類システム。
データベースにおけるデータの分類をデータ分類システムが行う方法であって、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を備えることを特徴とするデータ分類方法。
辞書情報を取得する情報取得ステップを備え、
前記変換ステップで変換する際に用いる変換ルールは、前記情報取得ステップで取得した辞書情報を用いて前記所定の文字列を同意語および／または類義語に変換するルールであることを特徴とする請求項５に記載のデータ分類方法。
前記変換ステップで変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび／または漢字をひらがなに変換するルールであることを特徴とする請求項５または６に記載のデータ分類方法。
前記分類ステップでグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定ステップと、
前記カテゴリ判定ステップで判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および／または類義語に変換し、該カテゴリを更新するカテゴリ更新ステップと、
を備えることを特徴とする請求項５ないし７のいずれか１項に記載のデータ分類方法。
コンピュータに、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を実行させることを特徴とするプログラム。