JP5348699B2 - データ分類システム、データ分類方法およびプログラム - Google Patents
データ分類システム、データ分類方法およびプログラム Download PDFInfo
- Publication number
- JP5348699B2 JP5348699B2 JP2010254657A JP2010254657A JP5348699B2 JP 5348699 B2 JP5348699 B2 JP 5348699B2 JP 2010254657 A JP2010254657 A JP 2010254657A JP 2010254657 A JP2010254657 A JP 2010254657A JP 5348699 B2 JP5348699 B2 JP 5348699B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- category
- data
- classification
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
検索可能な文字列を含むデータを取得するデータ取得手段と、
前記データに含まれる所定の文字列を抽出する抽出手段と、
文字列を変換する変換ルールを記憶するルール記憶手段と、
前記変換ルールに基づき前記所定の文字列を変換する変換手段と、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶手段と、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定手段と、
前記判定手段で判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類手段と、
を備えることを特徴とする。
データベースにおけるデータの分類をデータ分類システムが行う方法であって、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を備えることを特徴とする。
コンピュータに、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を実行させることを特徴とする。
図1は、本発明の実施の形態1に係るデータ分類システムの構成の一例を示すブロック図である。データ分類システム100は、処理装置1、記憶部2、入力部3および出力部4を備える。
図9は、本発明の実施の形態2に係るデータ分類システムの機能を説明する図である。実施の形態2では、異なるカテゴリではあるがカテゴリ同士が関連する場合、もしくは分類方法によっては同一カテゴリに属する場合に、同じカテゴリに分類することができる。
検索可能な文字列を含むデータを取得するデータ取得手段と、
前記データに含まれる所定の文字列を抽出する抽出手段と、
文字列を変換する変換ルールを記憶するルール記憶手段と、
前記変換ルールに基づき前記所定の文字列を変換する変換手段と、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶手段と、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定手段と、
前記判定手段で判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類手段と、
を備えることを特徴とするデータ分類システム。
辞書情報を取得する情報取得手段を備え、
前記変換手段で変換する際に用いる変換ルールは、前記情報取得手段で取得した辞書情報を用いて前記所定の文字列を同意語および/または類義語に変換するルールであることを特徴とする付記1に記載のデータ分類システム。
前記変換手段で変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび/または漢字をひらがなに変換するルールであることを特徴とする付記1または2に記載のデータ分類システム。
前記分類手段でグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定手段と、
前記カテゴリ判定手段で判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および/または類義語に変換し、該カテゴリを更新するカテゴリ更新手段と、
を備えることを特徴とする付記1ないし3のいずれかに記載のデータ分類システム。
データベースにおけるデータの分類をデータ分類システムが行う方法であって、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を備えることを特徴とするデータ分類方法。
辞書情報を取得する情報取得ステップを備え、
前記変換ステップで変換する際に用いる変換ルールは、前記情報取得ステップで取得した辞書情報を用いて前記所定の文字列を同意語および/または類義語に変換するルールであることを特徴とする付記5に記載のデータ分類方法。
前記変換ステップで変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび/または漢字をひらがなに変換するルールであることを特徴とする付記5または6に記載のデータ分類方法。
前記分類ステップでグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定ステップと、
前記カテゴリ判定ステップで判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および/または類義語に変換し、該カテゴリを更新するカテゴリ更新ステップと、
を備えることを特徴とする付記5ないし7のいずれかに記載のデータ分類方法。
コンピュータに、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を実行させることを特徴とするプログラム。
2 記憶部
3 入力部
4 出力部
11 データ取得部
12 文字列抽出部
13 判定部
14 変換部
15 分類部
16 カテゴリ判定部
17 カテゴリ更新部
21 データ情報
22 辞書情報
23 変換ルール
24 カテゴリ情報
25 カテゴリ分類ルール
31 制御部
32 主記憶部
33 外部記憶部
34 操作部
35 表示部
36 送受信部
39 制御プログラム
100 データ分類システム
Claims (9)
- 検索可能な文字列を含むデータを取得するデータ取得手段と、
前記データに含まれる所定の文字列を抽出する抽出手段と、
文字列を変換する変換ルールを記憶するルール記憶手段と、
前記変換ルールに基づき前記所定の文字列を変換する変換手段と、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶手段と、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定手段と、
前記判定手段で判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類手段と、
を備えることを特徴とするデータ分類システム。 - 辞書情報を取得する情報取得手段を備え、
前記変換手段で変換する際に用いる変換ルールは、前記情報取得手段で取得した辞書情報を用いて前記所定の文字列を同意語および/または類義語に変換するルールであることを特徴とする請求項1に記載のデータ分類システム。 - 前記変換手段で変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび/または漢字をひらがなに変換するルールであることを特徴とする請求項1または2に記載のデータ分類システム。
- 前記分類手段でグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定手段と、
前記カテゴリ判定手段で判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および/または類義語に変換し、該カテゴリを更新するカテゴリ更新手段と、
を備えることを特徴とする請求項1ないし3のいずれか1項に記載のデータ分類システム。 - データベースにおけるデータの分類をデータ分類システムが行う方法であって、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を備えることを特徴とするデータ分類方法。 - 辞書情報を取得する情報取得ステップを備え、
前記変換ステップで変換する際に用いる変換ルールは、前記情報取得ステップで取得した辞書情報を用いて前記所定の文字列を同意語および/または類義語に変換するルールであることを特徴とする請求項5に記載のデータ分類方法。 - 前記変換ステップで変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび/または漢字をひらがなに変換するルールであることを特徴とする請求項5または6に記載のデータ分類方法。
- 前記分類ステップでグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定ステップと、
前記カテゴリ判定ステップで判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および/または類義語に変換し、該カテゴリを更新するカテゴリ更新ステップと、
を備えることを特徴とする請求項5ないし7のいずれか1項に記載のデータ分類方法。 - コンピュータに、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010254657A JP5348699B2 (ja) | 2010-11-15 | 2010-11-15 | データ分類システム、データ分類方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010254657A JP5348699B2 (ja) | 2010-11-15 | 2010-11-15 | データ分類システム、データ分類方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012108575A JP2012108575A (ja) | 2012-06-07 |
JP5348699B2 true JP5348699B2 (ja) | 2013-11-20 |
Family
ID=46494148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010254657A Expired - Fee Related JP5348699B2 (ja) | 2010-11-15 | 2010-11-15 | データ分類システム、データ分類方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5348699B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7491022B2 (ja) * | 2020-03-31 | 2024-05-28 | 大日本印刷株式会社 | 書類識別装置、書類識別方法及びコンピュータプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2791106B2 (ja) * | 1989-06-14 | 1998-08-27 | 株式会社日立製作所 | 文字列検索装置 |
JP4283898B2 (ja) * | 1995-10-20 | 2009-06-24 | 富士通株式会社 | 文章校正装置 |
JP3847273B2 (ja) * | 2003-05-12 | 2006-11-22 | 沖電気工業株式会社 | 単語分類装置、単語分類方法及び単語分類プログラム |
-
2010
- 2010-11-15 JP JP2010254657A patent/JP5348699B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012108575A (ja) | 2012-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5870790B2 (ja) | 文章校正装置、及び文章校正方法 | |
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
US10552467B2 (en) | System and method for language sensitive contextual searching | |
JP6022239B2 (ja) | データを処理するシステム及び方法 | |
US20180075013A1 (en) | Method and system for automating training of named entity recognition in natural language processing | |
CN105210057B (zh) | 多语言商业标记管理以及音译合成 | |
JP2010157178A (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
JP2003514304A (ja) | スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ | |
US8583415B2 (en) | Phonetic search using normalized string | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
WO2010109594A1 (ja) | 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法 | |
JP5231484B2 (ja) | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 | |
JP2006323517A (ja) | テキスト分類装置およびプログラム | |
JP4945015B2 (ja) | 文書検索システム、文書検索プログラム、および文書検索方法 | |
JP5348699B2 (ja) | データ分類システム、データ分類方法およびプログラム | |
WO2020157887A1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム | |
CN104641367B (zh) | 用于格式化电子字符序列的格式化模块、系统和方法 | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
JP6623840B2 (ja) | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム | |
JP2008059389A (ja) | 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム | |
JP2000293537A (ja) | データ分析支援方法および装置 | |
JP2011198285A (ja) | 文書処理システム、及びプログラム | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP2007148630A (ja) | 特許分析装置、特許分析システム、特許分析方法およびプログラム | |
JP2008210229A (ja) | 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120709 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130710 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130723 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5348699 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |