JP2016081526A - テーブル再構成装置と方法 - Google Patents
テーブル再構成装置と方法 Download PDFInfo
- Publication number
- JP2016081526A JP2016081526A JP2015199484A JP2015199484A JP2016081526A JP 2016081526 A JP2016081526 A JP 2016081526A JP 2015199484 A JP2015199484 A JP 2015199484A JP 2015199484 A JP2015199484 A JP 2015199484A JP 2016081526 A JP2016081526 A JP 2016081526A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- column
- description
- description object
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
テーブル再構成装置であって、
テーブル中の列毎の属性を確定するように構成された列属性確定ユニットと、
確定された列毎の属性を語彙知識ベースとリンクさせることにより、前記テーブル中の記述対象を確定するように構成された記述対象確定ユニットと、
前記語彙知識ベースにおいて各記述対象の属性集合を確定して、前記テーブル中の列毎の属性と前記属性集合中の各属性との第一類似度を算出して、前記テーブル中の前記記述対象に関連する属性を確定するように構成された記述対象関連属性確定ユニットと、
前記記述対象と前記記述対象に関連する属性とを用いてテーブルを再構成するように構成されたテーブル再構成ユニットとを含む装置。
前記列属性確定ユニットはさらに、
前記テーブルが列タイトルを有する場合、前記テーブルの列タイトルを前記語彙知識ベース中の属性とリンクさせて、対応する列毎の属性を得、
前記テーブルが列タイトルを有しない場合、正規表現式による識別、姓氏辞書による識別、住所知識ベースによる識別、地図検索エンジンによる識別、及び前記語彙知識ベース中の実体とリンクさせて識別する方法のうち一つ又は複数の識別方法を用いて、前記テーブル中の列毎の属性を確定するように構成された、付記1に記載の装置。
前記記述対象確定ユニットは、
確定された列毎の属性に基づいて、実体を含む列の列数Nを得るように構成された実体列数確定サブユニットと、
前記列毎の属性に対応する記述対象集合を得るように構成された記述対象集合確定サブユニットと、
前記語彙知識ベースに基づいて、前記列毎の属性に対応する記述対象集合中の各記述対象を当該属性によって記述できる条件確率を確定するように構成された記述対象条件確率確定サブユニットと、
各記述対象の条件確率に基づいて、前記テーブルの記述対象を確定するように構成された記述対象確定サブユニットとを含む、付記1に記載の装置。
前記記述対象確定サブユニットはさらに、
各記述対象がすべての記述対象集合における条件確率の和又は平均条件確率を算出し、
各記述対象の条件確率の和又は平均条件確率を大きい方から小さい方の順に配列させて、前N個の記述対象を前記テーブルの記述対象とするように構成された、付記3に記載の装置。
前記記述対象関連属性確定ユニットはさらに、
前記テーブル中の列毎の実例と前記属性集合中の各属性の値との第二類似度を算出し、
前記第一類似度と前記第二類似度の重み付け和を求め、重み付け類似度を得て、
前記重み付け類似度が所定の閾値より大きい列の属性を前記テーブル中の前記記述対象に関連する属性と確定するように構成された、付記1に記載の装置。
前記記述対象関連属性確定ユニットはさらに、
前記記述対象の属性集合中の属性が前記テーブル中の属性のいずれにも関連しない場合、該記述対象を廃棄するように構成された、付記1に記載の装置。
前記列属性確定ユニットはさらに、
ある列中の実例が複数の属性に対応する場合、所定の条件に基づいて該列の属性を確定し、
所定の条件を満たさない場合、該列を無視するように構成された、付記1に記載の装置。
前記所定の条件として、複数の属性中のある属性に対応する実例の数がその他の属性に対応する実例の数より大きい場合、該属性を該列の属性と確定する、付記7に記載の装置。
再構成されたテーブルが単一記述対象テーブルである、付記1に記載の装置。
テーブル再構成方法であって、
テーブル中の列毎の属性を確定するステップと、
確定された列毎の属性を語彙知識ベースとリンクさせることにより、前記テーブルの記述対象を確定するステップと、
前記語彙知識ベースにおいて各記述対象の属性集合を確定して、前記テーブル中の列毎の属性と前記属性集合中の各属性との第一類似度を算出して、前記テーブル中の前記記述対象に関連する属性を確定するステップと、
前記記述対象と前記記述対象に関連する属性とを用いて、テーブルを再構成するステップとを含む方法。
テーブル中の列毎の属性を確定するステップは、
前記テーブルが列タイトルを有する場合、前記テーブルの列タイトルを前記語彙知識ベース中の属性とリンクさせて、対応する列毎の属性を得るステップと、
前記テーブルが列タイトルを有しない場合、正規表現式による識別、姓氏辞書による識別、住所知識ベースによる識別、地図検索エンジンによる識別、及び前記語彙知識ベース中の実体とリンクさせて識別する方法のうち一つ又は複数の識別方法を用いて、前記テーブル中の列毎の属性を確定するステップとを含む、付記10に記載の方法。
確定された列毎の属性を語彙知識ベースとリンクさせることにより、前記テーブルの記述対象を確定するステップは、
確定された列毎の属性に基づいて、実体を含む列の列数Nを得るステップと、
前記列毎の属性に対応する記述対象集合を得るステップと、
前記語彙知識ベースに基づいて、前記列毎の属性に対応する記述対象集合中の各記述対象を当該属性によって記述できる条件確率を確定するステップと、
各記述対象の条件確率に基づいて、前記テーブルの記述対象を確定するステップとを含む、付記10に記載の方法。
各記述対象の条件確率に基づいて、前記テーブルの記述対象を確定するステップは、
各記述対象がすべての記述対象集合における条件確率の和又は平均条件確率を算出するステップと、
各記述対象の条件確率の和又は平均条件確率を大きい方から小さい方の順に配列させて、前N個の記述対象を前記テーブルの記述対象とするステップとを含む、付記12に記載の方法。
前記テーブル中の前記記述対象に関連する属性を確定するステップはさらに、
前記テーブル中の列毎の実例と前記属性集合中の各属性の値との第二類似度を算出するステップと、
前記第一類似度と前記第二類似度の重み付け和を求め、重み付け類似度を得るステップと、
前記重み付け類似度が所定の閾値より大きい列の属性を前記テーブル中の前記記述対象に関連する属性と確定するステップを含む、付記10に記載の方法。
前記語彙知識ベースにおいて各記述対象の属性集合を確定して、前記テーブル中の列毎の属性と前記属性集合中の各属性との第一類似度を算出するステップはさらに、
前記記述対象の属性集合中の属性が前記テーブル中の属性のいずれにも関連しない場合、該記述対象を廃棄するステップを含む、付記10に記載の方法。
テーブル中の列毎の属性を確定するステップは、
ある列中の実例が複数の属性に対応する場合、所定の条件に基づいて該列の属性を確定するステップと、
所定の条件を満たさない場合、該列を無視するステップとを含む、付記10に記載の方法。
前記所定の条件として、複数の属性中のある属性に対応する実例の数がその他の属性に対応する実例の数より大きい場合、該属性を該列の属性と確定する、付記16に記載の方法。
再構成されたテーブルが単一記述対象テーブルである、付記10に記載の方法。
204 記述対象確定ユニット
206 記述対象関連属性確定ユニット
208 テーブル再構成ユニット
2042 実体列数確定サブユニット
2044 記述対象集合確定サブユニット
2046 記述対象条件確率確定サブユニット
2048 記述対象確定サブユニット
605 入力/出力インタフェース
606 入力部
607 出力部
608 記憶部
609 通信部
610 ドライブ
611 脱着可能な媒体
Claims (10)
- テーブル再構成装置であって、
テーブル中の列毎の属性を確定するように構成された列属性確定ユニットと、
確定された列毎の属性を語彙知識ベースとリンクさせることにより、前記テーブル中の記述対象を確定するように構成された記述対象確定ユニットと、
前記語彙知識ベースにおいて各記述対象の属性集合を確定して、前記テーブル中の列毎の属性と前記属性集合中の各属性との第一類似度を算出して、前記テーブル中の前記記述対象に関連する属性を確定するように構成された記述対象関連属性確定ユニットと、
前記記述対象と前記記述対象に関連する属性とを用いてテーブルを再構成するように構成されたテーブル再構成ユニットとを含む装置。 - 前記列属性確定ユニットはさらに、
前記テーブルが列タイトルを有する場合、前記テーブルの列タイトルを前記語彙知識ベース中の属性とリンクさせて、対応する列毎の属性を得、
前記テーブルが列タイトルを有しない場合、正規表現式による識別、姓氏辞書による識別、住所知識ベースによる識別、地図検索エンジンによる識別、及び前記語彙知識ベース中の実体とリンクさせて識別する方法のうち一つ又は複数の識別方法を用いて、前記テーブル中の列毎の属性を確定するように構成された、請求項1に記載の装置。 - 前記記述対象確定ユニットは、
確定された列毎の属性に基づいて、実体を含む列の列数Nを得るように構成された実体列数確定サブユニットと、
前記列毎の属性に対応する記述対象集合を得るように構成された記述対象集合確定サブユニットと、
前記語彙知識ベースに基づいて、前記列毎の属性に対応する記述対象集合中の各記述対象を当該属性によって記述できる条件確率を確定するように構成された記述対象条件確率確定サブユニットと、
各記述対象の条件確率に基づいて、前記テーブルの記述対象を確定するように構成された記述対象確定サブユニットとを含む、請求項1に記載の装置。 - 前記記述対象確定サブユニットはさらに、
各記述対象がすべての記述対象集合における条件確率の和又は平均条件確率を算出し、
各記述対象の条件確率の和又は平均条件確率を大きい方から小さい方の順に配列させて、前N個の記述対象を前記テーブルの記述対象とするように構成された、請求項3に記載の装置。 - 前記記述対象関連属性確定ユニットはさらに、
前記テーブル中の列毎の実例と前記属性集合中の各属性の値との第二類似度を算出し、
前記第一類似度と前記第二類似度の重み付け和を求め、重み付け類似度を得て、
前記重み付け類似度が所定の閾値より大きい列の属性を前記テーブル中の前記記述対象に関連する属性と確定するように構成された、請求項1に記載の装置。 - 前記記述対象関連属性確定ユニットはさらに、
前記記述対象の属性集合中の属性が前記テーブル中の属性のいずれにも関連しない場合、該記述対象を廃棄するように構成された、請求項1に記載の装置。 - 前記列属性確定ユニットはさらに、
ある列中の実例が複数の属性に対応する場合、所定の条件に基づいて該列の属性を確定し、
所定の条件を満たさない場合、該列を無視するように構成された、請求項1に記載の装置。 - 前記所定の条件として、複数の属性中のある属性に対応する実例の数がその他の属性に対応する実例の数より大きい場合、該属性を該列の属性と確定する、請求項7に記載の装置。
- 再構成されたテーブルが単一記述対象テーブルである、請求項1に記載の装置。
- テーブル再構成方法であって、
テーブル中の列毎の属性を確定するステップと、
確定された列毎の属性を語彙知識ベースとリンクさせることにより、前記テーブルの記述対象を確定するステップと、
前記語彙知識ベースにおいて各記述対象の属性集合を確定して、前記テーブル中の列毎の属性と前記属性集合中の各属性との第一類似度を算出して、前記テーブル中の前記記述対象に関連する属性を確定するステップと、
前記記述対象と前記記述対象に関連する属性とを用いて、テーブルを再構成するステップとを含む方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410532186.5A CN105573971B (zh) | 2014-10-10 | 2014-10-10 | 表格重构装置和方法 |
CN201410532186.5 | 2014-10-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016081526A true JP2016081526A (ja) | 2016-05-16 |
JP6586850B2 JP6586850B2 (ja) | 2019-10-09 |
Family
ID=55884123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015199484A Active JP6586850B2 (ja) | 2014-10-10 | 2015-10-07 | テーブル再構成装置と方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6586850B2 (ja) |
CN (1) | CN105573971B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020152804A1 (ja) * | 2019-01-23 | 2020-07-30 | 日本電気株式会社 | 情報提供システム、方法およびプログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932268B (zh) * | 2017-05-26 | 2020-09-04 | 华为技术有限公司 | 数据处理方法及装置 |
CN110019829B (zh) * | 2017-09-19 | 2021-05-07 | 绿湾网络科技有限公司 | 数据属性确定方法、装置 |
CN107656909B (zh) * | 2017-10-30 | 2021-06-01 | 北京明朝万达科技股份有限公司 | 一种基于文档混合特征的文档相似度判定方法和装置 |
CN110609928A (zh) * | 2019-08-28 | 2019-12-24 | 宁波市智慧城市规划标准发展研究院 | 基于政务数据的姓名特征识别系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0527960A (ja) * | 1991-07-24 | 1993-02-05 | Toshiba Corp | データベース構築方法 |
JP2001507837A (ja) * | 1996-12-30 | 2001-06-12 | ディ. ゴールドスタイン,ベンジャミン | データを安全に格納する方法及び装置 |
JP2003216619A (ja) * | 2002-01-18 | 2003-07-31 | Kanazawa Inst Of Technology | コンピュータ処理装置 |
JP2003271656A (ja) * | 2002-03-19 | 2003-09-26 | Fujitsu Ltd | 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2007521545A (ja) * | 2003-03-01 | 2007-08-02 | アプライド マテリアルズ インコーポレイテッド | 電子診断装置用の通信インタフェースデータベース |
JP2010015202A (ja) * | 2008-06-30 | 2010-01-21 | Yahoo Japan Corp | 情報収集方法、装置及びプログラム |
US20100306262A1 (en) * | 2009-05-29 | 2010-12-02 | Oracle International Corporation | Extending Dynamic Matrices for Improved Setup Capability and Runtime Search Performance of Complex Business Rules |
JP2011510379A (ja) * | 2008-01-07 | 2011-03-31 | オーリ ヘルンシュタット | 多次元データベースアーキテクチャ |
JP2013541754A (ja) * | 2010-09-14 | 2013-11-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3211956B2 (ja) * | 1999-08-31 | 2001-09-25 | 勲 清水 | データベースシステム |
EP1361758A1 (en) * | 2002-05-06 | 2003-11-12 | Motorola, Inc. | Image content reconfiguration for different device capabilities and methods therefor |
CN100437556C (zh) * | 2006-06-09 | 2008-11-26 | 无锡永中科技有限公司 | 电子表格中行头与列头表示信息的方法 |
US20090097769A1 (en) * | 2007-10-16 | 2009-04-16 | Sytech Solutions, Inc. | Systems and methods for securely processing form data |
CN102103576B (zh) * | 2009-12-17 | 2013-04-17 | 珠海金山软件有限公司 | 一种利用计算机分拆表格的方法与系统 |
CN102436456B (zh) * | 2010-09-29 | 2016-03-30 | 国际商业机器公司 | 用于对命名实体进行分类的方法和装置 |
CN102467378A (zh) * | 2010-11-11 | 2012-05-23 | 深圳市金蝶友商电子商务服务有限公司 | 基于二维矩阵的html表格处理方法及计算机 |
CN103198069A (zh) * | 2012-01-06 | 2013-07-10 | 株式会社理光 | 抽取关系型表格的方法和装置 |
CN102542071B (zh) * | 2012-01-17 | 2014-02-26 | 深圳市龙视传媒有限公司 | 一种分布式处理数据的系统及方法 |
CN103020283B (zh) * | 2012-12-27 | 2015-12-09 | 华北电力大学 | 一种基于背景知识的动态重构的语义检索方法 |
-
2014
- 2014-10-10 CN CN201410532186.5A patent/CN105573971B/zh active Active
-
2015
- 2015-10-07 JP JP2015199484A patent/JP6586850B2/ja active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0527960A (ja) * | 1991-07-24 | 1993-02-05 | Toshiba Corp | データベース構築方法 |
JP2001507837A (ja) * | 1996-12-30 | 2001-06-12 | ディ. ゴールドスタイン,ベンジャミン | データを安全に格納する方法及び装置 |
JP2003216619A (ja) * | 2002-01-18 | 2003-07-31 | Kanazawa Inst Of Technology | コンピュータ処理装置 |
JP2003271656A (ja) * | 2002-03-19 | 2003-09-26 | Fujitsu Ltd | 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2007521545A (ja) * | 2003-03-01 | 2007-08-02 | アプライド マテリアルズ インコーポレイテッド | 電子診断装置用の通信インタフェースデータベース |
JP2011510379A (ja) * | 2008-01-07 | 2011-03-31 | オーリ ヘルンシュタット | 多次元データベースアーキテクチャ |
JP2010015202A (ja) * | 2008-06-30 | 2010-01-21 | Yahoo Japan Corp | 情報収集方法、装置及びプログラム |
US20100306262A1 (en) * | 2009-05-29 | 2010-12-02 | Oracle International Corporation | Extending Dynamic Matrices for Improved Setup Capability and Runtime Search Performance of Complex Business Rules |
JP2013541754A (ja) * | 2010-09-14 | 2013-11-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 |
Non-Patent Citations (2)
Title |
---|
弓場 秀樹: "データベース脳の鍛え方 RDB的な発想ができるとイイことがいっぱい", DB MAGAZINE, vol. 第15巻,第8号, JPN6019020164, 1 November 2005 (2005-11-01), JP, pages 134 - 145, ISSN: 0004046600 * |
渡辺 俊史: "第3回 正規化の手法をマスターしてデータベースを洗練させる", 日経ソフトウエア, vol. 第11巻,第3号, JPN6019020165, 24 January 2008 (2008-01-24), JP, pages 102 - 109, ISSN: 0004046601 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020152804A1 (ja) * | 2019-01-23 | 2020-07-30 | 日本電気株式会社 | 情報提供システム、方法およびプログラム |
JPWO2020152804A1 (ja) * | 2019-01-23 | 2021-12-09 | 日本電気株式会社 | 情報提供システム、方法およびプログラム |
JP7276355B2 (ja) | 2019-01-23 | 2023-05-18 | 日本電気株式会社 | 情報提供システム、方法およびプログラム |
US11860910B2 (en) | 2019-01-23 | 2024-01-02 | Nec Corporation | Information provision system, method, and program |
Also Published As
Publication number | Publication date |
---|---|
CN105573971B (zh) | 2018-09-25 |
CN105573971A (zh) | 2016-05-11 |
JP6586850B2 (ja) | 2019-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6586850B2 (ja) | テーブル再構成装置と方法 | |
JP7343568B2 (ja) | 機械学習のためのハイパーパラメータの識別および適用 | |
TWI718643B (zh) | 異常群體識別方法及裝置 | |
CN108415952B (zh) | 用户数据存储方法、标签计算方法及计算设备 | |
Tong et al. | A linear road object matching method for conflation based on optimization and logistic regression | |
US20170103164A1 (en) | System and method for dynamic autonomous transactional identity management | |
CN111046237B (zh) | 用户行为数据处理方法、装置、电子设备及可读介质 | |
US11809455B2 (en) | Automatically generating user segments | |
US20160055412A1 (en) | Predictive Model Generator | |
JP2016149127A (ja) | 実体属性値の確定装置及び方法 | |
JP7254925B2 (ja) | 改良されたデータマッチングのためのデータレコードの字訳 | |
CN115293919B (zh) | 面向社交网络分布外泛化的图神经网络预测方法及系统 | |
Gupta et al. | Faster as well as early measurements from big data predictive analytics model | |
CN111564186A (zh) | 基于知识图谱的图卷积药物对相互作用预测方法及系统 | |
CN114902246A (zh) | 用于大数据的快速交互式探索的系统 | |
JP2019531539A (ja) | 分散コンピューティングタスクを実行するための方法及び装置 | |
US20160292151A1 (en) | Distributed storytelling framework for intelligence analysis | |
WO2017065891A1 (en) | Automated join detection | |
Drinkwater et al. | An improved node mapping algorithm for the cophylogeny reconstruction problem | |
JP7213890B2 (ja) | 高速化された大規模な類似度計算 | |
JP2018077671A (ja) | 情報処理装置、情報処理方法、予測モデルの生成装置、予測モデルの生成方法、およびプログラム | |
CN105677801B (zh) | 一种基于图的数据处理方法和系统 | |
CN105095324A (zh) | 用户分类装置、用户分类方法以及电子设备 | |
KR101564616B1 (ko) | 연관규칙탐사 분석 방법 | |
CN112116403A (zh) | 一种信息推荐方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190813 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190826 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6586850 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |