JP5903171B2 - データ加工システムおよびデータ加工方法 - Google Patents

データ加工システムおよびデータ加工方法 Download PDF

Info

Publication number
JP5903171B2
JP5903171B2 JP2014553983A JP2014553983A JP5903171B2 JP 5903171 B2 JP5903171 B2 JP 5903171B2 JP 2014553983 A JP2014553983 A JP 2014553983A JP 2014553983 A JP2014553983 A JP 2014553983A JP 5903171 B2 JP5903171 B2 JP 5903171B2
Authority
JP
Japan
Prior art keywords
information
meta information
meta
data
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014553983A
Other languages
English (en)
Other versions
JPWO2014102992A1 (ja
Inventor
藤田 雄介
雄介 藤田
信尾 額賀
信尾 額賀
児玉 昇司
昇司 児玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP5903171B2 publication Critical patent/JP5903171B2/ja
Publication of JPWO2014102992A1 publication Critical patent/JPWO2014102992A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general

Description

本発明は、複数のモダリティからのデータ抽出および加工技術に関する。
本技術分野の背景技術として、米国特許出願公開第2010/0185934号明細書(特許文献1)がある。この明細書には、「収集された電子文書から情報を検索及び表示するための、計算機記憶媒体に格納された計算機プログラムを含む方法、システム及び装置。一つの態様は、既存の構造化プレゼンテーションを記述する記述データを受信する動作と、既存の構造化プレゼンテーションの特性と収集された非構造化電子文書に含まれる電子文書の内容とを比較することで、既存の構造化プレゼンテーションに関する新たな属性を示す電子文書を特定する動作と、新たな属性の識別子を既存の構造化プレゼンテーションに追加することで、拡張された構造化プレゼンテーションを形成する動作と、拡張された構造化プレゼンテーションを提示する指示を出力する動作と、を含む、計算機に実装された方法によって実施され得る」と記載されている(要約参照)。
特許文献1:米国特許出願公開第2010/0185934号明細書
従来、データを用いて事象の発生を予測するためのデータマイニングは、表または関係データベースといった形に整理された構造データに基づいて行われる。しかし、構造データとして取り込むことのできるデータは、特定用途向けに、コンピュータシステム内で予め属性名と属性値の付与が行われたものだけであって、画像、音声または非定型の文書といった非構造データを、直接データマイニングの対象とすることはできない。
一方、テキスト文書を対象とした全文検索エンジンは、非構造データ中の単語を高速に検索することができ、単語リストを用いての単純な条件付き検索は可能となった。また、複数の構造データをルールに基づいて結び付けることは可能であり、インターネット上の大量のデータから構造データを検索して、大きな構造データを生成することが可能となった。さらに、非構造データに対し、テキストの構文解析を行うことで、部分的な構造を取得することは可能となった。例えば、上記の特許文献1は、これらの技術を組み合わせ、表の属性名および属性値を追加する方法を開示している。
しかしながら、非構造データを構造データに結び付けたデータマイニング、および単語リストだけでない、非構造データに対する属性条件を使った検索は、実現されていない。また、非構造データに対して、部分的に構造を与えることができても、構造データ中のどの行または列に結び付けるかを判断する手法は従来なかった。
本発明は、このような点に鑑みてなされたものであり、その目的は、複数のモダリティから抽出したデータを用いて、データマイニング・条件付き検索を行うための、データ抽出・加工方法を提供することにある。
上記の課題を解決するために、本発明は、一つ以上のプロセッサと、前記一つ以上のプロセッサに接続される一つ以上の記憶装置と、を有するデータ加工システムであって、複数の種類のデータからメタ情報を抽出する条件を定義するメタ情報抽出用辞書情報と、前記複数の種類のデータから抽出されたメタ情報を関連付ける条件を定義する関連性辞書情報と、を保持し、前記複数の種類のデータから、前記メタ情報抽出用辞書情報に基づいて前記メタ情報を抽出し、入力されたデータからメタ情報を抽出し、前記関連性辞書情報に基づいて、前記入力されたデータから抽出されたメタ情報と前記複数の種類のデータから抽出されたメタ情報とを関連付け、前記関連付けの結果に基づいて、前記複数の種類のデータと、前記入力されたデータと、それらのデータから抽出されたメタ情報と、のいずれかの組み合わせの関連を示す情報を出力する。
本発明の一実施形態によれば、入力データに関連するメタ情報を容易に検索して、加工することができる。
上記以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
本発明の実施例1のデータ加工システムの全体構成を説明するブロック図である。 本発明の実施例1のデータ加工システムのハードウェア構成を説明するブロック図である。 本発明の実施例1におけるメタ情報データベース構築処理の動作を示すフローチャートである。 本発明の実施例1において画像メタ情報抽出部が画像データに対するメタ情報を抽出する処理の詳細を説明する図である。 本発明の実施例1において文書メタ情報抽出部が文書データに対するメタ情報を抽出する処理の詳細を説明する図である。 本発明の実施例1においてメタ情報関連付け部がメタ情報に関連付けを付与する処理の詳細を説明する図である。 本発明の実施例1におけるデータ加工処理の動作を示すフローチャートである。 本発明の実施例1において入力データ関連付け部が受け付けた表から属性の関係を抽出する処理の詳細を説明する図である。 本発明の実施例1において入力データ関連付け部が表構造属性情報に関連付けを付与する処理の詳細を説明する図である。 本発明の実施例1においてデータ加工部が入力データに属性を追加する処理を説明する図である。 本発明の実施例2のデータ加工システムの全体構成を説明するブロック図である。 本発明の実施例2において音声メタ情報抽出部が音声データに対するメタ情報を抽出する処理の詳細を説明する図である。 本発明の実施例2においてテキストメタ情報抽出部がテキストデータに対するメタ情報を抽出する処理の詳細を説明する図である。 本発明の実施例2におけるデータ加工処理の動作を示すフローチャートである。 本発明の実施例2において入力データ関連付け部が抽出されたキーワードに関連付けを付与する処理の詳細を説明する図である。 本発明の実施例2においてデータ加工部が音声メタ情報とテキストメタ情報を関連付ける処理を説明する図である。
以下、実施例を、図面を用いて説明する。
本実施例では、予め構築しておいた画像データおよび文書データに関するメタ情報データベースに基づいて、入力された表を拡張する、データ加工システムの例を説明する。本システムは、例えば、建造物または機械等を製造する際に発行される、設計図面および設計文書を管理するために用いることができる。設計に関する表を入力すると、設計図面および設計文書から抽出されたメタ情報を用いて、表が自動的に拡張される。こうして設計に関わる大規模な表が得られるため、本実施例は、設計の不具合分析または不良予測など、データマイニングに応用することが可能となる。
図1は、本発明の実施例1のデータ加工システムの全体構成を説明するブロック図である。
データ加工システム1は、データソースサーバ2、ETL(Extract Transform Load)サーバ3、ストレージサーバ4、メタ情報抽出サーバ5、メタ情報検索サーバ6、およびデータ加工サーバ7によって構成される。
データソースサーバ2は、画像および文書を管理する装置である。データソースサーバ2は、図面をID(識別情報)と結び付けて管理するリレーショナルデータベース(図示省略)、およびテキスト文書を保存するファイルサーバ(図示省略)を備える。
ETLサーバ3は、データソースサーバ2に保存されている画像データおよび文書データを、ストレージサーバ4に保存する機能を備える。ここで、画像および文書のフォーマットを統一するなどの変換が行われる。
ストレージサーバ4は、画像データ保存部11および文書データ保存部12を備え、複数のデータソースから収集された画像データおよび文書データを統一された形式で保存する。
メタ情報抽出サーバ5は、画像用辞書部13、画像メタ情報抽出部14、文書用辞書部15、文書メタ情報抽出部16、関連性辞書部17、メタ情報関連付け部18、およびメタ情報データベース19を備え、ストレージサーバ4にあるデータから抽出したメタ情報の管理を行う。
メタ情報検索サーバ6は、関連メタ情報検索部20を備え、検索要求を受けつけてメタ情報データベース19を検索した結果を返す。
データ加工サーバ7は、データ入力部21、入力データ関連付け部22、データ加工部23、およびデータ出力部24を備え、入力されたデータをメタ情報に基づいて加工し出力する。
上記の各部の詳細については後述する。
図2は、本発明の実施例1のデータ加工システム1のハードウェア構成を説明するブロック図である。
データソースサーバ2は、相互に接続された通信部221、CPU(Central Processing Unit)222、メモリ223およびディスク224を有する計算機である。
通信部221は、中継装置280に接続され、中継装置280を介して他のサーバと通信するためのインターフェースである。CPU222は、メモリ223に格納されたプログラムを実行することによって所定の機能を実現するプロセッサである。メモリ223及びディスク224は、CPU222によって実行されるプログラムおよびCPU222によって参照されるデータ等を格納する記憶装置である。これらはどのような種類の記憶装置であってもよいが、典型的な例を示すと、メモリ223がDRAM(Dynamic Random Access Memory)のような比較的高速の半導体メモリであり、ディスク224がハードディスク装置のような比較的大容量の記憶装置である。
ETLサーバ3は、相互に接続された通信部231、CPU232、メモリ233およびディスク234を有する計算機である。これらの各部の説明は、データソースサーバ2の通信部221、CPU222、メモリ223およびディスク224の説明と同様であるため、省略する。
ストレージサーバ4は、相互に接続された通信部241、CPU242、メモリ243およびディスク244を有する計算機である。これらの各部の説明は、データソースサーバ2の通信部221、CPU222、メモリ223およびディスク224の説明と同様であるため、省略する。ただし、ディスク244は、画像データを保存する画像データ保存部11および文書データを保存する文書データ保存部12を含む。画像データ保存部11および文書データ保存部12に保存されたデータの一部又は全部が必要に応じてメモリ243にコピーされてもよい。
メタ情報抽出サーバ5は、相互に接続された通信部251、CPU252、メモリ253およびディスク254を有する計算機である。これらの各部の説明は、データソースサーバ2の通信部221、CPU222、メモリ223およびディスク224の説明と同様であるため、省略する。ただし、メモリ253は、画像メタ情報抽出部14、文書メタ情報抽出部16およびメタ情報関連付け部18を含む。これらは、CPU252によって実行されるプログラムである。
以下、画像メタ情報抽出部14、文書メタ情報抽出部16またはメタ情報関連付け部18が実行する処理について説明する場合があるが、そのような処理は、実際には上記のプログラムに従ってCPU252が必要に応じてメモリ253、ディスク254及び通信部251等を制御することによって実行する処理である。後述するメモリ263及びメモリ273に格納されたプログラムが実行する処理も、実際には、上記と同様にそれぞれの計算機のCPUによって実行される。
なお、画像メタ情報抽出部14、文書メタ情報抽出部16およびメタ情報関連付け部18は、ディスク254に格納され、必要に応じてメモリ253にコピーされてもよい。後述するメモリ263及びメモリ273に格納されたプログラムについても同様である。
メタ情報検索サーバ6は、相互に接続された通信部261、CPU262、メモリ263およびディスク264を有する計算機である。これらの各部の説明は、データソースサーバ2の通信部221、CPU222、メモリ223およびディスク224の説明と同様であるため、省略する。ただし、メモリ263は、関連メタ情報検索部20を含む。これは、CPU262によって実行されるプログラムである。
データ加工サーバ7は、相互に接続された通信部271、CPU272、メモリ273およびディスク274を有する計算機である。これらの各部の説明は、データソースサーバ2の通信部221、CPU222、メモリ223およびディスク224の説明と同様であるため、省略する。ただし、メモリ273は、データ入力部21、入力データ関連付け部22、データ加工部23及びデータ出力部24を含む。これらは、CPU272によって実行されるプログラムである。
データ加工サーバ7は、さらに、CPU272に接続され、データ入力部21およびデータ出力部24によって制御される入力部275および出力部276を有する。入力部275は、例えばキーボードおよびポインティングデバイスのような入力デバイスであり、出力部276は、例えば画像表示装置のような出力デバイスである。
図2では省略されているが、データ加工システム1を構成するデータ加工サーバ7以外の各サーバも、データ加工サーバ7と同様の入力部および出力部を有してもよい。
中継装置280は、各サーバの通信部に接続され、サーバ間の通信を中継する装置である。
図2には、各サーバが一つのCPUおよび一つ以上の記憶装置を備える独立した計算機によって実現されるハードウェア構成の例を示したが、このようなハードウェア構成は一例であり、実際には一つ以上のCPUおよび一つ以上の記憶装置を有する種々の形態の計算機システムによって本実施例を実現することができる。例えば、上記の全てのプログラム及びデータを格納する記憶装置と、少なくとも一つのCPUとを含む一つの計算機によってデータ加工システム1が実現されてもよい。あるいは、例えばデータソースサーバ2が一つの計算機によって実現され、ETLサーバ3及びストレージサーバ4が別の一つの計算機によって実現され、メタ情報抽出サーバ5、メタ情報検索サーバ6及びデータ加工サーバ7がさらに別の一つの計算機によって実現されてもよい。このような場合、各サーバは、仮想化技術を利用して生成された仮想サーバであってもよい。
次に、上記のように構成される、本実施例に係るデータ加工システム1の動作を説明する。本システムの動作は、メタ情報データベース構築処理とデータ加工処理とに分けられる。
まず、メタ情報データベースの構築処理に関する動作を説明する。
図3は、本発明の実施例1におけるメタ情報データベース構築処理の動作を示すフローチャートである。
まず、ETLサーバ3は、データソースサーバ2から、画像データおよび文書データを取得する(ステップS301)。続いて、ETLサーバ3は、画像データおよび文書データに対し、必要な変換を施す(ステップS302)。例えば、後述する画像メタ情報抽出部14が、特定の形式の画像データしか受け付けない場合には、画像データの形式を当該特定の形式に変換する処理が行われる。続いて、ETLサーバ3は、変換された画像データおよび文書データを、それぞれ、ストレージサーバ4の画像データ保存部11及び文書データ保存部12へ保存する(ステップS303)。
次に、メタ情報抽出サーバ5は、ストレージサーバ4から画像データおよび文書データを取得する(ステップS304)。
次に、メタ情報抽出サーバ5の画像メタ情報抽出部14は、画像用辞書部13に基づいて、画像データに対するメタ情報を抽出する(ステップS305)。
図4は、本発明の実施例1において画像メタ情報抽出部14が画像データに対するメタ情報を抽出する処理(図3のステップS305)の詳細を説明する図である。
画像用辞書部13は、画像の形状・色情報等に基づいて認識・分類を行うためのモデル401を保持している。また、各モデル401には、ラベル402が対応づけられている。例えば筒(tube)状の図形の画像に相当するモデル401にはラベル402として“shape:tube”が対応づけられる。画像メタ情報抽出部14は、画像用辞書部13に基づく画像認識技術によって、画像データ保存部11から取得された画像データ403に対するラベル402を付与する。具体的には、例えば、画像メタ情報抽出部14は、画像データ403と各モデル401との類似度を公知の画像認識技術によって比較し、最も類似度の高いモデル401に対応するラベル402を画像データ403に付与してもよい。図4の例では、画像メタ情報抽出部14は、画像データ403に“shape:tube”のラベルを付与し、その結果を、画像メタ情報404として出力する。
画像メタ情報404は、「C01.jpgのshapeがtubeである」ことを示す表現であり、例えば、RDF(Resource Description Framework)を用いて「AのBはCである」といった三項関係の表現を記述することができる。
さらに、ステップS305において、文書メタ情報抽出部16は、文書用辞書部15に基づいて、文書データに対するメタ情報を抽出する。
図5は、本発明の実施例1において文書メタ情報抽出部16が文書データに対するメタ情報を抽出する処理(ステップS305)の詳細を説明する図である。
文書用辞書部15は、文書中の単語に対し、属性名にふさわしい単語を集めた属性名リスト501および属性値にふさわしい単語を集めた属性値リスト502を保持している。文書メタ情報抽出部16は、文書用辞書部15と文書のレイアウトを解析した結果とに基づいて、文書データ保存部12から取得された文書データ503の構造を解析することによって、文書メタ情報504を生成する。
図5の例では、文書データ503は、「通知:C01」および「場所:東京」等の文字列を含む。一方、属性名リスト501は「参照」、「場所」および「作成者」等の単語を含み、属性値リスト502は「C01」、「C02」、「東京」および「Alice」等の単語を含む。
この例において、文書メタ情報抽出部16は、文書データ503から、属性名リスト501に基づいて「参照」および「場所」といった属性名を抽出し、属性値リスト502に基づいて「C01」および「東京」といった属性値を抽出し、それらの単語がコロンを挟んで並べられているといったレイアウト情報に基づいて例えば「参照」と「C01」、「場所」と「東京」を対応付けることによって、表の構造化を行った結果として文書メタ情報504を生成する。文書メタ情報504は、画像メタ情報404と同様に、RDFを用いて記述することができる。
次に、画像メタ情報抽出部14および文書メタ情報抽出部16は、抽出したメタ情報を、メタ情報データベース19に保存する(ステップS306)。ここで、RDFを管理するデータベースを用いると、画像メタ情報と文書メタ情報を同一のデータベースの中で管理することができる。
次に、メタ情報関連付け部18は、関連性辞書部17を用いて、メタ情報データベース19の中に保存されているメタ情報に関連付けを付与する(ステップS307)。
図6は、本発明の実施例1においてメタ情報関連付け部18がメタ情報に関連付けを付与する処理(ステップS307)の詳細を説明する図である。
関連性辞書部17は、同義語辞書601を保持しており、同義語関係として、例えば「図面」と「参照」、「タイプ」と「shape」、「C01」と「C01.jpg」などが、システムの設計者によって予め構築される。同義語辞書601は、別途用意された翻訳辞書に基づいて、異なる言語の単語間の同義関係を保持するものであってもよい。
なお、同義語辞書は、あるメタ情報と置換可能な情報を定義する情報である限り、どのようなものであってもよい。具体的には、同義語辞書は、あるモーダルのメタ情報に含まれる情報と、それと同義の、他のモーダルのメタ情報に含まれる情報とが置換可能であることを示す情報であり、例えば、上記のような同義語辞書または翻訳辞書のほか、話し言葉と書き言葉との同義関係を定義する辞書(実施例2参照)であってもよい。
メタ情報関連付け部18は、この同義語辞書601に存在する単語をメタ情報データベース19から検索し、その単語を同義語関係にある単語に置き換えた変更メタ情報602に変換し、メタ情報データベース19を更新する。図6の例では、同義語辞書601内の単語「shape」に対して、「C01.jpgのshapeはtubeである」という画像メタ情報が検索される。この場合、メタ情報関連付け部18は、同義語辞書601に基づいて「shape」をその同義語である「タイプ」に置き換えることによって、検索された画像メタ情報を「C01.jpgのタイプはtubeである」というメタ情報に変換する。
同様にして、「_:r1の参照はC01である」が「_:r1の図面はC01.jpgである」に、「_:r1の場所は東京である」が「_:r1の場所はJP1である」に変換される。
ここでは、検索されたメタ情報を新たなメタ情報に更新する例を説明したが、これは、同義語関係に従って、検索されたメタ情報に含まれる属性名または属性値の単語と置換可能な単語を記述する方法の一例である。ステップS307では、例えば、同義語関係に従って、メタ情報データベース中の単語「shape」と単語「タイプ」が置換可能であることと、単語「C01」と単語「C01.jpg」が置換可能であることを、記述することができればよい。具体的には、メタ情報関連付け部18は、例えば、検索されたメタ情報「C01.jpgのshapeはtubeである」を書き換える代わりに、同義語辞書601に基づいて、単語「shape」と単語「タイプ」が置換可能であることを示す情報、及び、単語「C01」と単語「C01.jpg」が置換可能であることを示す情報を当該メタ情報に追加してもよい。
なお、上記のように検索されたメタ情報を同義語辞書に基づいて新たなメタ情報に更新する場合には、同義関係にあるメタ情報に単一の表現が与えられるように更新する必要がある。例えば、あるメタ情報に単語「C01」が含まれ、別のメタ情報に単語「C01.jpg」が含まれ、さらに別のメタ情報にそれらと同義の別の単語が含まれる場合に、単語「C01.jpg」と同義の単語が全てそれらを代表する単語「C01.jpg」に変換される必要がある。どの単語が代表として使用されてもよく、例えば同義関係にある複数の単語のリストの先頭の単語が使用されてもよい。
ここで、図6中に点線で示したように、「C01.jpg」を介して画像メタ情報と文書メタ情報とが関連付けられる。すなわち、「_:r1の図面はC01.jpgであり、C01.jpgのタイプはtubeである」言い換えると「_:r1の図面のタイプはtubeである」という意味付けがされたことになる。このような場合、属性値「C01.jpg」を介して関連付けられた二つの属性名「図面」および「タイプ」を結合した「図面−タイプ」が新たな属性名として扱われてもよい(図10参照)。
以上のようにして、メタ情報データベース19が構築される。
例えば、複数のモーダルのデータから抽出されたメタ情報が同一の(または関連する)概念を含んでいるが、モーダルの性質に応じてそれぞれのモーダルのメタ情報に異なる表現が与えられている場合に、上記のようなメタ情報の更新又は置換可能なメタ情報の追加等によって、それらの表現が統一される。これによって、後述する処理において、関連するメタ情報を漏れなく検索することが可能になる。
次に、データ加工処理に関する動作を説明する。
図7は、本発明の実施例1におけるデータ加工処理の動作を示すフローチャートである。
まず、データ入力部21は、ユーザから表データの入力を受けつける(ステップS701)。ここで入力される表データ(例えば後述する入力データ801)は、データ加工システム1の内部にあらかじめ保持された(または、例えば入力部275もしくは通信部271を介してデータ加工システム1の外部から取得された)任意の構造データであり、これが以下の処理によって非構造データと対応付けられる。
次に、入力データ関連付け部22は、受け付けた表から属性の関係を抽出する(ステップS702)。
図8は、本発明の実施例1において入力データ関連付け部22が受け付けた表から属性の関係を抽出する処理(ステップS702)の詳細を説明する図である。
入力データ関連付け部は22、入力データ801に対し、レコードの情報を抽出し、属性と属性名の関係を抽出し、表構造属性情報802を出力する。表構造属性情報802は、画像メタ情報および文書メタ情報の記述と同様に、RDFを用いて記述することができる。
例えば、入力データ801の一つのレコードに、項目「ID」、「部品」、「場所」および「図面」のそれぞれに対応する値として「M001」、「A」、「JP1」および「C01」が含まれる場合、そのレコードを「_:r2」と識別して、「_:r2のIDはM001である」、「_:r2の部品はAである」、「_:r2の場所はJP1である」および「_:r2の図面はC01である」といったRDFによる記述を含む表構造属性情報802が出力される。
次に、入力データ関連付け部22は、関連性辞書部17を用いて、表構造属性情報802に関連付けを付与する(ステップS703)。
図9は、本発明の実施例1において入力データ関連付け部22が表構造属性情報802に関連付けを付与する処理(ステップS703)の詳細を説明する図である。
メタ情報関連付け部18の機能と同様、入力データ関連付け部22は、同義語辞書601に存在する単語を表構造属性情報802から検索し、その単語をそれと同義語関係にある単語に置き変えることによって変更属性情報901を生成し、変更属性情報901に基づいて表構造属性情報802を変更する。図9の例では、同義語辞書601内の単語「C01」に対して、表構造属性情報802から「_:r2の図面はC01である」が検索され、それが「C01」と「C01.jpg」との同義語関係に基づいて「_:r2の図面がC01.jpgである」という属性情報に変更される。
なお、メタ情報関連付け部18が実行する関連付け処理と同様に、入力データ関連付け部22は、表構造属性情報802を変更属性情報901に書き換える代わりに、「C01」と「C01.jpg」が置換可能であることを示す情報を表構造属性情報802に追加してもよい。
次に、関連メタ情報検索部20は、表構造属性情報802を用いて、メタ情報データベース19を検索する(ステップS704)。ここでは、メタ情報データベース19に対する問い合わせとして、入力と同じ属性関係を持つメタ情報が選択される。表構造属性情報802に存在する「_:r2の図面はC01.jpgである」に対して、メタ情報データベース19に「_:r1の図面はC01.jpgである」という情報が含まれるため(図6参照)、それを入力と同一の属性関係として見つけることができる。また同様に、「_:r2の場所は東京である」に対して「_:r1の場所は東京である」も見つけることができる。
ここで、関連メタ情報検索部20は、複数のレコードの属性関係が所定の条件を満たす場合に、それらを同一のレコードと見なすことができる。例えば、複数のレコードが二つ以上の共通する属性関係(すなわち共通する属性名と属性値との組)を有する場合にそれらを同一のレコードと見なすとすれば、上記の例では_:r1と_:r2とを同一レコードと見なせる。なお、二つのレコードを同一と見なすための条件は、上記の例に限定されない。例えば、同一レコードとみなす属性名のリストを予め定義し、関連メタ情報検索部20は、そのリストに含まれる属性名に対応する属性値が同一である複数のレコードを同一のレコードと見なしてもよい。あるいは、関連メタ情報検索部20は、メタ情報の検索結果から同一のレコードを推定してもよい。
次に、関連メタ情報検索部20は、入力データに含まれる_:r2と同一レコードとみなされた_:r1に関する属性関係をメタ情報データベース19から取得する(ステップS705)。ここでは、「_:r1の作成者はAliceである」、「_:r1の納期は2012/7/30である」の2つのメタ情報が取得できる(図6参照)。さらに、関連メタ情報検索部20は、属性値に関する属性があればそれをさらにたどることによって、「_:r1の図面(はC01.jpgであり、C01.jpg)のタイプはtubeである」というメタ情報も取得できる。こうして、関連メタ情報検索部20は、「_:r2の作成者はAliceである」、「_:r2の納期は2012/7/30である」、および「_:r2の図面(はC01.jpgであり、C01.jpg)のタイプはtubeである」の3つの属性情報を追加属性情報として決定する。
次に、データ加工部23は、関連メタ情報検索部20により決定された追加属性情報に基づいて、入力データ801に属性を追加する(ステップS706)。
図10は、本発明の実施例1においてデータ加工部23が入力データ801に属性を追加する処理(ステップS706)を説明する図である。
データ加工部23が表構造属性情報802に対して追加属性情報1002を追加し、表の表現に戻すことによって、加工データ1003が得られる。図10の例では、「_:r2の作成者はAliceである」、「_:r2の納期は2012/7/30である」、および「_:r2の図面(はC01.jpgであり、C01.jpg)のタイプはtubeである」の3つの属性情報が表形式で追加される。ここで、上記の「図面」と「C01.jpg」と「タイプ」との関係のように、ある属性名に対応する属性値にさらに別の属性名が関連付けられる場合、それらの複数の属性名表現を繋げて新たな属性名として表示する。図10の例では、「図面」の「タイプ」という複数の属性名表現をハイフン記号で繋げることによって、「図面‐タイプ」というように表現される。このような加工データ1003によって、入力データ801と、画像メタ情報404と、文書メタ情報504との関連が示される。
次に、データ出力部24は、加工データ1003を出力する。
以上のようにして、データ加工処理が行われる。
本実施例では、予め構築しておいたメタ情報データベースに基づいて、入力された表を拡張する一例を示した。メタ情報データベースにおける単語の関連付けと、入力された表内の単語の関連付けに、同一の関連性辞書として同義語辞書を用いることによって、文書データや画像データから抽出された情報を、入力された表に関連付けることが可能となる。また、メタ情報をRDFで表現しておくことによって、表と文書と画像という異なるモダリティのデータを、単一の同義語辞書に基づいて関連付けることが可能となる。
また、本実施例では、画像のタイプについてのメタ情報を利用したが、他の情報抽出による結果を用いることもできる。例えば顔写真のような画像に対しては、顔画像認識を用いて、抽出された人名をメタ情報として利用してもよい。
以下、本発明の実施例2を、図面を用いて説明する。
本実施例では、音声データとテキストデータから抽出されたメタ情報データベースに基づいて、入力されたテキストデータに関連する情報を提示する、データ加工システムの例を説明する。本システムは、例えば、コールセンターにおいて蓄積される、通話録音音声とオペレータの応対ログを管理するために用いることができる。本システムは、テキストを入力されると、録音音声と応対ログから抽出されたメタ情報を用いて、関連する音声および応対ログを表示する。これによって、全ての録音音声を聴くことなく、効率的に情報を探索することが可能となる。
図11は、本発明の実施例2のデータ加工システムの全体構成を説明するブロック図である。
本実施例は、実施例1における画像データと文書データを、音声データとテキストデータに置き換え、メタ情報データベースを、音声データ用とテキストデータ用でそれぞれ構築しておき、メタ情報データベース構築時にこれらの関連付けを行なわず、メタ情報検索時に関連付ける構成とした。
上記およびこれから詳細に説明する相違点を除き、実施例2のデータ加工システムの各部は、図1に示された実施例1の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。
本実施例のデータ加工システム1は、実施例1と同様に、データソースサーバ2、ETLサーバ3、ストレージサーバ4、メタ情報抽出サーバ5、メタ情報検索サーバ6およびデータ加工サーバ7によって構成される。
データソースサーバ2は、音声およびテキストを管理する装置であり、録音音声データをIDと結び付けて管理するリレーショナルデータベースと、音声データファイルとテキストファイルを保存するファイルサーバとを備える。
ETLサーバ3は、データソースサーバ2に保存されている音声データおよびテキストデータを、ストレージサーバ4に保存する機能を備える。ここで、音声データのフォーマットを統一するなどの変換が行われる。
ストレージサーバ4は、音声データ保存部51およびテキストデータ保存部52を備え、複数のデータソースから収集された音声データおよびテキストデータを統一された形式で保存する。
メタ情報抽出サーバ5は、音声用辞書部53、音声メタ情報抽出部54、テキスト用辞書部55、テキストメタ情報抽出部56、音声メタ情報データベース57およびテキストメタ情報データベース58を備え、ストレージサーバ4にあるデータから抽出したメタ情報の管理を行う。
メタ情報検索サーバ6は、関連性辞書部17、メタ情報関連付け部18および関連メタ情報検索部20を備え、検索要求を受けつけて、音声メタ情報データベース57およびテキストメタ情報データベース58をそれぞれ検索した結果を返す。
データ加工サーバ7は、データ入力部21、入力データ関連付け部22、データ加工部23およびデータ出力部24を備え、入力されたデータをメタ情報に基づいて加工し出力する。
本実施例のデータ加工システム1のハードウェア構成は、図2に示した実施例1の構成と同様である。ただし、ストレージサーバ4のディスク244は、画像データ保存部11および文書データ保存部12の代わりに音声データ保存部51およびテキストデータ保存部52を含む。メタ情報抽出サーバ5のディスク254は、画像用辞書部13、文書用辞書部15、関連性辞書部17およびメタ情報データベース19の代わりに、音声用辞書部53、テキスト用辞書部55、音声メタ情報データベース57およびテキストメタ情報データベース58を含む。メタ情報抽出サーバ5のメモリ253は、画像メタ情報抽出部14、文書メタ情報抽出部16およびメタ情報関連付け部18の代わりに、音声メタ情報抽出部54およびテキストメタ情報抽出部56を含む。メタ情報検索サーバ6のメモリ263は、関連メタ情報検索部20に加えてメタ情報関連付け部18を含み、ディスク264は関連性辞書部17を含む。
次に、上記のように構成される、本実施例に係るデータ加工システム1の動作を説明する。本システムの動作は、実施例1と同様に、メタ情報データベース構築処理とデータ加工処理に分けられる。メタ情報データベースの構築処理は、以下に説明する相違点を除き、図3に示した実施例1におけるメタ情報データベースの構築処理と同様である。
まず、ETLサーバ3は、データソースサーバ2から、音声データとテキストデータを取得する(ステップS301)。続いて、ETLサーバ3は、音声データとテキストデータに対し、必要な変換を施す(ステップS302)。続いて、ETLサーバ3は、変換された音声データとテキストデータを、ストレージサーバ4へ保存する(ステップS303)。
次に、メタ情報抽出サーバ5は、ストレージサーバ4から音声データとテキストデータを取得する(ステップS304)。
次に、音声メタ情報抽出部54は、音声用辞書部53に基づいて、音声データに対するメタ情報を抽出する(ステップS305)。
図12は、本発明の実施例2において音声メタ情報抽出部54が音声データに対するメタ情報を抽出する処理(ステップS305)の詳細を説明する図である。
音声用辞書部53は、音声中から検出するキーワードのリストであるキーワードリスト1201を保持している。音声メタ情報抽出部54は、音声用辞書部53に基づく音声認識技術によって、音声データ1203を文単位に分割し、その中に出現するキーワードを付与することによって、音声メタ情報1204を生成する。図12の例では、音声データ1203から、2つのキーワード「製品A」と「まいります」が抽出される。音声メタ情報1204は、「W01.wavの文(sentence)には_:s1がある」、「W01.wavの文には_:s2がある」、「_:s1のキーワードには「製品A」がある」、「_:s2のキーワードには「まいります」がある」といった4つの関係を記述している。これらの関係は、実施例1と同様にRDFを用いて記述することができる。
同様に、ステップS305において、テキストメタ情報抽出部56は、テキスト用辞書部55に基づいて、テキストデータに対するメタ情報を抽出する。
図13は、本発明の実施例2においてテキストメタ情報抽出部56がテキストデータに対するメタ情報を抽出する処理(ステップS305)の詳細を説明する図である。
テキスト用辞書部55は、テキスト中から抽出するキーワードリスト1301を保持している。テキストメタ情報抽出部56は、テキスト用辞書部55と、形態素解析の結果に基づいて、テキストデータ1303を解析することによって、テキストメタ情報1304を生成する。図13の例では、テキストデータ1303に対して、3つのキーワード「製品A」、「クレーム」および「訪問」が抽出される。テキストメタ情報1304は、音声メタ情報1204と同様に、RDFを用いて記述することができる。
次に、音声メタ情報抽出部54は、抽出した音声メタ情報を音声メタ情報データベース57に保存する(ステップS306)。同様に、ステップS306において、テキストメタ情報抽出部56は、抽出したテキストメタ情報をテキストメタ情報データベース58に保存する。本実施例では、実施例1と異なり、抽出されたメタ情報が各モーダルで分離したデータベースとして保存される。
本実施例では、実施例1と異なり、メタ情報保存(ステップS306)の後に、メタ情報関連付けを行うステップS307は行われない。
次に、データ加工処理に関する動作を説明する。
図14は、本発明の実施例2におけるデータ加工処理の動作を示すフローチャートである。
まず、データ入力部21は、ユーザからテキストデータの入力を受けつける(ステップS1401)。
次に、入力データ関連付け部22は、受け付けたテキストデータからキーワードを抽出する(ステップS1402)。ここでは、テキストデータとして「マシンABC 訪問」が入力され、キーワード「マシンABC」および「訪問」が抽出された場合を例として説明する。あるいは、例えばキーワードを含む自然文のテキストデータが入力された場合等に、入力データ関連付け部22は、形態素解析等を用いてキーワードを抽出してもよい。
次に、入力データ関連付け部22は、関連性辞書部17を用いて、抽出されたキーワードに関連付けを付与する(ステップS1403)。
図15は、本発明の実施例2において入力データ関連付け部22が抽出されたキーワードに関連付けを付与する処理(ステップS1403)の詳細を説明する図である。
関連性辞書部17には、話し言葉と書き言葉を相互に変換するための情報等を含む同義語辞書601が予め構築されている。これによって「訪問」と「まいります」を対応付けることができる。図15に示す同義語辞書601は、さらに、「マシンABC」と「製品A」とを対応付ける情報を含む。この例において「マシンABC」および「製品A」は同一の製品の別名(例えば、一方が製造元の社内で使用される識別情報であり、もう一方が顧客向けに使用される商品名であるなど)である。
入力データ関連付け部22は、関連性辞書部17に含まれる同義語辞書601に基づいて、入力されたテキストデータ1501から抽出されたキーワード「マシンABC」および「訪問」をそれぞれ「製品A」および「まいります」に関連付けることができる。
次に、メタ情報関連付け部18は、上記の関連性辞書部17を用いた関連付けの結果に基づいて、抽出されたキーワードを展開する(ステップS1404)。具体的には、メタ情報関連付け部18は、抽出されたキーワード「マシンABC」および「訪問」を、音声メタ情報データベース57を検索するためのキーワード(すなわち音声用検索クエリ)「製品A」および「まいります」に展開する。同様に、メタ情報関連付け部18は、抽出されたキーワード「マシンABC」および「訪問」を、テキストメタ情報データベース58を検索するためのキーワード(すなわちテキスト用検索クエリ)「製品A」および「訪問」に展開する。
次に、関連メタ情報検索部20は、キーワード「製品A」および「まいります」によって音声メタ情報データベース57を検索し、さらに、キーワード「製品A」および「訪問」によってテキストメタ情報データベース58を検索する(ステップS1405)。
次に、データ加工部23は、関連メタ情報検索部20によって検索された音声メタ情報とテキストメタ情報を関連付ける(ステップS1406)。
図16は、本発明の実施例2においてデータ加工部23が音声メタ情報とテキストメタ情報を関連付ける処理(ステップS1406)を説明する図である。
例えば、ステップ1401においてテキストデータ1501「マシンABC 訪問」が入力され、ステップS1405において音声メタ情報1204およびテキストメタ情報1304が検索された場合、データ加工部23は、テキストメタ情報1304に対応するテキストデータ1303に、音声メタ情報1204に対応する音声データ1203を関連付けることによって加工データ1601を生成する。
具体的には、例えば、データ加工部23は、テキストデータ1303に含まれるキーワード「製品A」および「訪問」に、それぞれ、音声データ1203に含まれるキーワード「製品A」および「まいります」へのリンク(図16の例ではそれぞれ「listen W01.wav@s1」および「listen W01.wav@s2」)を追加することによって、加工データ1601を生成する。言い換えると、加工データ1601は、テキストデータ1303に含まれる、入力されたキーワードに対応するキーワードと、それに対応する音声データ1203の部分と、の関連を示す情報である。
次に、データ出力部24は、加工データ1601を出力する(ステップS1407)。
以上のようにして、データ加工処理が行われる。
本実施例では、実施例1と異なり、事前に音声メタ情報データベース57とテキストメタ情報データベース58との間の関連付けを行っていない。したがって、これらのデータベースは、モーダルに応じて異なる表現(例えば話し言葉と書き言葉等の表現)が与えられた、同一のまたは関連する概念の情報を含んでいる可能性がある。しかし、入力キーワードを関連性辞書部17に基づいて展開することで、入力キーワードが各モーダルの特徴に合わせた表現に変換されるため、各モーダルの特徴(例えば話し言葉または書き言葉のいずれが含まれるか)に合わせた検索が可能となる。その結果、例えば通話応対記録のテキスト上に、関連する音声データのリンクを生成する等の加工を行うことが可能となる。
以上説明した本発明の各実施形態によれば、メタ情報データベースに基づいて、入力されたデータを加工することが可能となる。メタ情報データベースにおける単語の関連付けと、入力された表内の単語の関連付けに同一の関連性辞書として、同義語辞書または話し言葉変換辞書といった置換可能な単語の組み合わせを定義する辞書を用いることによって、文書データ・画像データ・音声データなど、マルチモーダルデータから抽出された情報を、入力されたデータに関連付けることが可能となる。
なお、上述した各実施形態では、各サーバのCPU上で実行されるプログラムによって、データ加工システムの各種機能を実現しているが、それらの一部又は全部が、例えば集積回路等の電子部品を用いたハードウェアによって実現されてもよい。
本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。本実施例では、データマイニングのための表生成システムや、コールセンターの音声ログ解析のシステムを想定したが、例えば、電子カルテデータと医用画像データを管理するシステムや、放送データの編集システムなど、マルチモーダルのデータを管理するための様々なシステムに適用することができる。
上記の実施形態の各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

Claims (13)

  1. 一つ以上のプロセッサと、前記一つ以上のプロセッサに接続される一つ以上の記憶装置と、を有するデータ加工システムであって、
    複数の種類のデータからメタ情報を抽出する条件を定義するメタ情報抽出用辞書情報と、前記複数の種類のデータから抽出されたメタ情報を関連付ける条件を定義する関連性辞書情報と、を保持し、
    前記複数の種類のデータから、前記メタ情報抽出用辞書情報に基づいて前記メタ情報を抽出し、
    入力されたデータからメタ情報を抽出し、
    前記関連性辞書情報に基づいて、前記入力されたデータから抽出されたメタ情報と前記複数の種類のデータから抽出されたメタ情報とを関連付け、
    前記関連付けの結果に基づいて、前記複数の種類のデータと、前記入力されたデータと、それらのデータから抽出されたメタ情報と、のいずれかの組み合わせの関連を示す情報を出力することを特徴とするデータ加工システム。
  2. 請求項1に記載のデータ加工システムであって、
    前記複数の種類のデータは、第1の種類のデータおよび第2の種類のデータを含み、
    前記メタ情報抽出用辞書情報は、前記第1の種類のデータから第1のメタ情報を抽出する条件を定義する第1のメタ情報抽出用辞書情報と、前記第2の種類のデータから第のメタ情報を抽出する条件を定義する第2のメタ情報抽出用辞書情報と、を含み、
    前記関連性辞書情報は、メタ情報と置換可能な情報を定義する情報を含み、
    前記データ加工システムは、
    前記第1の種類のデータおよび前記第2の種類のデータから、それぞれ、前記第1のメタ情報抽出用辞書情報および前記第2のメタ情報抽出用辞書情報に基づいて、前記第1のメタ情報および前記第2のメタ情報を抽出し、
    入力されたデータから第3のメタ情報を抽出し、
    前記関連性辞書情報に基づいて、前記第1のメタ情報と置換可能な情報、前記第2のメタ情報と置換可能な情報、および前記第3のメタ情報と置換可能な情報の少なくとも一つを特定し、
    前記第3のメタ情報または前記第3のメタ情報と置換可能な情報を用いて、前記第1のメタ情報または前記第1のメタ情報と置換可能な情報、および、前記第2のメタ情報または前記第2のメタ情報と置換可能な情報を検索し、
    前記検索の結果に基づいて、前記第3のメタ情報または前記第3のメタ情報と置換可能な情報と、前記第1のメタ情報または前記第1のメタ情報と置換可能な情報と、前記第2のメタ情報または前記第2のメタ情報と置換可能な情報と、を関連付けることを特徴とするデータ加工システム。
  3. 請求項2に記載のデータ加工システムであって、
    前記関連性辞書情報に基づいて、前記第1のメタ情報と置換可能な情報を特定し、前記関連性辞書情報に基づいて、前記第2のメタ情報と置換可能な情報を特定し、前記特定された置換可能な情報と前記第1のメタ情報と前記第2のメタ情報とが所定の条件を満たすか否かの判定に基づいて、前記第1のメタ情報と前記第2のメタ情報とを関連付け、
    前記関連性辞書情報に基づいて、前記第3のメタ情報と置換可能な情報を特定し、
    前記第1のメタ情報または前記第1のメタ情報と置換可能な情報が検索結果として取得された場合、前記第3のメタ情報または前記第3のメタ情報と置換可能な情報と、前記第1のメタ情報または前記第1のメタ情報と置換可能な情報と、前記第1のメタ情報に関連付けられた前記第2のメタ情報または前記第2のメタ情報と置換可能な情報と、を関連付けることを特徴とするデータ加工システム。
  4. 請求項2に記載のデータ加工システムであって、
    前記関連性辞書情報に基づいて、前記第1のメタ情報と置換可能な情報を特定する手順、および、前記関連性辞書情報に基づいて、前記第2のメタ情報と置換可能な情報を特定する手順を実行せず、前記関連性辞書情報に基づいて、前記第3のメタ情報と置換可能な情報を特定することを特徴とするデータ加工システム。
  5. 請求項2に記載のデータ加工システムであって、
    前記関連性辞書情報は、前記メタ情報に含まれる単語と同義の他の単語を定義する情報を含むことを特徴とするデータ加工システム。
  6. 請求項2に記載のデータ加工システムであって、
    前記関連性辞書情報は、前記メタ情報に含まれる書き言葉の単語と同義の話し言葉の単語を定義する情報、および、前記メタ情報に含まれる話し言葉の単語と同義の書き言葉の単語を定義する情報を含むことを特徴とするデータ加工システム。
  7. 請求項2に記載のデータ加工システムであって、
    前記関連性辞書情報は、前記メタ情報に含まれる第1の言語の単語と同義の第2の言語の単語を定義する情報を含むことを特徴とするデータ加工システム。
  8. 請求項2に記載のデータ加工システムであって、
    前記メタ情報は、三項関係を含む情報であり、
    前記関連性辞書情報は、抽出されたメタ情報が三項関係に係る所定の条件に合致するときに、合致した三項関係を利用して新たな三項関係を生成するための規則を含むことを特徴とするデータ加工システム。
  9. 請求項2に記載のデータ加工システムであって、
    前記第1の種類のデータは、テキスト、表構造、音声、画像または文書のいずれかである第1のモーダルのデータであり、
    前記第2の種類のデータは、テキスト、表構造、音声、画像または文書のうち、前記第1のモーダルとは異なる第2のモーダルのデータであり、
    前記関連性辞書情報は、異なるモーダル間で置換される情報を定義する情報を含むことを特徴とするデータ加工システム。
  10. 一つ以上のプロセッサと、前記一つ以上のプロセッサに接続される一つ以上の記憶装置と、を有する計算機システムによるデータ加工方法であって、
    前記計算機システムは、複数の種類のデータからメタ情報を抽出する条件を定義するメタ情報抽出用辞書情報と、前記複数の種類のデータから抽出されたメタ情報を関連付ける条件を定義する関連性辞書情報と、を保持し、
    前記データ加工方法は、
    前記複数の種類のデータから、前記メタ情報抽出用辞書情報に基づいて前記メタ情報を抽出する第1手順と、
    入力されたデータからメタ情報を抽出する第2手順と、
    前記関連性辞書情報に基づいて、前記入力されたデータから抽出されたメタ情報と前記複数の種類のデータから抽出されたメタ情報とを関連付ける第3手順と、
    前記関連付けの結果に基づいて、前記複数の種類のデータと、前記入力されたデータと、それらのデータから抽出されたメタ情報と、のいずれかの組み合わせの関連を示す情報を出力する第4手順と、を含むことを特徴とするデータ加工方法。
  11. 請求項10に記載のデータ加工方法であって、
    前記複数の種類のデータは、第1の種類のデータと、第2の種類のデータと、を含み、
    前記メタ情報抽出用辞書情報は、前記第1の種類のデータから第1のメタ情報を抽出する条件を定義する第1のメタ情報抽出用辞書情報と、前記第2の種類のデータから第1のメタ情報を抽出する条件を定義する第2のメタ情報抽出用辞書情報と、を含み、
    前記関連性辞書情報は、メタ情報と置換可能な情報を定義する情報を含み、
    前記第1手順は、前記第1の種類のデータおよび前記第2の種類のデータから、それぞれ、前記第1のメタ情報抽出用辞書情報および前記第2のメタ情報抽出用辞書情報に基づいて、前記第1のメタ情報および前記第2のメタ情報を抽出する第5手順を含み、
    前記第2手順は、入力されたデータから第3のメタ情報を抽出する第6手順を含み、
    前記第3手順は、
    前記関連性辞書情報に基づいて、前記第1のメタ情報と置換可能な情報、前記第2のメタ情報と置換可能な情報、および前記第3のメタ情報と置換可能な情報の少なくとも一つを特定する第7手順と、
    前記第3のメタ情報または前記第3のメタ情報と置換可能な情報を用いて、前記第1のメタ情報または前記第1のメタ情報と置換可能な情報、および、前記第2のメタ情報または前記第2のメタ情報と置換可能な情報を検索する第8手順と、
    前記検索の結果に基づいて、前記第3のメタ情報または前記第3のメタ情報と置換可能な情報と、前記第1のメタ情報または前記第1のメタ情報と置換可能な情報と、前記第2のメタ情報または前記第2のメタ情報と置換可能な情報と、を関連付ける第9手順と、を含むことを特徴とするデータ加工方法。
  12. 請求項11に記載のデータ加工方法であって、
    前記第7手順は、
    前記関連性辞書情報に基づいて、前記第1のメタ情報と置換可能な情報を特定し、前記関連性辞書情報に基づいて、前記第2のメタ情報と置換可能な情報を特定し、前記特定された置換可能な情報と前記第1のメタ情報と前記第2のメタ情報とが所定の条件を満たすか否かの判定に基づいて、前記第1のメタ情報と前記第2のメタ情報とを関連付ける手順と、
    前記関連性辞書情報に基づいて、前記第3のメタ情報と置換可能な情報を特定する手順と、を含み、
    前記第9手順は、前記第8手順において前記第1のメタ情報または前記第1のメタ情報と置換可能な情報が検索結果として取得された場合、前記第3のメタ情報または前記第3のメタ情報と置換可能な情報と、前記第1のメタ情報または前記第1のメタ情報と置換可能な情報と、前記第1のメタ情報に関連付けられた前記第2のメタ情報または前記第2のメタ情報と置換可能な情報と、を関連付ける手順を含むことを特徴とするデータ加工方法。
  13. 請求項11に記載のデータ加工方法であって、
    前記第7手順は、
    前記関連性辞書情報に基づいて、前記第1のメタ情報と置換可能な情報を特定する手順、および、前記関連性辞書情報に基づいて、前記第2のメタ情報と置換可能な情報を特定する手順を含まず、
    前記関連性辞書情報に基づいて、前記第3のメタ情報と置換可能な情報を特定する手順を含むことを特徴とするデータ加工方法。
JP2014553983A 2012-12-28 2012-12-28 データ加工システムおよびデータ加工方法 Expired - Fee Related JP5903171B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/084007 WO2014102992A1 (ja) 2012-12-28 2012-12-28 データ加工システムおよびデータ加工方法

Publications (2)

Publication Number Publication Date
JP5903171B2 true JP5903171B2 (ja) 2016-04-13
JPWO2014102992A1 JPWO2014102992A1 (ja) 2017-01-12

Family

ID=51020143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014553983A Expired - Fee Related JP5903171B2 (ja) 2012-12-28 2012-12-28 データ加工システムおよびデータ加工方法

Country Status (3)

Country Link
US (1) US20150324436A1 (ja)
JP (1) JP5903171B2 (ja)
WO (1) WO2014102992A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134954A (ja) * 2006-11-29 2008-06-12 Canon Inc 情報処理装置、その制御方法、及びプログラム
JP2008192102A (ja) * 2007-02-08 2008-08-21 Sony Computer Entertainment Inc メタデータ生成装置およびメタデータ生成方法
JP2008226110A (ja) * 2007-03-15 2008-09-25 Seiko Epson Corp 情報処理装置、情報処理方法および制御プログラム
JP2008236373A (ja) * 2007-03-20 2008-10-02 Nippon Hoso Kyokai <Nhk> メタ情報付加装置及びメタ情報付加プログラム
US20120323930A1 (en) * 2011-06-20 2012-12-20 Google Inc. Text suggestions for images

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3367268A1 (en) * 2000-02-22 2018-08-29 Nokia Technologies Oy Spatially coding and displaying information
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
US20050209849A1 (en) * 2004-03-22 2005-09-22 Sony Corporation And Sony Electronics Inc. System and method for automatically cataloguing data by utilizing speech recognition procedures
US20060009966A1 (en) * 2004-07-12 2006-01-12 International Business Machines Corporation Method and system for extracting information from unstructured text using symbolic machine learning
US20070088549A1 (en) * 2005-10-14 2007-04-19 Microsoft Corporation Natural input of arbitrary text
US8615707B2 (en) * 2009-01-16 2013-12-24 Google Inc. Adding new attributes to a structured presentation
WO2011016078A1 (ja) * 2009-08-04 2011-02-10 株式会社 東芝 機械翻訳装置および翻訳プログラム
CN102955773B (zh) * 2011-08-31 2015-12-02 国际商业机器公司 用于在中文文档中识别化学名称的方法及系统
US9741344B2 (en) * 2014-10-20 2017-08-22 Vocalzoom Systems Ltd. System and method for operating devices using voice commands

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134954A (ja) * 2006-11-29 2008-06-12 Canon Inc 情報処理装置、その制御方法、及びプログラム
JP2008192102A (ja) * 2007-02-08 2008-08-21 Sony Computer Entertainment Inc メタデータ生成装置およびメタデータ生成方法
JP2008226110A (ja) * 2007-03-15 2008-09-25 Seiko Epson Corp 情報処理装置、情報処理方法および制御プログラム
JP2008236373A (ja) * 2007-03-20 2008-10-02 Nippon Hoso Kyokai <Nhk> メタ情報付加装置及びメタ情報付加プログラム
US20120323930A1 (en) * 2011-06-20 2012-12-20 Google Inc. Text suggestions for images

Also Published As

Publication number Publication date
JPWO2014102992A1 (ja) 2017-01-12
WO2014102992A1 (ja) 2014-07-03
US20150324436A1 (en) 2015-11-12

Similar Documents

Publication Publication Date Title
US11720572B2 (en) Method and system for content recommendation
US10394851B2 (en) Methods and systems for mapping data items to sparse distributed representations
US9720944B2 (en) Method for facet searching and search suggestions
JP6461980B2 (ja) 検索結果におけるコヒーレントな質問回答
US10552539B2 (en) Dynamic highlighting of text in electronic documents
US20150178273A1 (en) Unsupervised Relation Detection Model Training
US20080052262A1 (en) Method for personalized named entity recognition
US20120290561A1 (en) Information processing apparatus, information processing method, program, and information processing system
US20160239504A1 (en) Method for entity enrichment of digital content to enable advanced search functionality in content management systems
US10108698B2 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
US20140195532A1 (en) Collecting digital assets to form a searchable repository
US11429792B2 (en) Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model
JP6775935B2 (ja) 文書処理装置、方法、およびプログラム
US10650191B1 (en) Document term extraction based on multiple metrics
NL2016846B1 (en) Computer implemented and computer controlled method, computer program product and platform for arranging data for processing and storage at a data storage engine.
Sabri et al. Improving performance of DOM in semi-structured data extraction using WEIDJ model
US20160085850A1 (en) Knowledge brokering and knowledge campaigns
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JPWO2016151690A1 (ja) 文書検索装置、方法及びプログラム
JP5903171B2 (ja) データ加工システムおよびデータ加工方法
US11550777B2 (en) Determining metadata of a dataset
JP2018185716A (ja) データ処理システム、データ処理方法、およびデータ構造
JP2021101375A (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2012243130A (ja) 情報検索装置、方法、及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160223

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160311

R150 Certificate of patent or registration of utility model

Ref document number: 5903171

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees