JP2017068843A - 情報処理装置及び情報処理方法 - Google Patents
情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- JP2017068843A JP2017068843A JP2016187317A JP2016187317A JP2017068843A JP 2017068843 A JP2017068843 A JP 2017068843A JP 2016187317 A JP2016187317 A JP 2016187317A JP 2016187317 A JP2016187317 A JP 2016187317A JP 2017068843 A JP2017068843 A JP 2017068843A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- attribute
- feature vector
- type
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】本発明は情報処理装置及び方法を提供する。【解決手段】情報処理装置は、認識すべきエンティティの第1属性特徴ベクトルを取得する第1取得部であって、該第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、第1取得部と、該第1属性特徴ベクトルに基づいて、該認識すべきエンティティが該特定タイプに属するか否かを判定するタイプ認識部とを含む。本発明の実施例の方法及び装置によれば、認識すべきエンティティが特定タイプ/サブタイプに属するか否かを自動的、且つ正確に判定できるため、情報処理プロセスにおいて演算量を大幅に低減でき、検索結果の正確性を向上できる。【選択図】図1
Description
本発明は、情報処理装置及び方法に関し、具体的には、セマンティック・データベース(semantic database)においてエンティティのタイプ及びサブタイプを自動的に認識する装置及び方法に関する。
コンピュータ及びインターネット技術の進歩及び発展に伴い、より多くのオープンソースのデータベースがインターネットで公開され、その中にセマンティック・データベースが含まれ、セマンティック・データベースの使用は研究者に大きな利便性を提供している。
セマンティック・データベースでは、一般的に、エンティティについて、例えば人名、地名、機関名、時間、通貨などのタイプを注釈する。情報処理プロセスでは、エンティティのタイプが分かると、演算量を大幅に低減でき、検索結果の正確性を向上できる。例えば、「ハリー・ポッター」は、最初は小説であり、そして同名の映画が出て、その後ゲームも発売されている(これらは異なるエンティティタイプに属する)。このため、検索プロセスでは、「ハリー・ポッター」という検索エンティティのタイプが分からないと、検索結果には小説、映画及びゲームに関連する内容が共に含まれてしまう。一方、「ハリー・ポッター」という検索エンティティのタイプがゲームであると分かっている場合は、検索結果にゲームに関連する内容のみが出現する場合がある。
しかし、人的資源や物的資源などの要素の制限により、セマンティック・データベースには、タイプのマークが付けられていないエンティティが依然として大量ある。よって、研究者がセマンティック・データベースを用いる場合は高い正確率をなかなか得られない。
本発明は、従来技術の上記問題点を鑑みてなるものであり、従来技術の問題点を解決する情報処理装置及び情報処理方法を提供することを目的の1つとする。
本発明の1つの態様では、情報処理装置であって、認識すべきエンティティの第1属性特徴ベクトルを取得する第1取得手段であって、前記第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、第1取得手段と、前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するタイプ認識手段と、を含む、装置を提供する。
本発明のもう1つの態様では、情報処理方法であって、認識すべきエンティティの第1属性特徴ベクトルを取得するステップであって、前記第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、ステップと、前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するステップと、を含む、方法を提供する。
本発明の他の態様では、上記方法を実現するためのコンピュータプログラムコードが記録されている、コンピュータが読み取り可能な媒体の形のコンピュータプログラムプロダクトをさらに提供する。
本発明の実施例の方法及び装置によれば、認識すべきエンティティが特定タイプ/サブタイプに属するか否かを自動的、且つ正確に判定できるため、情報処理プロセスにおいて演算量を大幅に低減でき、検索結果の正確性を向上できる。
本発明の上記及び他の利点をより明確にするように、以下は図面を参照しながら本発明の好適な実施例を詳細に説明する。
本発明は、下記図面を参照しながら提供される説明を参考して、より良く理解され、全ての図面では同一又は類似の符号を用いて同一又は類似の部材を表す。
本発明の第1実施例の情報処理装置10の構成を示すブロック図である。
本発明の第4実施例の情報処理装置20の構成を示すブロック図である。
本発明の1つの実施例の情報処理方法30のフローチャートである。
本発明のもう1つの実施例の情報処理方法40のフローチャートである。
本発明の実施例の方法及び/又は装置を実現可能な汎用のパーソナルコンピュータの例示的な構成を示すブロック図である。
以下、図面を参照しながら本発明の例示的な実施例を説明する。本発明の1つの図面又は1つの実施例に説明される要素及び特徴を1つ又は複数の他の図面又は実施例に示す要素及び特徴と組み合わせてもよい。なお、明確にするために、図面及び説明では本発明と関係のない、当業者にとって既知の構成要件及び処理の表示及び説明が省略されている。
当業者が理解できるように、本発明の「第1」、「第2」等の用語は単なる異なる構成部、モジュール又はステップ等を区別するためのものであり、何れかの特定の技術的意味を表すものではなく、それらの間の必然的な論理順序を表すものでもなく、限定される異なるユニット、モジュール又はステップの重要度を表すものでもない。
本発明では、説明の便宜上、単なる一例として、セマンティック・データベースはRDF(Resource Description Framework:リソース・ディスクリプション・フレームワーク)を用いて表されてもよく、RDFはWeb識別子(URI)を用いてデータ・エンティティ(以下は、エンティティと略称される)をマーキングし、簡単な属性(property)及び属性値を用いてエンティティを記述する。当業者が理解できるように、本発明に提供するセマンティック・データベースは上記のタイプに限定されない。
RDFを用いてセマンティック・データベースを表す場合は、エンティティは、URIを有する任意のものであってもよく、例えば「http://dbpedia.org/Resource/Apple_Inc.」、即ちアップルという会社であってもよい。下記のRDF文書は、例えばエンティティ「http://dbpedia.org/Resource/Apple_Inc.」を記述するために用いられてもよい。
<?xml
version="1.0"?>
<RDF>
<Description
about="http://dbpedia.org/resource/Apple_Inc.">
<name>Apple
Inc.</name>
<homepage>http://apple.com</homepage>
</Description>
</RDF>
上記の文書では、例えば「name」又は「homepage」はエンティティの属性であり、「Apple Inc.」又は「http://apple.com」はそれぞれ上記属性に対応する属性値である。
<?xml
version="1.0"?>
<RDF>
<Description
about="http://dbpedia.org/resource/Apple_Inc.">
<name>Apple
Inc.</name>
<homepage>http://apple.com</homepage>
</Description>
</RDF>
上記の文書では、例えば「name」又は「homepage」はエンティティの属性であり、「Apple Inc.」又は「http://apple.com」はそれぞれ上記属性に対応する属性値である。
セマンティック・データベースにおけるエンティティは、各エンティティが各種の異なる属性を有してもよい。異なるエンティティは、タイプが同じエンティティが一般的に複数の同じ属性を有し、タイプが異なるエンティティの属性が一般的に異なる。
例えば、上述したエンティティであるアップル会社は、そのタイプが機関であり、その属性が例えば名称、ホームページ、創業者、資産及び従業員数などを含んでもよい。タイプが同じ機関のエンティティであるサムスン社の場合は、同様に名称、ホームページ、創業者、資産及び従業員数などの属性を有する。エンティティであるアップルは、そのタイプが植物であり、その属性が例えば糖分、産地、食感、水分などを含んでもよい。
本発明の発明者の発見によると、特定タイプのエンティティを記述する属性の重要度を用いて認識すべきエンティティの属性特徴ベクトルを構築し、エンティティが該特定タイプに属するか否かを認識してもよい。
図1は本発明の第1実施例の情報処理装置10の構成を示すブロック図である。以下は、エンティティのタイプが特定タイプであるか否かを判断すること、例えば機関を一例にして、図1を参照しながら第1実施例の情報処理装置10を詳細に説明する。
図1に示すように、情報処理装置10は、第1取得部11及びタイプ認識部13を含む。第1取得部11は、認識すべきエンティティの第1属性特徴ベクトルを取得する。ここで、第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する。タイプ認識部13は、第1属性特徴ベクトルに基づいて、認識すべきエンティティが特定タイプに属するか否かを判定する。
本実施例では、第1取得部11は、例えばセマンティック・データベースにおける属性の特定タイプのエンティティを記述する時の使用頻度に基づいて、第1属性特徴ベクトルを取得してもよい。言い換えれば、該特定タイプのエンティティが該属性を有する場合は、該属性を用いて該エンティティを記述すると見なされる。具体的には、属性の特定タイプのエンティティを記述する時の使用頻度が高く、他のタイプのエンティティを記述する時の使用頻度が低い場合は、該属性は該特定タイプのエンティティと他のタイプのエンティティとをよりよく区別でき、即ち該属性の重要度が高い。
セマンティック・データベースに合計N個の属性があり(Nは自然数である)、機関というタイプのマークが付けられているエンティティの数がM個である(Mは自然数である)と仮定する。各属性について、第1取得部11は、機関という該属性のタイプを有するエンティティの数(該数がm(mは整数である)であると仮定する)と、機関というタイプのマークが付けられているエンティティの数との比、即ちm/Mを取得してもよい。該比は、該属性の機関というタイプのエンティティを記述する時の使用頻度であり、即ち該属性の機関というタイプのエンティティを記述する時の重要度を表す。
各認識すべきエンティティについて、第1取得部11は、該エンティティの有する属性に基づいて、該エンティティに対応する1つのN*1次元の第1属性特徴ベクトルを取得してもよい。該ベクトルにおける各要素は、1つの属性の機関というタイプのエンティティを記述する時の重要度に対応する。認識すべきエンティティが属性を有しない場合は、該属性の、該エンティティに対応する第1属性特徴ベクトルにおける対応する要素は0となる。
具体的には、セマンティック・データベースにおける全ての属性の数が500であると仮定し、この500個の属性の重要度をそれぞれ計算する。例えば、属性aについて、機関というタイプのマークが付けられているエンティティの数が100個であり、属性aを用いる、タイプが機関の数が80個である場合は、属性aの重要度は80/100=0.8となる。タイプを認識すべきエンティティについて、該エンティティが4つの属性を有し、上記のデータベースにおける各属性の重要度の計算結果により、この4つの属性の重要度が0.8、0.1、0.9及び0.5である場合は、該エンティティの第1属性特徴ベクトルは(0.8,0,…0,0.1,0,…0,0.9,0,…0,0.5,0,…0)となる。ここで、有していない属性の重要度を0に設定する。
1つの可能な例では、セマンティック・データベースにおける全ての属性(N個)のうち一部のみを用いて第1属性特徴ベクトルを構築してもよい。
以下は、例を参照しながら第1属性特徴ベクトルの生成を説明する。セマンティック・データベースに10個の属性があり、即ち資産、ホームページ、従業員数、糖分、水分、色、身長、体重、年齢、性別であると仮定する。また、セマンティック・データベースに3つのエンティティ、即ちアップル(会社)、赤十字社及びアップルがあり、そのうち、アップル(会社)というエンティティ及び赤十字社というエンティティのタイプは機関であり、アップルというエンティティのタイプは植物である。アップル(会社)というエンティティが3つの属性、即ち資産、ホームページ、従業員数を有し、赤十字社というエンティティが2つの属性、即ちホームページ、従業員数を有し、アップルというエンティティが3つの属性、即ち糖分、成分、色を有すると仮定する。
認識すべきエンティティがマイクロソフトであり、それも3つの属性、即ち資産、ホームページ、従業員数を有すると仮定する。認識すべきエンティティ「マイクロソフト」の第1属性特徴ベクトルを生成する時に、セマンティック・データベースの全ての属性を選択すると、マイクロソフトというエンティティに対応する第1属性特徴ベクトルは{0.5,1,1,0,0,0,0,0,0,0}となる。ここで、例えば属性「資産」について、セマンティック・データベースにおいて機関というタイプのマークの付けられているエンティティの数は2個であり、属性「資産」を用い、タイプが機関のエンティティの数は1個であり、属性「資産」の重要度は1/2=0.5である。属性「ホームページ」について、セマンティック・データベースにおいて機関というタイプのマークの付けられているエンティティの数は2個であり、属性「ホームページ」を用い、タイプが機関のエンティティの数は2個であり、属性「ホームページ」の重要度は2/2=1である。
上述したように、認識すべきエンティティのタイプが機関であるか否かを判定する際に、セマンティック・データベースにおける全ての属性のうち一部のみ、例えば資産、ホームページ、従業員数、糖分、水分、色を選択してもよい。この場合は、マイクロソフトというエンティティに対応する第1属性特徴ベクトルは{0.5,1,1,0,0,0}である。
タイプ認識部13は、取得された第1属性特徴ベクトルに基づいて、認識すべきエンティティが特定タイプに属するか否かを判定してもよく、本例において特定タイプは機関である。
例えば、上述したように、エンティティ「アップル会社」とエンティティ「アップル」とは属性が基本的に異なり、それらの属性に対応する第1属性特徴ベクトルも異なる。エンティティ「アップル会社」について、「名称」、「ホームページ」、「創業者」及び「従業員数」等の属性の第1属性特徴ベクトルにおける対応する要素の値は高く、即ち、ほとんどの機関というタイプのエンティティはこれらの属性を有し、「糖分」、「食感」及び「水分」等の属性の第1属性特徴ベクトルにおける対応する要素の値は略ゼロであり、即ち、これらの属性は通常機関というタイプのエンティティを記述するためのものではない。一方、エンティティ「アップル」について、「糖分」、「食感」及び「水分」等の属性の第1属性特徴ベクトルにおける対応する要素の値は高く、即ち、ほとんどの植物というタイプのエンティティはこれらの属性を有し、「名称」、「ホームページ」、「創業者」及び「従業員数」等の属性の第1属性特徴ベクトルにおける対応する要素の値は略ゼロであり、即ち、これらの属性は通常植物というタイプのエンティティを記述するためのものではない。
このように、タイプ認識部13は、異なるエンティティの属性特徴ベクトルの差異に基づいてエンティティを区別できる。1つの可能な例では、タイプ認識部13は、第1属性特徴ベクトルにおける要素の値が所定範囲内にあるか否かを判定することで、認識すべきエンティティが特定タイプに属するか否かを判定してもよい。上記値の所定範囲は、例えば経験値に基づいて決定されてもよい。例えば、上記の例では、「機関」というエンティティのタイプについて、「名称」、「ホームページ」、「創業者」及び「従業員数」等の属性の第1属性特徴ベクトルにおける対応する要素の値は高く、即ち、ほとんどの機関というタイプのエンティティはこれらの属性を有する。よって、認識すべきタイプが「機関」のエンティティについて、第1属性特徴ベクトルにおけるこれらの属性に対応する要素の値が高い、例えば0.8よりも大きい場合は、該認識すべきエンティティのタイプが「機関」であると判定する。
もう1つの可能な例では、タイプ認識部13は、特定タイプのエンティティ訓練の分類器により、認識すべきエンティティが該特定タイプに属するか否かを判定してもよい。訓練された分類器を用いて認識すべきエンティティが特定タイプに属するか否かを判断する具体的な方法は下記の実施例で詳細に説明する。
上記の例では認識すべきタイプのエンティティが具体的な特定タイプに属するか否かを判定する方法を説明した。他の可能な例では、第1属性特徴ベクトルにおける要素の値に基づいて、認識すべきエンティティがどの特定タイプに属するかを認識してもよい。例えば、認識すべきタイプのエンティティについて、上記の例で説明された方法により、まず該エンティティのタイプが機関であるか否かを認識し、機関でない場合は、該エンティティがデータベースにおける特定タイプに属すると認識されるまで、同様な方法で該認識すべきものがデータベースにおける他の特定タイプであるかを走査して認識してもよい。或いは、各異なる特定タイプについて、各属性の重要度について特定タイプに関連する所定の値範囲を設定し、認識すべきエンティティの第1属性特徴ベクトルにおける対応要素の値が該所定の値範囲に入った場合は、該認識すべきエンティティが対応する特定タイプに属すると判定してもよい。また、1つの可能な例では、認識すべきエンティティのタイプがデータベースにおける特定タイプのいずれにも属しない場合は、該認識すべきエンティティをデータベースに追加し、それについて新たなタイプを設定し、データベースを更新してもよい。
なお、異なるタイプについて複数の分類器を訓練することで、これらの分類器により認識すべきエンティティの属する特定タイプをそれぞれ判断してもよい。
第1実施例の情報処理装置10によれば、セマンティック・データベースの属性の特定タイプのエンティティを記述する時の重要度に基づいて、認識すべきエンティティが特定タイプ/サブタイプに属するか否かを自動的、且つ正確に判定できるため、情報処理プロセスにおいて演算量を大幅に低減でき、検索結果の正確性を向上できる。
セマンティック・データベースでは、共通の属性が存在する可能性がある。即ち、このような属性は、各種のタイプのエンティティを記述する時に用いられる。このような共通属性は、特定タイプのエンティティについての認識度が高くないため、最適化の設定として、共通属性の第1属性特徴ベクトルにおける重みを小さくしてもよい。
本発明の第2実施例では、第1取得部11は、セマンティック・データベースの属性のうち少なくとも一部が特定タイプのエンティティを記述する時に使用される頻度及びセマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて決定された重みを用いて、該重要度を決定してもよい。
ここで、weightaは、属性aの特定タイプのエンティティを記述する時に使用される頻度及びセマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて取得された属性aの第1属性特徴ベクトルにおける重みを表し、|Oa|は、特定タイプのマークが付けられているエンティティのうち属性aを使用するエンティティの数を表し、|Oall|は、該特定タイプのマークが付けられている全てのエンティティの数を表し、|Iall|は、セマンティック・データベースにおける全てのエンティティの数を表し、|Ia|は、全てのエンティティのうち属性aを使用するエンティティの数を表す。
この場合は、属性aについては、特定タイプのエンティティのうち属性aを用いて記述されるエンティティの数が多くても、即ち
(外1)
が大きくても、属性aの特定タイプのエンティティを記述する時の重要度が高いことを表すことではない。これは、他のタイプのエンティティのうち属性aを用いて記述されるエンティティの数も多いと、属性aが共通属性であることを意味するからである。この場合は、
(外2)
を用いて属性aの重みを小さくしてもよい。一方、属性aが特定タイプのエンティティの固有のものであり、属性aを使用する他のタイプのエンティティが少ない場合は、該属性は共通属性ではなく、この場合は、
(外3)
の重みを小さくする効果が制限され、結局属性aの重みが大きい。
(外1)
が大きくても、属性aの特定タイプのエンティティを記述する時の重要度が高いことを表すことではない。これは、他のタイプのエンティティのうち属性aを用いて記述されるエンティティの数も多いと、属性aが共通属性であることを意味するからである。この場合は、
(外2)
を用いて属性aの重みを小さくしてもよい。一方、属性aが特定タイプのエンティティの固有のものであり、属性aを使用する他のタイプのエンティティが少ない場合は、該属性は共通属性ではなく、この場合は、
(外3)
の重みを小さくする効果が制限され、結局属性aの重みが大きい。
従って、各属性について、該属性の特定タイプのエンティティを記述する時の使用頻度が高いほど、該属性の第1属性特徴ベクトルにおける対応する重みが大きく、該属性のセマンティック・データベースにおける全てのエンティティを記述する時の使用頻度が高いほど、該属性の第1属性特徴ベクトルにおける対応する重みが小さい。
本実施例では、第1実施例に記載された方法でタイプ認識部13を構成してもよく、ここでその説明が省略される。
第2実施例の情報処理装置10によれば、共通属性の第1属性特徴ベクトルにおける重みを小さくすることで、第1属性特徴ベクトルに特定タイプのエンティティの有する属性をよりよく反映させることができる。
本発明の第3実施例では、タイプ認識部13は、訓練された第1分類器を用いて、第1属性特徴ベクトルに基づいて、認識すべきエンティティが特定タイプに属するか否かを判定してもよい。
本実施例では、第1実施例又は第2実施例に記載された方法で第1取得部11を構成してもよく、ここでその説明が省略される。
第1分類器を訓練する際に、特定タイプのマークが付けられているエンティティを正例として用い、該特定タイプと同一のレベルの他のタイプのエンティティを反例として用いてもよい。
例えば、上述したアップル(会社)、赤十字社及びアップルというエンティティを含むセマンティック・データベースでは、アップル(会社)、赤十字社を正例として用い、アップルを反例として用いて、「機関」という特定タイプについての分類器を訓練してもよい。正例エンティティであるアップル(会社)、赤十字社について、第1属性特徴ベクトルを生成する際にセマンティック・データベースの全ての属性を選択する場合は、第1属性特徴ベクトルはそれぞれ{0.5,1,1,0,0,0,0,0,0,0}及び{0,1,1,0,0,0,0,0,0,0}であり、反例エンティティであるアップルについて、その第1属性特徴ベクトルは{0,0,0,1,1,1,0,0,0,0}である。そして、正例及び反例の第1属性特徴ベクトルの特徴に基づいて分類器を訓練する。
1つの可能な例では、該特定タイプと同一のレベルの他のタイプのエンティティから、正例と同じ数の反例を選択してもよい。
1つの可能な例では、反復の方式で第1分類器を訓練してもよい。即ち、訓練された第1分類器の分類結果が変わらないまで、現在のラウンドで訓練して得られた第1分類器により取得された、特定タイプと判定されたエンティティを既存の正例に追加して次のラウンドの訓練を行い続け、この場合に取得された第1分類器を、最終的な第1分類器とする。
1つの可能な例では、第1分類器は、サポートベクタマシン(SVM)分類器を採用してもよい。
第3実施例の情報処理装置10によれば、特定タイプのエンティティについて訓練された分類器を用いることで、タイプ認識部13は第1属性特徴ベクトルを用いて、認識すべきエンティティが特定タイプに属するか否かをより正確に判定できる。
セマンティック・データベースでは、エンティティタイプの概念及び概念の属性は通常本体を用いて定義される。一方、本体は、概念の間の関係、例えばサブタイプの関係についても比較的に正確に定義している。このため、セマンティック・データベースの本体の定義によりタイプのサブタイプを取得できる。同様に、セマンティック・データベースでは、一部のエンティティのサブタイプについてマークが付けられているが、殆どはサブタイプのマークが付けられていない。
図2は本発明の第4実施例の情報処理装置20の構成を示すブロック図である。以下は、機関というタイプのエンティティのサブタイプが会社であるか否かを判定することを例にして、図2を参照しながら第4実施例の情報処理装置20を詳細に説明する。
図2に示すように、情報処理装置20は第2取得部25及びサブタイプ認識部27を含む。第2取得部25は、特定タイプのエンティティの第2属性特徴ベクトルを取得する。ここで、第2属性特徴ベクトルは、少なくとも該特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する。サブタイプ認識部27は、第2属性特徴ベクトルに基づいて、該特定タイプのエンティティが特定サブタイプに属するか否かを判定する。
特定サブタイプのエンティティの認識の前提は、このエンティティが対応する親タイプでなければならないことである。即ち、エンティティのサブタイプが会社である場合は、その前提は該エンティティのタイプが機関でなければならないことである。このため、セマンティック・データベースにおける機関のマークが付けられているエンティティを選択し、これらのエンティティから会社というサブタイプのエンティティを認識してもよい。この場合は、本実施例の情報処理装置20は独立して用いられてもよい。1つの可能な例では、選択されたエンティティは上述した第1タイプ認識部13により認識された機関というタイプのエンティティを含んでもよく、この場合は、本実施例の情報処理装置20は、図2における破線の枠に示すように、上述した第1取得部11及びタイプ認識部13をさらに含んでもよい。
本実施例では、第2取得部25は、例えば特定タイプの全てのエンティティの全ての属性が特定サブタイプのエンティティを記述する時に使用される頻度に基づいて、第2属性特徴ベクトルを取得してもよい。具体的には、属性が特定サブタイプのエンティティを記述する時の使用頻度が高いほど、該属性が該特定サブタイプのエンティティと他のサブタイプのエンティティとをより良く区別でき、該属性の重要度が高い。
例えば、機関というタイプの全てのエンティティはN’個の属性を有し(N’は自然数である)、会社というサブタイプのマークが付けられているエンティティの数はM’個である(M’は自然数である)。属性bについて、第2取得部25は、会社という該属性のサブタイプを有するエンティティの数(該数がm’(mは整数である)であると仮定する)と、会社というサブタイプのマークが付けられているエンティティの数との比、即ちm’/M’を取得してもよい。該比は、該属性の会社というサブタイプのエンティティを記述する時の使用頻度であり、即ち該属性の会社というサブタイプのエンティティを記述する時の重要度を表す。
各認識すべきエンティティについて、第2取得部25は、該エンティティの有する属性に基づいて、該エンティティに対応する1つのN*1次元の第2属性特徴ベクトルを取得してもよい。該ベクトルにおける各要素は、N’個の属性のうち1つの会社というサブタイプのエンティティを記述する時の重要度に対応する。認識すべきエンティティが属性を有しない場合は、該属性の、該エンティティに対応する第2属性特徴ベクトルにおける対応する要素は0となる。
1つの可能な例では、特定タイプの全てのエンティティの有する全ての属性(N’個)のうち一部のみを用いて第2属性特徴ベクトルを構築してもよい。
サブタイプ認識部27は、第2属性特徴ベクトルに基づいて、該特定タイプのエンティティが特定サブタイプに属するか否かを判定してもよい。
例えば、第1実施例に記載されたタイプ認識部13と類似の方式でサブタイプ認識部27を構成してもよいが、ここでその説明が省略される。
第4実施例の情報処理装置20によれば、既知タイプのエンティティのサブタイプをさらに取得でき、計算量をさらに低減でき、検索結果の正確性をさらに向上できる。
本発明の第5実施例では、第2取得部25は、特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が特定サブタイプのエンティティを記述する時に使用される頻度、及び特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、該重要度を決定してもよい。
ここで、weightbは、属性bの特定サブタイプのエンティティを記述する時に使用される頻度及び特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて取得された属性bの重みを表し、|Cb|は、特定サブタイプのマークが付けられているエンティティのうち属性bを使用するエンティティの数を表し、|Call|は、特定タイプのマークが付けられている全てのエンティティの数を表し、|Oall|は、該特定サブタイプの親タイプの全てのエンティティの数を表し、|Ob|は、全ての親タイプのエンティティのうち属性bを使用するエンティティの数を表す。
従って、各属性について、該属性の特定サブタイプのエンティティを記述する時の使用頻度が高いほど、該属性の第2属性特徴ベクトルにおける対応する重みが大きく、該属性の特定サブタイプの親タイプの全てのエンティティを記述する時の使用頻度が高いほど、該属性の第2属性特徴ベクトルにおける対応する重みが小さい。
本実施例では、第1実施例に記載された方法でタイプ認識部13を構成してもよく、ここでその説明が省略される。
第5実施例の情報処理装置10によれば、共通属性の第2属性特徴ベクトルにおける重みを小さくすることで、第2属性特徴ベクトルに特定サブタイプのエンティティの有する属性をよりよく反映させることができる。
本発明の第6実施例では、サブタイプ認識部27は、訓練された第2分類器を用いて、第2属性特徴ベクトルに基づいて、特定タイプのエンティティが特定サブタイプに属するか否かを判定してもよい。
本実施例では、第4実施例又は第5実施例に記載された方法で第2取得部25を構成してもよく、ここでその説明が省略される。
第2分類器を訓練する際に、特定サブタイプのマークが付けられているエンティティを正例として用い、該特定サブタイプと同一のレベルの他のサブタイプのエンティティを反例として用いてもよい。
1つの可能な例では、該特定サブタイプと同一のレベルの他のサブタイプのエンティティから、正例と同じ数の反例を選択してもよい。
1つの可能な例では、反復の方式で第2分類器を訓練してもよい。訓練の方式は、第1分類器について行われる反復訓練と類似し、ここでその説明が省略される。
1つの可能な例では、第2分類器は、サポートベクタマシン(SVM)分類器を採用してもよい。
第6実施例の情報処理装置20によれば、特定サブタイプのエンティティについて訓練された分類器を用いることで、第2属性特徴ベクトルを用いて、特定タイプのエンティティが特定サブタイプに属するか否かをより正確に判定できる。
本発明の第7実施例では、第2取得部25は、特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが該特定サブタイプを含まない場合に、該属性の第2属性特徴ベクトルにおける対応する重みを所定割合で減らしてもよい。
属性の本体の定義に従って、属性を定義する場合は、該属性の定義フィールドを同時に定義してもよい。定義フィールドには、該属性に適用するタイプ又はサブタイプが定義される。1つの属性は、複数の定義フィールドを同時に有してもよい。例えば、エンティティ「アップル会社」について、属性「資産」の定義フィールドは会社を含み、属性「創業者」の定義フィールドは会社を含まない。
ここで、new_weightbは調整後の属性bの重みを表し、weightbは、属性bの特定サブタイプのエンティティを記述する時に使用される頻度及び特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて取得された属性bの重みを表し、sは所定比率を表す。
このように、第2取得部25が上記の式(2)に従って属性bの重みを取得した後に、属性bの定義フィールドに該特定サブタイプが含まれている場合、例えばエンティティ「アップル会社」の属性「資産」が会社というサブタイプを含む場合は、第2取得部25は、該属性の重みをそのまま維持し、属性bの定義フィールドに該特定のサブタイプが含まれていない場合、例えばエンティティ「アップル会社」の属性「創業者」が会社というサブタイプを含まない場合は、第2取得部25は、該属性の重みを所定割合で減らす。
1つの可能な例では、上記所定の割合は0.8であってもよい。
当業者が分かるように、第1乃至3の実施例の情報処理装置10も本実施例に説明した属性の定義フィールドに基づいて第1属性特徴ベクトルにおける重みを調整してもよく、ここでその説明が省略される。
本発明の第7実施例の情報処理装置20によれば、属性の定義フィールドに基づいて該属性の第2属性特徴ベクトルにおける重みを調整することで、第2属性特徴ベクトルに特定サブタイプのエンティティの有する属性をよりよく反映させることができる。
本発明の第8実施例では、第2取得部25により取得された第2属性特徴ベクトルは、特定タイプのエンティティの文字列型の属性値に該特定サブタイプの名称が含まれるか否かをさらに反映する。
本実施例では、第2属性特徴ベクトルは、他の実施例に説明された方式で取得された第2属性特徴ベクトルに比べて、1つの次元を追加し、追加された要素では、認識すべきエンティティの文字列型の属性値に該特定サブタイプの名称が含まれるか否かを反映する。
例えば、第4実施例又は第5実施例に説明された方式により認識すべきエンティティの第2属性特徴ベクトルを取得した後に、第2取得部25は、該認識すべきエンティティの文字列型の属性値に特定サブタイプの名称が含まれるか否かをさらに検索する。名称が含まれている場合は、第2取得部25は、例えば第2属性特徴ベクトルの上記追加された要素を1に設定し、名称が含まれていない場合は、第2取得部25は、例えば上記追加された要素を0に設定してもよい。
例えば、エンティティ「アップル会社」の属性「注釈」の属性値は文字列型であり、その属性値は「アップル会社は、旧アップルコンピュータ会社であり、本社をカリフォルニア州のクパチーノに置く米国の多国籍企業である。……」である。よって、エンティティ「アップル会社」のサブタイプが会社であるか否かを判定する際に、第2取得部25は、第2属性特徴ベクトルの上記追加された要素を1に設定してもよい。
本実施例では、第1実施例又は第6実施例に説明された方式でサブタイプ認識部27を構成してもよく、ここでその説明が省略される。
当業者が分かるように、第1乃至3の実施例の情報処理装置10も本実施例に説明された、認識すべきエンティティの文字列型の属性値に認識すべきタイプの名称が含まれるか否かを検索することで、認識すべきエンティティの文字列型の属性値に該特定サブタイプの名称が含まれるか否かを反映する要素を追加するか否かを決定してもよく、ここでその説明が省略される。
第8実施例の情報処理装置20によれば、特定タイプのエンティティの文字列型の属性値に認識すべきサブタイプが含まれるか否かを検索することで、同一のタイプの各サブタイプが共に大量の重複する属性を有する場合は、第2属性特徴ベクトルに特定サブタイプのエンティティと他のサブタイプのエンティティとをより良く区別させることができる。
以上は、図面を参照しながら本発明の情報処理装置の各実施例を説明しているが、実際には情報処理方法も説明されている。以下は、図3及び図4を参照しながら、該方法を簡単に説明し、その詳細は上述した情報処理装置の説明を参照してもよい。
図3は本発明の1つの実施例の情報処理方法30のフローチャートである。該方法は、ステップS31において開始し、下記のステップを含む。ステップS33において、認識すべきエンティティの第1属性特徴ベクトルを取得する。ここで、第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する。ステップS35において、第1属性特徴ベクトルに基づいて、認識すべきエンティティが特定タイプに属するか否かを判定する。例えば、図1を参照しながら説明された第1実施例の情報処理装置10により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。
1つの可能な実施例では、ステップS33において、セマンティック・データベースの属性のうち少なくとも一部が特定タイプのエンティティを記述する時に使用される頻度及びセマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて、重要度を決定してもよい。例えば、図1を参照しながら説明された第1実施例の情報処理装置10により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。
1つの可能な実施例では、ステップS35において、訓練された第1分類器を用いて、第1属性特徴ベクトルに基づいて、認識すべきエンティティが前記特定タイプに属するか否かを判定する。例えば、図1を参照しながら説明された第1実施例の情報処理装置10により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。
図4は本発明のもう1つの実施例の情報処理方法40のフローチャートである。本実施例の方法は、認識すべきエンティティが特定サブタイプに属するか否かを判定してもよい。該方法はステップS41において開始し、下記のステップを含む。ステップS43において、特定タイプのエンティティの第2属性特徴ベクトルを取得する。ここで、第2属性特徴ベクトルは、少なくとも特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する。ステップS45において、第2属性特徴ベクトルに基づいて、特定タイプのエンティティが特定サブタイプに属するか否かを判定する。例えば、図2を参照しながら説明された第1実施例の情報処理装置20により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。
上記認識すべきエンティティが特定サブタイプに属するか否かを判定する方法は単独で実行されてもよいし、図3に説明された認識すべきエンティティが特定タイプに属するか否かを判定する方法の後で実行されてもよい。
1つの可能な実施例では、ステップS43において、特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が特定サブタイプのエンティティを記述する時に使用される頻度及び特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、重要度を決定してもよい。例えば、図2を参照しながら説明された第1実施例の情報処理装置20により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。
1つの可能な実施例では、ステップS45において、訓練された第2分類器を用いて、第2属性特徴ベクトルに基づいて、特定タイプのエンティティが特定サブタイプに属するか否かを判定する。例えば、図2を参照しながら説明された第1実施例の情報処理装置20により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。
1つの可能な実施例では、ステップS43において、特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが特定サブタイプを含むか否かに基づいて、該属性の第2属性特徴ベクトルにおける対応する重みを調整してもよい。例えば、図2を参照しながら説明された第1実施例の情報処理装置20により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。
1つの可能な実施例では、ステップS43において、取得された第2属性特徴ベクトルに、特定タイプのエンティティの文字列型の属性値に特定サブタイプの名称が含まれるか否かをさらに反映させる。例えば、図2を参照しながら説明された第1実施例の情報処理装置20により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。
本願の装置、方法などの実施例では、各部(ユニット、サブユニット、モジュール、サブモジュールなど)又は各ステップは、分割され、結合され、及び/又は分割された後に再び結合されてもよい。これらの分割及び/又は結合は本願の均等な態様とみなすべきである。また、上記本願の具体的な実施例の説明では、1つの実施例について説明され及び/又は示された特徴は、同一又は類似の形で1つ又は複数の他の実施例に用いられてもよく、他の実施例における特徴と組み合わせてもよく、或いは他の実施例における特徴に代わってもよい。
以上は、具体的な実施例を参照しながら本発明の基本原理を説明しているが、当業者が分かるように、本発明の方法及び装置の全て又はいずれかのステップ又は構成部は、任意の装置(処理器、記憶媒体など)又はコンピュータ装置のネットワークにおいて、ハードウェア、ファームウェア、ソフトウェア又はこれらの組み合わせの形で実現されてもよく、これは当業者が本発明の詳細を読んだ後に基本的なプログラミング技能を用いて実現できるものである。
従って、本発明の目的は、任意のコンピュータ装置で1つのプログラム又は一連のプログラムを実行することで実現されてもよい。コンピュータ装置は公知の汎用装置である。このため、本発明の目的は、方法又は装置を実現プログラムコードを含むプログラムプロダクトを提供することで実現されてもよい。言い換えれば、これらのプログラムプロダクトも本発明を構成し、このようなプログラムプロダクトを記憶する記憶媒体も本発明を構成する。なお、記憶媒体は任意の公知の記憶媒体又は将来に開発される任意の記憶媒体であってもよい。
ソフトウェア及び/又はファームウェアを通じて本発明の実施例を実現する場合は、記憶媒体又はネットワークから専用ハードウェア構成を有するコンピュータ、例えば図5に示す汎用コンピュータ500に該ソフトウェアを構成するプログラムをインストールし、該コンピュータは、各種のプログラムがインストールされている場合は、各種の機能などを実行できる。
図5において、中央処理部(即ちCPU)501は、読み出し専用メモリ(ROM)502に記憶されているプログラム、又は記憶部508からランダムアクセスメモリ(RAM)503にロードされたプログラムにより各種の処理を実行する。RAM503には、必要に応じて、CPU501が各種の処理を実行するに必要なデータが記憶されている。CPU501、ROM502、及びRAM503は、バス504を介して互いに接続されている。入力/出力インターフェース505もバス504に接続されている。
入力部506(キーボード、マウスなどを含む)、出力部507(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部508(例えばハードディスクなどを含む)、通信部509(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース505に接続されている。通信部509は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライブ部510は、入力/出力インターフェース505に接続されてもよい。取り外し可能な媒体511は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部510にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部508にインストールされている。
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体511を介してソフトウェアを構成するプログラムをインストールする。
当業者が分かるように、これらの記憶媒体は、図5に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体511に限定されない。取り外し可能な媒体511は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク−読み出し専用メモリ(CDROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM502、記憶部508に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
本発明は、機器が読み取り可能な命令コードを記憶するプログラムプロダクトをさらに提供する。命令コードは、機器により読み取られ、実行される場合は、上記本発明の実施例の方法を実行できる。
また、上記の機器が読み取り可能な命令コードを記憶するプログラムプロダクトを記憶する記憶媒体も本発明の公開に含まれる。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、及びメモリスティックなどを含むが、これらに限定されない。
なお、用語「包括/含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。なお、本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
情報処理装置であって、
認識すべきエンティティの第1属性特徴ベクトルを取得する第1取得手段であって、前記第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、第1取得手段と、
前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するタイプ認識手段と、を含む、装置。
(付記2)
前記第1取得手段は、前記セマンティック・データベースの属性のうち少なくとも一部が前記特定タイプのエンティティを記述する時に使用される頻度及び前記セマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記1に記載の装置。
(付記3)
各属性について、該属性の前記特定タイプのエンティティを記述する時の使用頻度が高いほど、該属性の前記第1属性特徴ベクトルにおける対応する重みが大きく、該属性のセマンティック・データベースにおける全てのエンティティを記述する時の使用頻度が高いほど、該属性の前記第1属性特徴ベクトルにおける対応する重みが小さい、付記2に記載の装置。
(付記4)
前記タイプ認識手段は、訓練された第1分類器を用いて、前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定し、
第1分類器を訓練する際に、前記特定タイプのマークが付けられているエンティティを正例として用い、前記特定タイプと同一のレベルの他のタイプのエンティティを反例として用いて、前記第1分類器を訓練する、付記1又は2に記載の装置。
(付記5)
前記タイプ認識手段は、反復の方式で第1分類器を訓練し、訓練された第1分類器の分類結果が変わらないまで、現在のラウンドで訓練して得られた第1分類器により取得された、前記特定タイプと判定されたエンティティを既存の正例に追加し、次のラウンドの訓練を行い続け、この場合に取得された第1分類器を、最終的に訓練して得られた第1分類器とする、付記4に記載の装置。
(付記6)
特定タイプのエンティティの第2属性特徴ベクトルを取得する第2取得手段であって、前記第2属性特徴ベクトルは、少なくとも前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、前記特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する、第2取得手段と、
前記第2属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定するサブタイプ認識手段と、をさらに含む、付記1に記載の装置。
(付記7)
前記第2取得手段は、前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が前記特定サブタイプのエンティティを記述する時に使用される頻度及び前記特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記6に記載の装置。
(付記8)
前記第2取得手段は、前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが前記特定サブタイプを含まない場合に、該属性の前記第2属性特徴ベクトルにおける対応する重みを所定割合で減らす、付記6又は7に記載の装置。
(付記9)
前記第2属性特徴ベクトルは、前記特定タイプのエンティティの文字列型の属性値に前記特定サブタイプの名称が含まれるか否かをさらに反映する、付記6又は7に記載の装置。
(付記10)
前記サブタイプ認識手段は、訓練された第2分類器を用いて、前記第2属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定し、
第2分類器を訓練する際に、前記特定サブタイプのマークが付けられているエンティティを正例として用い、前記特定サブタイプと同一のレベルの他のサブタイプのエンティティを反例として用いて、前記第2分類器を訓練する、付記6又は7に記載の装置。
(付記11)
処理器を含む情報処理装置であって、
前記処理器は、
認識すべきエンティティの第1属性特徴ベクトルを取得し、前記第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映し、
前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定する、装置。
(付記12)
情報処理方法であって、
認識すべきエンティティの第1属性特徴ベクトルを取得するステップであって、前記第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、ステップと、
前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するステップと、を含む、方法。
(付記13)
前記セマンティック・データベースの属性のうち少なくとも一部が前記特定タイプのエンティティを記述する時に使用される頻度及び前記セマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記12に記載の方法。
(付記14)
各属性について、該属性の前記特定タイプのエンティティを記述する時の使用頻度が高いほど、該属性の前記第1属性特徴ベクトルにおける対応する重みが大きく、該属性のセマンティック・データベースにおける全てのエンティティを記述する時の使用頻度が高いほど、該属性の前記第1属性特徴ベクトルにおける対応する重みが小さい、付記13に記載の方法。
(付記15)
訓練された第1分類器を用いて、前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定し、
第1分類器を訓練する際に、前記特定タイプのマークが付けられているエンティティを正例として用い、前記特定タイプと同一のレベルの他のタイプのエンティティを反例として用いて、前記第1分類器を訓練する、付記12又は13に記載の方法。
(付記16)
特定タイプのエンティティの第2属性特徴ベクトルを取得するステップであって、前記第2属性特徴ベクトルは、少なくとも前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、前記特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する、ステップと、
前記第2属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定するステップと、をさらに含む、付記12に記載の方法。
(付記17)
前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が前記特定サブタイプのエンティティを記述する時に使用される頻度及び前記特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記16に記載の方法。
(付記18)
前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが前記特定サブタイプを含まない場合に、該属性の前記第2属性特徴ベクトルにおける対応する重みを所定割合で減らす、付記16又は17に記載の方法。
(付記19)
前記第2属性特徴ベクトルは、前記特定タイプのエンティティの文字列型の属性値に前記特定サブタイプの名称が含まれるか否かをさらに反映する、付記16又は17に記載の方法。
(付記20)
訓練された第2分類器を用いて、前記第2属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定し、
第2分類器を訓練する際に、前記特定サブタイプのマークが付けられているエンティティを正例として用い、前記特定サブタイプと同一のレベルの他のサブタイプのエンティティを反例として用いて、前記第2分類器を訓練する、付記16又は17に記載の方法。
(付記1)
情報処理装置であって、
認識すべきエンティティの第1属性特徴ベクトルを取得する第1取得手段であって、前記第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、第1取得手段と、
前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するタイプ認識手段と、を含む、装置。
(付記2)
前記第1取得手段は、前記セマンティック・データベースの属性のうち少なくとも一部が前記特定タイプのエンティティを記述する時に使用される頻度及び前記セマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記1に記載の装置。
(付記3)
各属性について、該属性の前記特定タイプのエンティティを記述する時の使用頻度が高いほど、該属性の前記第1属性特徴ベクトルにおける対応する重みが大きく、該属性のセマンティック・データベースにおける全てのエンティティを記述する時の使用頻度が高いほど、該属性の前記第1属性特徴ベクトルにおける対応する重みが小さい、付記2に記載の装置。
(付記4)
前記タイプ認識手段は、訓練された第1分類器を用いて、前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定し、
第1分類器を訓練する際に、前記特定タイプのマークが付けられているエンティティを正例として用い、前記特定タイプと同一のレベルの他のタイプのエンティティを反例として用いて、前記第1分類器を訓練する、付記1又は2に記載の装置。
(付記5)
前記タイプ認識手段は、反復の方式で第1分類器を訓練し、訓練された第1分類器の分類結果が変わらないまで、現在のラウンドで訓練して得られた第1分類器により取得された、前記特定タイプと判定されたエンティティを既存の正例に追加し、次のラウンドの訓練を行い続け、この場合に取得された第1分類器を、最終的に訓練して得られた第1分類器とする、付記4に記載の装置。
(付記6)
特定タイプのエンティティの第2属性特徴ベクトルを取得する第2取得手段であって、前記第2属性特徴ベクトルは、少なくとも前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、前記特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する、第2取得手段と、
前記第2属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定するサブタイプ認識手段と、をさらに含む、付記1に記載の装置。
(付記7)
前記第2取得手段は、前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が前記特定サブタイプのエンティティを記述する時に使用される頻度及び前記特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記6に記載の装置。
(付記8)
前記第2取得手段は、前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが前記特定サブタイプを含まない場合に、該属性の前記第2属性特徴ベクトルにおける対応する重みを所定割合で減らす、付記6又は7に記載の装置。
(付記9)
前記第2属性特徴ベクトルは、前記特定タイプのエンティティの文字列型の属性値に前記特定サブタイプの名称が含まれるか否かをさらに反映する、付記6又は7に記載の装置。
(付記10)
前記サブタイプ認識手段は、訓練された第2分類器を用いて、前記第2属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定し、
第2分類器を訓練する際に、前記特定サブタイプのマークが付けられているエンティティを正例として用い、前記特定サブタイプと同一のレベルの他のサブタイプのエンティティを反例として用いて、前記第2分類器を訓練する、付記6又は7に記載の装置。
(付記11)
処理器を含む情報処理装置であって、
前記処理器は、
認識すべきエンティティの第1属性特徴ベクトルを取得し、前記第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映し、
前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定する、装置。
(付記12)
情報処理方法であって、
認識すべきエンティティの第1属性特徴ベクトルを取得するステップであって、前記第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、ステップと、
前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するステップと、を含む、方法。
(付記13)
前記セマンティック・データベースの属性のうち少なくとも一部が前記特定タイプのエンティティを記述する時に使用される頻度及び前記セマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記12に記載の方法。
(付記14)
各属性について、該属性の前記特定タイプのエンティティを記述する時の使用頻度が高いほど、該属性の前記第1属性特徴ベクトルにおける対応する重みが大きく、該属性のセマンティック・データベースにおける全てのエンティティを記述する時の使用頻度が高いほど、該属性の前記第1属性特徴ベクトルにおける対応する重みが小さい、付記13に記載の方法。
(付記15)
訓練された第1分類器を用いて、前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定し、
第1分類器を訓練する際に、前記特定タイプのマークが付けられているエンティティを正例として用い、前記特定タイプと同一のレベルの他のタイプのエンティティを反例として用いて、前記第1分類器を訓練する、付記12又は13に記載の方法。
(付記16)
特定タイプのエンティティの第2属性特徴ベクトルを取得するステップであって、前記第2属性特徴ベクトルは、少なくとも前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、前記特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する、ステップと、
前記第2属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定するステップと、をさらに含む、付記12に記載の方法。
(付記17)
前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が前記特定サブタイプのエンティティを記述する時に使用される頻度及び前記特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記16に記載の方法。
(付記18)
前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが前記特定サブタイプを含まない場合に、該属性の前記第2属性特徴ベクトルにおける対応する重みを所定割合で減らす、付記16又は17に記載の方法。
(付記19)
前記第2属性特徴ベクトルは、前記特定タイプのエンティティの文字列型の属性値に前記特定サブタイプの名称が含まれるか否かをさらに反映する、付記16又は17に記載の方法。
(付記20)
訓練された第2分類器を用いて、前記第2属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定し、
第2分類器を訓練する際に、前記特定サブタイプのマークが付けられているエンティティを正例として用い、前記特定サブタイプと同一のレベルの他のサブタイプのエンティティを反例として用いて、前記第2分類器を訓練する、付記16又は17に記載の方法。
以上の実施例は単なる本発明を説明するためのものであり、本発明を限定するものではなく、当業者は、本発明の主旨及び範囲から逸脱することなく、各種の変更及び変形を行ってもよいため、全ての均等的な態様も本発明の範囲に属し、本発明の特許の保護範囲は特許請求の範囲により限定される。
Claims (10)
- 情報処理装置であって、
認識すべきエンティティの第1属性特徴ベクトルを取得する第1取得手段であって、前記第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、第1取得手段と、
前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するタイプ認識手段と、を含む、装置。 - 前記第1取得手段は、前記セマンティック・データベースの属性のうち少なくとも一部が前記特定タイプのエンティティを記述する時に使用される頻度及び前記セマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、請求項1に記載の装置。
- 各属性について、該属性の前記特定タイプのエンティティを記述する時の使用頻度が高いほど、該属性の前記第1属性特徴ベクトルにおける対応する重みが大きく、該属性のセマンティック・データベースにおける全てのエンティティを記述する時の使用頻度が高いほど、該属性の前記第1属性特徴ベクトルにおける対応する重みが小さい、請求項2に記載の装置。
- 前記タイプ認識手段は、訓練された第1分類器を用いて、前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定し、
第1分類器を訓練する際に、前記特定タイプのマークが付けられているエンティティを正例として用い、前記特定タイプと同一のレベルの他のタイプのエンティティを反例として用いて、前記第1分類器を訓練する、請求項1又は2に記載の装置。 - 特定タイプのエンティティの第2属性特徴ベクトルを取得する第2取得手段であって、前記第2属性特徴ベクトルは、少なくとも前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、前記特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する、第2取得手段と、
前記第2属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定するサブタイプ認識手段と、をさらに含む、請求項1に記載の装置。 - 前記第2取得手段は、前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が前記特定サブタイプのエンティティを記述する時に使用される頻度及び前記特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、請求項5に記載の装置。
- 前記第2取得手段は、前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが前記特定サブタイプを含まない場合に、該属性の前記第2属性特徴ベクトルにおける対応する重みを所定割合で減らす、請求項5又は6に記載の装置。
- 前記第2属性特徴ベクトルは、前記特定タイプのエンティティの文字列型の属性値に前記特定サブタイプの名称が含まれるか否かをさらに反映する、請求項5又は6に記載の装置。
- 前記サブタイプ認識手段は、訓練された第2分類器を用いて、前記第2属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定し、
第2分類器を訓練する際に、前記特定サブタイプのマークが付けられているエンティティを正例として用い、前記特定サブタイプと同一のレベルの他のサブタイプのエンティティを反例として用いて、前記第2分類器を訓練する、請求項5又は6に記載の装置。 - 情報処理方法であって、
認識すべきエンティティの第1属性特徴ベクトルを取得するステップであって、前記第1属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、ステップと、
前記第1属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するステップと、を含む、方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510641498.4 | 2015-09-30 | ||
CN201510641498.4A CN106557528A (zh) | 2015-09-30 | 2015-09-30 | 信息处理装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017068843A true JP2017068843A (ja) | 2017-04-06 |
Family
ID=58417464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016187317A Pending JP2017068843A (ja) | 2015-09-30 | 2016-09-26 | 情報処理装置及び情報処理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2017068843A (ja) |
CN (1) | CN106557528A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726398B (zh) * | 2018-12-27 | 2023-07-07 | 奇安信科技集团股份有限公司 | 一种实体识别及属性判断方法、系统、设备及介质 |
CN112632106B (zh) * | 2020-12-29 | 2023-05-23 | 重庆农村商业银行股份有限公司 | 一种知识图谱查询方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446943A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种中文处理中基于语义角色信息的指代消解方法 |
CN102436456B (zh) * | 2010-09-29 | 2016-03-30 | 国际商业机器公司 | 用于对命名实体进行分类的方法和装置 |
-
2015
- 2015-09-30 CN CN201510641498.4A patent/CN106557528A/zh active Pending
-
2016
- 2016-09-26 JP JP2016187317A patent/JP2017068843A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CN106557528A (zh) | 2017-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11847113B2 (en) | Method and system for supporting inductive reasoning queries over multi-modal data from relational databases | |
US11210300B2 (en) | System and methods of generating structured data from unstructured data | |
Hunter et al. | Semiparametric mixtures of regressions | |
US20200089769A1 (en) | Consumer Insights Analysis Using Word Embeddings | |
US11875277B2 (en) | Learning and applying contextual similiarities between entities | |
US9280525B2 (en) | Method and apparatus for forming a structured document from unstructured information | |
US20170103164A1 (en) | System and method for dynamic autonomous transactional identity management | |
US10558759B1 (en) | Consumer insights analysis using word embeddings | |
US9378432B2 (en) | Hierarchy similarity measure | |
US10509863B1 (en) | Consumer insights analysis using word embeddings | |
US9058176B2 (en) | Domain-specific generation of programming interfaces for business objects | |
JP7106743B2 (ja) | グラフ計算技術に基づく請求不正防止方法、装置、機器及び記憶媒体 | |
Goldhaber-Fiebert et al. | Some health states are better than others: using health state rank order to improve probabilistic analyses | |
Sun et al. | Feature-frequency–adaptive on-line training for fast and accurate natural language processing | |
US20190179949A1 (en) | Refining classification results based on glossary relationships | |
Katsevich et al. | Filtering the rejection set while preserving false discovery rate control | |
JP2020098592A (ja) | ウェブページ内容を抽出する方法、装置及び記憶媒体 | |
JP2017068843A (ja) | 情報処理装置及び情報処理方法 | |
US10685184B1 (en) | Consumer insights analysis using entity and attribute word embeddings | |
US20190065987A1 (en) | Capturing knowledge coverage of machine learning models | |
Lai | Correcting fixed effect standard errors when a crossed random effect was ignored for balanced and unbalanced designs | |
Yang et al. | LAZY R-tree: The R-tree with lazy splitting algorithm | |
WO2023087667A1 (zh) | 用于智能推荐的排序模型训练方法、智能推荐方法及装置 | |
Mallick et al. | Impact of Exchange Rate on Trade Balance of India: Evidence from Threshold Cointegration with Asymmetric Error Correction Approach | |
US11676733B2 (en) | Learning and applying contextual similarities between entities |