JP2017068843A

JP2017068843A - 情報処理装置及び情報処理方法

Info

Publication number: JP2017068843A
Application number: JP2016187317A
Authority: JP
Inventors: ファン・ルゥ; Lu Fang; ミアオ・チンリアン; Qingliang Miao; 瑞玉方; Rui Yu Fang; 遥孟; Yao Meng
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-09-30
Filing date: 2016-09-26
Publication date: 2017-04-06
Also published as: CN106557528A

Abstract

【課題】本発明は情報処理装置及び方法を提供する。【解決手段】情報処理装置は、認識すべきエンティティの第１属性特徴ベクトルを取得する第１取得部であって、該第１属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、第１取得部と、該第１属性特徴ベクトルに基づいて、該認識すべきエンティティが該特定タイプに属するか否かを判定するタイプ認識部とを含む。本発明の実施例の方法及び装置によれば、認識すべきエンティティが特定タイプ／サブタイプに属するか否かを自動的、且つ正確に判定できるため、情報処理プロセスにおいて演算量を大幅に低減でき、検索結果の正確性を向上できる。【選択図】図１

Description

本発明は、情報処理装置及び方法に関し、具体的には、セマンティック・データベース（ｓｅｍａｎｔｉｃｄａｔａｂａｓｅ）においてエンティティのタイプ及びサブタイプを自動的に認識する装置及び方法に関する。

コンピュータ及びインターネット技術の進歩及び発展に伴い、より多くのオープンソースのデータベースがインターネットで公開され、その中にセマンティック・データベースが含まれ、セマンティック・データベースの使用は研究者に大きな利便性を提供している。

セマンティック・データベースでは、一般的に、エンティティについて、例えば人名、地名、機関名、時間、通貨などのタイプを注釈する。情報処理プロセスでは、エンティティのタイプが分かると、演算量を大幅に低減でき、検索結果の正確性を向上できる。例えば、「ハリー・ポッター」は、最初は小説であり、そして同名の映画が出て、その後ゲームも発売されている（これらは異なるエンティティタイプに属する）。このため、検索プロセスでは、「ハリー・ポッター」という検索エンティティのタイプが分からないと、検索結果には小説、映画及びゲームに関連する内容が共に含まれてしまう。一方、「ハリー・ポッター」という検索エンティティのタイプがゲームであると分かっている場合は、検索結果にゲームに関連する内容のみが出現する場合がある。

しかし、人的資源や物的資源などの要素の制限により、セマンティック・データベースには、タイプのマークが付けられていないエンティティが依然として大量ある。よって、研究者がセマンティック・データベースを用いる場合は高い正確率をなかなか得られない。

本発明は、従来技術の上記問題点を鑑みてなるものであり、従来技術の問題点を解決する情報処理装置及び情報処理方法を提供することを目的の１つとする。

本発明の１つの態様では、情報処理装置であって、認識すべきエンティティの第１属性特徴ベクトルを取得する第１取得手段であって、前記第１属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、第１取得手段と、前記第１属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するタイプ認識手段と、を含む、装置を提供する。

本発明のもう１つの態様では、情報処理方法であって、認識すべきエンティティの第１属性特徴ベクトルを取得するステップであって、前記第１属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、ステップと、前記第１属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するステップと、を含む、方法を提供する。

本発明の他の態様では、上記方法を実現するためのコンピュータプログラムコードが記録されている、コンピュータが読み取り可能な媒体の形のコンピュータプログラムプロダクトをさらに提供する。

本発明の実施例の方法及び装置によれば、認識すべきエンティティが特定タイプ／サブタイプに属するか否かを自動的、且つ正確に判定できるため、情報処理プロセスにおいて演算量を大幅に低減でき、検索結果の正確性を向上できる。

本発明の上記及び他の利点をより明確にするように、以下は図面を参照しながら本発明の好適な実施例を詳細に説明する。

本発明は、下記図面を参照しながら提供される説明を参考して、より良く理解され、全ての図面では同一又は類似の符号を用いて同一又は類似の部材を表す。
本発明の第１実施例の情報処理装置１０の構成を示すブロック図である。本発明の第４実施例の情報処理装置２０の構成を示すブロック図である。本発明の１つの実施例の情報処理方法３０のフローチャートである。本発明のもう１つの実施例の情報処理方法４０のフローチャートである。本発明の実施例の方法及び／又は装置を実現可能な汎用のパーソナルコンピュータの例示的な構成を示すブロック図である。

以下、図面を参照しながら本発明の例示的な実施例を説明する。本発明の１つの図面又は１つの実施例に説明される要素及び特徴を１つ又は複数の他の図面又は実施例に示す要素及び特徴と組み合わせてもよい。なお、明確にするために、図面及び説明では本発明と関係のない、当業者にとって既知の構成要件及び処理の表示及び説明が省略されている。

当業者が理解できるように、本発明の「第１」、「第２」等の用語は単なる異なる構成部、モジュール又はステップ等を区別するためのものであり、何れかの特定の技術的意味を表すものではなく、それらの間の必然的な論理順序を表すものでもなく、限定される異なるユニット、モジュール又はステップの重要度を表すものでもない。

本発明では、説明の便宜上、単なる一例として、セマンティック・データベースはＲＤＦ（ＲｅｓｏｕｒｃｅＤｅｓｃｒｉｐｔｉｏｎＦｒａｍｅｗｏｒｋ：リソース・ディスクリプション・フレームワーク）を用いて表されてもよく、ＲＤＦはＷｅｂ識別子（ＵＲＩ）を用いてデータ・エンティティ（以下は、エンティティと略称される）をマーキングし、簡単な属性（ｐｒｏｐｅｒｔｙ）及び属性値を用いてエンティティを記述する。当業者が理解できるように、本発明に提供するセマンティック・データベースは上記のタイプに限定されない。

ＲＤＦを用いてセマンティック・データベースを表す場合は、エンティティは、ＵＲＩを有する任意のものであってもよく、例えば「http://dbpedia.org/Resource/Apple_Inc.」、即ちアップルという会社であってもよい。下記のＲＤＦ文書は、例えばエンティティ「http://dbpedia.org/Resource/Apple_Inc.」を記述するために用いられてもよい。
<?xml
version="1.0"?>
<RDF>
<Description
about="http://dbpedia.org/resource/Apple_Inc.">
<name>Apple
Inc.</name>
<homepage>http://apple.com</homepage>

</Description>

</RDF>
上記の文書では、例えば「name」又は「homepage」はエンティティの属性であり、「Apple Inc.」又は「http://apple.com」はそれぞれ上記属性に対応する属性値である。

セマンティック・データベースにおけるエンティティは、各エンティティが各種の異なる属性を有してもよい。異なるエンティティは、タイプが同じエンティティが一般的に複数の同じ属性を有し、タイプが異なるエンティティの属性が一般的に異なる。

例えば、上述したエンティティであるアップル会社は、そのタイプが機関であり、その属性が例えば名称、ホームページ、創業者、資産及び従業員数などを含んでもよい。タイプが同じ機関のエンティティであるサムスン社の場合は、同様に名称、ホームページ、創業者、資産及び従業員数などの属性を有する。エンティティであるアップルは、そのタイプが植物であり、その属性が例えば糖分、産地、食感、水分などを含んでもよい。

本発明の発明者の発見によると、特定タイプのエンティティを記述する属性の重要度を用いて認識すべきエンティティの属性特徴ベクトルを構築し、エンティティが該特定タイプに属するか否かを認識してもよい。

図１は本発明の第１実施例の情報処理装置１０の構成を示すブロック図である。以下は、エンティティのタイプが特定タイプであるか否かを判断すること、例えば機関を一例にして、図１を参照しながら第１実施例の情報処理装置１０を詳細に説明する。

図１に示すように、情報処理装置１０は、第１取得部１１及びタイプ認識部１３を含む。第１取得部１１は、認識すべきエンティティの第１属性特徴ベクトルを取得する。ここで、第１属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する。タイプ認識部１３は、第１属性特徴ベクトルに基づいて、認識すべきエンティティが特定タイプに属するか否かを判定する。

本実施例では、第１取得部１１は、例えばセマンティック・データベースにおける属性の特定タイプのエンティティを記述する時の使用頻度に基づいて、第１属性特徴ベクトルを取得してもよい。言い換えれば、該特定タイプのエンティティが該属性を有する場合は、該属性を用いて該エンティティを記述すると見なされる。具体的には、属性の特定タイプのエンティティを記述する時の使用頻度が高く、他のタイプのエンティティを記述する時の使用頻度が低い場合は、該属性は該特定タイプのエンティティと他のタイプのエンティティとをよりよく区別でき、即ち該属性の重要度が高い。

セマンティック・データベースに合計Ｎ個の属性があり（Ｎは自然数である）、機関というタイプのマークが付けられているエンティティの数がＭ個である（Ｍは自然数である）と仮定する。各属性について、第１取得部１１は、機関という該属性のタイプを有するエンティティの数（該数がｍ（ｍは整数である）であると仮定する）と、機関というタイプのマークが付けられているエンティティの数との比、即ちｍ／Ｍを取得してもよい。該比は、該属性の機関というタイプのエンティティを記述する時の使用頻度であり、即ち該属性の機関というタイプのエンティティを記述する時の重要度を表す。

各認識すべきエンティティについて、第１取得部１１は、該エンティティの有する属性に基づいて、該エンティティに対応する１つのＮ＊１次元の第１属性特徴ベクトルを取得してもよい。該ベクトルにおける各要素は、１つの属性の機関というタイプのエンティティを記述する時の重要度に対応する。認識すべきエンティティが属性を有しない場合は、該属性の、該エンティティに対応する第１属性特徴ベクトルにおける対応する要素は０となる。

具体的には、セマンティック・データベースにおける全ての属性の数が５００であると仮定し、この５００個の属性の重要度をそれぞれ計算する。例えば、属性ａについて、機関というタイプのマークが付けられているエンティティの数が１００個であり、属性ａを用いる、タイプが機関の数が８０個である場合は、属性ａの重要度は８０／１００＝０．８となる。タイプを認識すべきエンティティについて、該エンティティが４つの属性を有し、上記のデータベースにおける各属性の重要度の計算結果により、この４つの属性の重要度が０．８、０．１、０．９及び０．５である場合は、該エンティティの第１属性特徴ベクトルは（０．８，０，…０，０．１，０，…０，０．９，０，…０，０．５，０，…０）となる。ここで、有していない属性の重要度を０に設定する。

１つの可能な例では、セマンティック・データベースにおける全ての属性（Ｎ個）のうち一部のみを用いて第１属性特徴ベクトルを構築してもよい。

以下は、例を参照しながら第１属性特徴ベクトルの生成を説明する。セマンティック・データベースに１０個の属性があり、即ち資産、ホームページ、従業員数、糖分、水分、色、身長、体重、年齢、性別であると仮定する。また、セマンティック・データベースに３つのエンティティ、即ちアップル（会社）、赤十字社及びアップルがあり、そのうち、アップル（会社）というエンティティ及び赤十字社というエンティティのタイプは機関であり、アップルというエンティティのタイプは植物である。アップル（会社）というエンティティが３つの属性、即ち資産、ホームページ、従業員数を有し、赤十字社というエンティティが２つの属性、即ちホームページ、従業員数を有し、アップルというエンティティが３つの属性、即ち糖分、成分、色を有すると仮定する。

認識すべきエンティティがマイクロソフトであり、それも３つの属性、即ち資産、ホームページ、従業員数を有すると仮定する。認識すべきエンティティ「マイクロソフト」の第１属性特徴ベクトルを生成する時に、セマンティック・データベースの全ての属性を選択すると、マイクロソフトというエンティティに対応する第１属性特徴ベクトルは｛０．５，１，１，０，０，０，０，０，０，０｝となる。ここで、例えば属性「資産」について、セマンティック・データベースにおいて機関というタイプのマークの付けられているエンティティの数は２個であり、属性「資産」を用い、タイプが機関のエンティティの数は１個であり、属性「資産」の重要度は１／２＝０．５である。属性「ホームページ」について、セマンティック・データベースにおいて機関というタイプのマークの付けられているエンティティの数は２個であり、属性「ホームページ」を用い、タイプが機関のエンティティの数は２個であり、属性「ホームページ」の重要度は２／２＝１である。

上述したように、認識すべきエンティティのタイプが機関であるか否かを判定する際に、セマンティック・データベースにおける全ての属性のうち一部のみ、例えば資産、ホームページ、従業員数、糖分、水分、色を選択してもよい。この場合は、マイクロソフトというエンティティに対応する第１属性特徴ベクトルは｛０．５，１，１，０，０，０｝である。

タイプ認識部１３は、取得された第１属性特徴ベクトルに基づいて、認識すべきエンティティが特定タイプに属するか否かを判定してもよく、本例において特定タイプは機関である。

例えば、上述したように、エンティティ「アップル会社」とエンティティ「アップル」とは属性が基本的に異なり、それらの属性に対応する第１属性特徴ベクトルも異なる。エンティティ「アップル会社」について、「名称」、「ホームページ」、「創業者」及び「従業員数」等の属性の第１属性特徴ベクトルにおける対応する要素の値は高く、即ち、ほとんどの機関というタイプのエンティティはこれらの属性を有し、「糖分」、「食感」及び「水分」等の属性の第１属性特徴ベクトルにおける対応する要素の値は略ゼロであり、即ち、これらの属性は通常機関というタイプのエンティティを記述するためのものではない。一方、エンティティ「アップル」について、「糖分」、「食感」及び「水分」等の属性の第１属性特徴ベクトルにおける対応する要素の値は高く、即ち、ほとんどの植物というタイプのエンティティはこれらの属性を有し、「名称」、「ホームページ」、「創業者」及び「従業員数」等の属性の第１属性特徴ベクトルにおける対応する要素の値は略ゼロであり、即ち、これらの属性は通常植物というタイプのエンティティを記述するためのものではない。

このように、タイプ認識部１３は、異なるエンティティの属性特徴ベクトルの差異に基づいてエンティティを区別できる。１つの可能な例では、タイプ認識部１３は、第１属性特徴ベクトルにおける要素の値が所定範囲内にあるか否かを判定することで、認識すべきエンティティが特定タイプに属するか否かを判定してもよい。上記値の所定範囲は、例えば経験値に基づいて決定されてもよい。例えば、上記の例では、「機関」というエンティティのタイプについて、「名称」、「ホームページ」、「創業者」及び「従業員数」等の属性の第１属性特徴ベクトルにおける対応する要素の値は高く、即ち、ほとんどの機関というタイプのエンティティはこれらの属性を有する。よって、認識すべきタイプが「機関」のエンティティについて、第１属性特徴ベクトルにおけるこれらの属性に対応する要素の値が高い、例えば０．８よりも大きい場合は、該認識すべきエンティティのタイプが「機関」であると判定する。

もう１つの可能な例では、タイプ認識部１３は、特定タイプのエンティティ訓練の分類器により、認識すべきエンティティが該特定タイプに属するか否かを判定してもよい。訓練された分類器を用いて認識すべきエンティティが特定タイプに属するか否かを判断する具体的な方法は下記の実施例で詳細に説明する。

上記の例では認識すべきタイプのエンティティが具体的な特定タイプに属するか否かを判定する方法を説明した。他の可能な例では、第１属性特徴ベクトルにおける要素の値に基づいて、認識すべきエンティティがどの特定タイプに属するかを認識してもよい。例えば、認識すべきタイプのエンティティについて、上記の例で説明された方法により、まず該エンティティのタイプが機関であるか否かを認識し、機関でない場合は、該エンティティがデータベースにおける特定タイプに属すると認識されるまで、同様な方法で該認識すべきものがデータベースにおける他の特定タイプであるかを走査して認識してもよい。或いは、各異なる特定タイプについて、各属性の重要度について特定タイプに関連する所定の値範囲を設定し、認識すべきエンティティの第１属性特徴ベクトルにおける対応要素の値が該所定の値範囲に入った場合は、該認識すべきエンティティが対応する特定タイプに属すると判定してもよい。また、１つの可能な例では、認識すべきエンティティのタイプがデータベースにおける特定タイプのいずれにも属しない場合は、該認識すべきエンティティをデータベースに追加し、それについて新たなタイプを設定し、データベースを更新してもよい。

なお、異なるタイプについて複数の分類器を訓練することで、これらの分類器により認識すべきエンティティの属する特定タイプをそれぞれ判断してもよい。

第１実施例の情報処理装置１０によれば、セマンティック・データベースの属性の特定タイプのエンティティを記述する時の重要度に基づいて、認識すべきエンティティが特定タイプ／サブタイプに属するか否かを自動的、且つ正確に判定できるため、情報処理プロセスにおいて演算量を大幅に低減でき、検索結果の正確性を向上できる。

セマンティック・データベースでは、共通の属性が存在する可能性がある。即ち、このような属性は、各種のタイプのエンティティを記述する時に用いられる。このような共通属性は、特定タイプのエンティティについての認識度が高くないため、最適化の設定として、共通属性の第１属性特徴ベクトルにおける重みを小さくしてもよい。

本発明の第２実施例では、第１取得部１１は、セマンティック・データベースの属性のうち少なくとも一部が特定タイプのエンティティを記述する時に使用される頻度及びセマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて決定された重みを用いて、該重要度を決定してもよい。

第１取得部１１は、下記の式（１）に基づいて、認識すべきエンティティの有する属性ａの第１属性特徴ベクトルにおける重みを取得してもよい。

ここで、ｗｅｉｇｈｔ_ａは、属性ａの特定タイプのエンティティを記述する時に使用される頻度及びセマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて取得された属性ａの第１属性特徴ベクトルにおける重みを表し、｜Ｏ_ａ｜は、特定タイプのマークが付けられているエンティティのうち属性ａを使用するエンティティの数を表し、｜Ｏ_ａｌｌ｜は、該特定タイプのマークが付けられている全てのエンティティの数を表し、｜Ｉ_ａｌｌ｜は、セマンティック・データベースにおける全てのエンティティの数を表し、｜Ｉ_ａ｜は、全てのエンティティのうち属性ａを使用するエンティティの数を表す。

この場合は、属性ａについては、特定タイプのエンティティのうち属性ａを用いて記述されるエンティティの数が多くても、即ち
（外１）

が大きくても、属性ａの特定タイプのエンティティを記述する時の重要度が高いことを表すことではない。これは、他のタイプのエンティティのうち属性ａを用いて記述されるエンティティの数も多いと、属性ａが共通属性であることを意味するからである。この場合は、
（外２）

を用いて属性ａの重みを小さくしてもよい。一方、属性ａが特定タイプのエンティティの固有のものであり、属性ａを使用する他のタイプのエンティティが少ない場合は、該属性は共通属性ではなく、この場合は、
（外３）

の重みを小さくする効果が制限され、結局属性ａの重みが大きい。

従って、各属性について、該属性の特定タイプのエンティティを記述する時の使用頻度が高いほど、該属性の第１属性特徴ベクトルにおける対応する重みが大きく、該属性のセマンティック・データベースにおける全てのエンティティを記述する時の使用頻度が高いほど、該属性の第１属性特徴ベクトルにおける対応する重みが小さい。

本実施例では、第１実施例に記載された方法でタイプ認識部１３を構成してもよく、ここでその説明が省略される。

第２実施例の情報処理装置１０によれば、共通属性の第１属性特徴ベクトルにおける重みを小さくすることで、第１属性特徴ベクトルに特定タイプのエンティティの有する属性をよりよく反映させることができる。

本発明の第３実施例では、タイプ認識部１３は、訓練された第１分類器を用いて、第１属性特徴ベクトルに基づいて、認識すべきエンティティが特定タイプに属するか否かを判定してもよい。

本実施例では、第１実施例又は第２実施例に記載された方法で第１取得部１１を構成してもよく、ここでその説明が省略される。

第１分類器を訓練する際に、特定タイプのマークが付けられているエンティティを正例として用い、該特定タイプと同一のレベルの他のタイプのエンティティを反例として用いてもよい。

例えば、上述したアップル（会社）、赤十字社及びアップルというエンティティを含むセマンティック・データベースでは、アップル（会社）、赤十字社を正例として用い、アップルを反例として用いて、「機関」という特定タイプについての分類器を訓練してもよい。正例エンティティであるアップル（会社）、赤十字社について、第１属性特徴ベクトルを生成する際にセマンティック・データベースの全ての属性を選択する場合は、第１属性特徴ベクトルはそれぞれ｛０．５，１，１，０，０，０，０，０，０，０｝及び｛０，１，１，０，０，０，０，０，０，０｝であり、反例エンティティであるアップルについて、その第１属性特徴ベクトルは｛０，０，０，１，１，１，０，０，０，０｝である。そして、正例及び反例の第１属性特徴ベクトルの特徴に基づいて分類器を訓練する。

１つの可能な例では、該特定タイプと同一のレベルの他のタイプのエンティティから、正例と同じ数の反例を選択してもよい。

１つの可能な例では、反復の方式で第１分類器を訓練してもよい。即ち、訓練された第１分類器の分類結果が変わらないまで、現在のラウンドで訓練して得られた第１分類器により取得された、特定タイプと判定されたエンティティを既存の正例に追加して次のラウンドの訓練を行い続け、この場合に取得された第１分類器を、最終的な第１分類器とする。

１つの可能な例では、第１分類器は、サポートベクタマシン（ＳＶＭ）分類器を採用してもよい。

第３実施例の情報処理装置１０によれば、特定タイプのエンティティについて訓練された分類器を用いることで、タイプ認識部１３は第１属性特徴ベクトルを用いて、認識すべきエンティティが特定タイプに属するか否かをより正確に判定できる。

セマンティック・データベースでは、エンティティタイプの概念及び概念の属性は通常本体を用いて定義される。一方、本体は、概念の間の関係、例えばサブタイプの関係についても比較的に正確に定義している。このため、セマンティック・データベースの本体の定義によりタイプのサブタイプを取得できる。同様に、セマンティック・データベースでは、一部のエンティティのサブタイプについてマークが付けられているが、殆どはサブタイプのマークが付けられていない。

図２は本発明の第４実施例の情報処理装置２０の構成を示すブロック図である。以下は、機関というタイプのエンティティのサブタイプが会社であるか否かを判定することを例にして、図２を参照しながら第４実施例の情報処理装置２０を詳細に説明する。

図２に示すように、情報処理装置２０は第２取得部２５及びサブタイプ認識部２７を含む。第２取得部２５は、特定タイプのエンティティの第２属性特徴ベクトルを取得する。ここで、第２属性特徴ベクトルは、少なくとも該特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する。サブタイプ認識部２７は、第２属性特徴ベクトルに基づいて、該特定タイプのエンティティが特定サブタイプに属するか否かを判定する。

特定サブタイプのエンティティの認識の前提は、このエンティティが対応する親タイプでなければならないことである。即ち、エンティティのサブタイプが会社である場合は、その前提は該エンティティのタイプが機関でなければならないことである。このため、セマンティック・データベースにおける機関のマークが付けられているエンティティを選択し、これらのエンティティから会社というサブタイプのエンティティを認識してもよい。この場合は、本実施例の情報処理装置２０は独立して用いられてもよい。１つの可能な例では、選択されたエンティティは上述した第１タイプ認識部１３により認識された機関というタイプのエンティティを含んでもよく、この場合は、本実施例の情報処理装置２０は、図２における破線の枠に示すように、上述した第１取得部１１及びタイプ認識部１３をさらに含んでもよい。

本実施例では、第２取得部２５は、例えば特定タイプの全てのエンティティの全ての属性が特定サブタイプのエンティティを記述する時に使用される頻度に基づいて、第２属性特徴ベクトルを取得してもよい。具体的には、属性が特定サブタイプのエンティティを記述する時の使用頻度が高いほど、該属性が該特定サブタイプのエンティティと他のサブタイプのエンティティとをより良く区別でき、該属性の重要度が高い。

例えば、機関というタイプの全てのエンティティはＮ’個の属性を有し（Ｎ’は自然数である）、会社というサブタイプのマークが付けられているエンティティの数はＭ’個である（Ｍ’は自然数である）。属性ｂについて、第２取得部２５は、会社という該属性のサブタイプを有するエンティティの数（該数がｍ’（ｍは整数である）であると仮定する）と、会社というサブタイプのマークが付けられているエンティティの数との比、即ちｍ’／Ｍ’を取得してもよい。該比は、該属性の会社というサブタイプのエンティティを記述する時の使用頻度であり、即ち該属性の会社というサブタイプのエンティティを記述する時の重要度を表す。

各認識すべきエンティティについて、第２取得部２５は、該エンティティの有する属性に基づいて、該エンティティに対応する１つのＮ＊１次元の第２属性特徴ベクトルを取得してもよい。該ベクトルにおける各要素は、Ｎ’個の属性のうち１つの会社というサブタイプのエンティティを記述する時の重要度に対応する。認識すべきエンティティが属性を有しない場合は、該属性の、該エンティティに対応する第２属性特徴ベクトルにおける対応する要素は０となる。

１つの可能な例では、特定タイプの全てのエンティティの有する全ての属性（Ｎ’個）のうち一部のみを用いて第２属性特徴ベクトルを構築してもよい。

サブタイプ認識部２７は、第２属性特徴ベクトルに基づいて、該特定タイプのエンティティが特定サブタイプに属するか否かを判定してもよい。

例えば、第１実施例に記載されたタイプ認識部１３と類似の方式でサブタイプ認識部２７を構成してもよいが、ここでその説明が省略される。

第４実施例の情報処理装置２０によれば、既知タイプのエンティティのサブタイプをさらに取得でき、計算量をさらに低減でき、検索結果の正確性をさらに向上できる。

本発明の第５実施例では、第２取得部２５は、特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が特定サブタイプのエンティティを記述する時に使用される頻度、及び特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、該重要度を決定してもよい。

第２取得部２５は、下記の式（２）に基づいて、認識すべきエンティティの有する属性ｂの第２属性特徴ベクトルにおける重みを取得してもよい。

ここで、ｗｅｉｇｈｔ_ｂは、属性ｂの特定サブタイプのエンティティを記述する時に使用される頻度及び特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて取得された属性ｂの重みを表し、｜Ｃ_ｂ｜は、特定サブタイプのマークが付けられているエンティティのうち属性ｂを使用するエンティティの数を表し、｜Ｃ_ａｌｌ｜は、特定タイプのマークが付けられている全てのエンティティの数を表し、｜Ｏ_ａｌｌ｜は、該特定サブタイプの親タイプの全てのエンティティの数を表し、｜Ｏ_ｂ｜は、全ての親タイプのエンティティのうち属性ｂを使用するエンティティの数を表す。

従って、各属性について、該属性の特定サブタイプのエンティティを記述する時の使用頻度が高いほど、該属性の第２属性特徴ベクトルにおける対応する重みが大きく、該属性の特定サブタイプの親タイプの全てのエンティティを記述する時の使用頻度が高いほど、該属性の第２属性特徴ベクトルにおける対応する重みが小さい。

第５実施例の情報処理装置１０によれば、共通属性の第２属性特徴ベクトルにおける重みを小さくすることで、第２属性特徴ベクトルに特定サブタイプのエンティティの有する属性をよりよく反映させることができる。

本発明の第６実施例では、サブタイプ認識部２７は、訓練された第２分類器を用いて、第２属性特徴ベクトルに基づいて、特定タイプのエンティティが特定サブタイプに属するか否かを判定してもよい。

本実施例では、第４実施例又は第５実施例に記載された方法で第２取得部２５を構成してもよく、ここでその説明が省略される。

第２分類器を訓練する際に、特定サブタイプのマークが付けられているエンティティを正例として用い、該特定サブタイプと同一のレベルの他のサブタイプのエンティティを反例として用いてもよい。

１つの可能な例では、該特定サブタイプと同一のレベルの他のサブタイプのエンティティから、正例と同じ数の反例を選択してもよい。

１つの可能な例では、反復の方式で第２分類器を訓練してもよい。訓練の方式は、第１分類器について行われる反復訓練と類似し、ここでその説明が省略される。

１つの可能な例では、第２分類器は、サポートベクタマシン（ＳＶＭ）分類器を採用してもよい。

第６実施例の情報処理装置２０によれば、特定サブタイプのエンティティについて訓練された分類器を用いることで、第２属性特徴ベクトルを用いて、特定タイプのエンティティが特定サブタイプに属するか否かをより正確に判定できる。

本発明の第７実施例では、第２取得部２５は、特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが該特定サブタイプを含まない場合に、該属性の第２属性特徴ベクトルにおける対応する重みを所定割合で減らしてもよい。

属性の本体の定義に従って、属性を定義する場合は、該属性の定義フィールドを同時に定義してもよい。定義フィールドには、該属性に適用するタイプ又はサブタイプが定義される。１つの属性は、複数の定義フィールドを同時に有してもよい。例えば、エンティティ「アップル会社」について、属性「資産」の定義フィールドは会社を含み、属性「創業者」の定義フィールドは会社を含まない。

第２取得部２５は、下記の式（３）に基づいて、属性ｂの第２属性特徴ベクトルにおける重みを調整する。

ここで、ｎｅｗ＿ｗｅｉｇｈｔ_ｂは調整後の属性ｂの重みを表し、ｗｅｉｇｈｔ_ｂは、属性ｂの特定サブタイプのエンティティを記述する時に使用される頻度及び特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて取得された属性ｂの重みを表し、ｓは所定比率を表す。

このように、第２取得部２５が上記の式（２）に従って属性ｂの重みを取得した後に、属性ｂの定義フィールドに該特定サブタイプが含まれている場合、例えばエンティティ「アップル会社」の属性「資産」が会社というサブタイプを含む場合は、第２取得部２５は、該属性の重みをそのまま維持し、属性ｂの定義フィールドに該特定のサブタイプが含まれていない場合、例えばエンティティ「アップル会社」の属性「創業者」が会社というサブタイプを含まない場合は、第２取得部２５は、該属性の重みを所定割合で減らす。

１つの可能な例では、上記所定の割合は０．８であってもよい。

当業者が分かるように、第１乃至３の実施例の情報処理装置１０も本実施例に説明した属性の定義フィールドに基づいて第１属性特徴ベクトルにおける重みを調整してもよく、ここでその説明が省略される。

本発明の第７実施例の情報処理装置２０によれば、属性の定義フィールドに基づいて該属性の第２属性特徴ベクトルにおける重みを調整することで、第２属性特徴ベクトルに特定サブタイプのエンティティの有する属性をよりよく反映させることができる。

本発明の第８実施例では、第２取得部２５により取得された第２属性特徴ベクトルは、特定タイプのエンティティの文字列型の属性値に該特定サブタイプの名称が含まれるか否かをさらに反映する。

本実施例では、第２属性特徴ベクトルは、他の実施例に説明された方式で取得された第２属性特徴ベクトルに比べて、１つの次元を追加し、追加された要素では、認識すべきエンティティの文字列型の属性値に該特定サブタイプの名称が含まれるか否かを反映する。

例えば、第４実施例又は第５実施例に説明された方式により認識すべきエンティティの第２属性特徴ベクトルを取得した後に、第２取得部２５は、該認識すべきエンティティの文字列型の属性値に特定サブタイプの名称が含まれるか否かをさらに検索する。名称が含まれている場合は、第２取得部２５は、例えば第２属性特徴ベクトルの上記追加された要素を１に設定し、名称が含まれていない場合は、第２取得部２５は、例えば上記追加された要素を０に設定してもよい。

例えば、エンティティ「アップル会社」の属性「注釈」の属性値は文字列型であり、その属性値は「アップル会社は、旧アップルコンピュータ会社であり、本社をカリフォルニア州のクパチーノに置く米国の多国籍企業である。……」である。よって、エンティティ「アップル会社」のサブタイプが会社であるか否かを判定する際に、第２取得部２５は、第２属性特徴ベクトルの上記追加された要素を１に設定してもよい。

本実施例では、第１実施例又は第６実施例に説明された方式でサブタイプ認識部２７を構成してもよく、ここでその説明が省略される。

当業者が分かるように、第１乃至３の実施例の情報処理装置１０も本実施例に説明された、認識すべきエンティティの文字列型の属性値に認識すべきタイプの名称が含まれるか否かを検索することで、認識すべきエンティティの文字列型の属性値に該特定サブタイプの名称が含まれるか否かを反映する要素を追加するか否かを決定してもよく、ここでその説明が省略される。

第８実施例の情報処理装置２０によれば、特定タイプのエンティティの文字列型の属性値に認識すべきサブタイプが含まれるか否かを検索することで、同一のタイプの各サブタイプが共に大量の重複する属性を有する場合は、第２属性特徴ベクトルに特定サブタイプのエンティティと他のサブタイプのエンティティとをより良く区別させることができる。

以上は、図面を参照しながら本発明の情報処理装置の各実施例を説明しているが、実際には情報処理方法も説明されている。以下は、図３及び図４を参照しながら、該方法を簡単に説明し、その詳細は上述した情報処理装置の説明を参照してもよい。

図３は本発明の１つの実施例の情報処理方法３０のフローチャートである。該方法は、ステップＳ３１において開始し、下記のステップを含む。ステップＳ３３において、認識すべきエンティティの第１属性特徴ベクトルを取得する。ここで、第１属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する。ステップＳ３５において、第１属性特徴ベクトルに基づいて、認識すべきエンティティが特定タイプに属するか否かを判定する。例えば、図１を参照しながら説明された第１実施例の情報処理装置１０により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。

１つの可能な実施例では、ステップＳ３３において、セマンティック・データベースの属性のうち少なくとも一部が特定タイプのエンティティを記述する時に使用される頻度及びセマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて、重要度を決定してもよい。例えば、図１を参照しながら説明された第１実施例の情報処理装置１０により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。

１つの可能な実施例では、ステップＳ３５において、訓練された第１分類器を用いて、第１属性特徴ベクトルに基づいて、認識すべきエンティティが前記特定タイプに属するか否かを判定する。例えば、図１を参照しながら説明された第１実施例の情報処理装置１０により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。

図４は本発明のもう１つの実施例の情報処理方法４０のフローチャートである。本実施例の方法は、認識すべきエンティティが特定サブタイプに属するか否かを判定してもよい。該方法はステップＳ４１において開始し、下記のステップを含む。ステップＳ４３において、特定タイプのエンティティの第２属性特徴ベクトルを取得する。ここで、第２属性特徴ベクトルは、少なくとも特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する。ステップＳ４５において、第２属性特徴ベクトルに基づいて、特定タイプのエンティティが特定サブタイプに属するか否かを判定する。例えば、図２を参照しながら説明された第１実施例の情報処理装置２０により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。

上記認識すべきエンティティが特定サブタイプに属するか否かを判定する方法は単独で実行されてもよいし、図３に説明された認識すべきエンティティが特定タイプに属するか否かを判定する方法の後で実行されてもよい。

１つの可能な実施例では、ステップＳ４３において、特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が特定サブタイプのエンティティを記述する時に使用される頻度及び特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、重要度を決定してもよい。例えば、図２を参照しながら説明された第１実施例の情報処理装置２０により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。

１つの可能な実施例では、ステップＳ４５において、訓練された第２分類器を用いて、第２属性特徴ベクトルに基づいて、特定タイプのエンティティが特定サブタイプに属するか否かを判定する。例えば、図２を参照しながら説明された第１実施例の情報処理装置２０により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。

１つの可能な実施例では、ステップＳ４３において、特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが特定サブタイプを含むか否かに基づいて、該属性の第２属性特徴ベクトルにおける対応する重みを調整してもよい。例えば、図２を参照しながら説明された第１実施例の情報処理装置２０により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。

１つの可能な実施例では、ステップＳ４３において、取得された第２属性特徴ベクトルに、特定タイプのエンティティの文字列型の属性値に特定サブタイプの名称が含まれるか否かをさらに反映させる。例えば、図２を参照しながら説明された第１実施例の情報処理装置２０により実行されるプロセスにより実現されてもよく、ここでその詳細についての説明が省略される。

本願の装置、方法などの実施例では、各部（ユニット、サブユニット、モジュール、サブモジュールなど）又は各ステップは、分割され、結合され、及び／又は分割された後に再び結合されてもよい。これらの分割及び／又は結合は本願の均等な態様とみなすべきである。また、上記本願の具体的な実施例の説明では、１つの実施例について説明され及び／又は示された特徴は、同一又は類似の形で１つ又は複数の他の実施例に用いられてもよく、他の実施例における特徴と組み合わせてもよく、或いは他の実施例における特徴に代わってもよい。

以上は、具体的な実施例を参照しながら本発明の基本原理を説明しているが、当業者が分かるように、本発明の方法及び装置の全て又はいずれかのステップ又は構成部は、任意の装置（処理器、記憶媒体など）又はコンピュータ装置のネットワークにおいて、ハードウェア、ファームウェア、ソフトウェア又はこれらの組み合わせの形で実現されてもよく、これは当業者が本発明の詳細を読んだ後に基本的なプログラミング技能を用いて実現できるものである。

従って、本発明の目的は、任意のコンピュータ装置で１つのプログラム又は一連のプログラムを実行することで実現されてもよい。コンピュータ装置は公知の汎用装置である。このため、本発明の目的は、方法又は装置を実現プログラムコードを含むプログラムプロダクトを提供することで実現されてもよい。言い換えれば、これらのプログラムプロダクトも本発明を構成し、このようなプログラムプロダクトを記憶する記憶媒体も本発明を構成する。なお、記憶媒体は任意の公知の記憶媒体又は将来に開発される任意の記憶媒体であってもよい。

ソフトウェア及び／又はファームウェアを通じて本発明の実施例を実現する場合は、記憶媒体又はネットワークから専用ハードウェア構成を有するコンピュータ、例えば図５に示す汎用コンピュータ５００に該ソフトウェアを構成するプログラムをインストールし、該コンピュータは、各種のプログラムがインストールされている場合は、各種の機能などを実行できる。

図５において、中央処理部（即ちＣＰＵ）５０１は、読み出し専用メモリ（ＲＯＭ）５０２に記憶されているプログラム、又は記憶部５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたプログラムにより各種の処理を実行する。ＲＡＭ５０３には、必要に応じて、ＣＰＵ５０１が各種の処理を実行するに必要なデータが記憶されている。ＣＰＵ５０１、ＲＯＭ５０２、及びＲＡＭ５０３は、バス５０４を介して互いに接続されている。入力／出力インターフェース５０５もバス５０４に接続されている。

入力部５０６（キーボード、マウスなどを含む）、出力部５０７（ディスプレイ、例えばブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、及びスピーカなどを含む）、記憶部５０８（例えばハードディスクなどを含む）、通信部５０９（例えばネットワークのインタフェースカード、例えばＬＡＮカード、モデムなどを含む）は、入力／出力インターフェース５０５に接続されている。通信部５０９は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライブ部５１０は、入力／出力インターフェース５０５に接続されてもよい。取り外し可能な媒体５１１は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部５１０にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部５０８にインストールされている。

ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体５１１を介してソフトウェアを構成するプログラムをインストールする。

当業者が分かるように、これらの記憶媒体は、図５に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体５１１に限定されない。取り外し可能な媒体５１１は、例えば磁気ディスク（フロッピーディスク（登録商標）を含む）、光ディスク（光ディスク−読み出し専用メモリ（ＣＤＲＯＭ）、及びデジタル多目的ディスク（ＤＶＤ）を含む）、光磁気ディスク（ミニディスク（ＭＤ）（登録商標））及び半導体メモリを含む。或いは、記憶媒体は、ＲＯＭ５０２、記憶部５０８に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。

本発明は、機器が読み取り可能な命令コードを記憶するプログラムプロダクトをさらに提供する。命令コードは、機器により読み取られ、実行される場合は、上記本発明の実施例の方法を実行できる。

また、上記の機器が読み取り可能な命令コードを記憶するプログラムプロダクトを記憶する記憶媒体も本発明の公開に含まれる。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、及びメモリスティックなどを含むが、これらに限定されない。

なお、用語「包括／含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。なお、本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
情報処理装置であって、
認識すべきエンティティの第１属性特徴ベクトルを取得する第１取得手段であって、前記第１属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、第１取得手段と、
前記第１属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するタイプ認識手段と、を含む、装置。
（付記２）
前記第１取得手段は、前記セマンティック・データベースの属性のうち少なくとも一部が前記特定タイプのエンティティを記述する時に使用される頻度及び前記セマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記１に記載の装置。
（付記３）
各属性について、該属性の前記特定タイプのエンティティを記述する時の使用頻度が高いほど、該属性の前記第１属性特徴ベクトルにおける対応する重みが大きく、該属性のセマンティック・データベースにおける全てのエンティティを記述する時の使用頻度が高いほど、該属性の前記第１属性特徴ベクトルにおける対応する重みが小さい、付記２に記載の装置。
（付記４）
前記タイプ認識手段は、訓練された第１分類器を用いて、前記第１属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定し、
第１分類器を訓練する際に、前記特定タイプのマークが付けられているエンティティを正例として用い、前記特定タイプと同一のレベルの他のタイプのエンティティを反例として用いて、前記第１分類器を訓練する、付記１又は２に記載の装置。
（付記５）
前記タイプ認識手段は、反復の方式で第１分類器を訓練し、訓練された第１分類器の分類結果が変わらないまで、現在のラウンドで訓練して得られた第１分類器により取得された、前記特定タイプと判定されたエンティティを既存の正例に追加し、次のラウンドの訓練を行い続け、この場合に取得された第１分類器を、最終的に訓練して得られた第１分類器とする、付記４に記載の装置。
（付記６）
特定タイプのエンティティの第２属性特徴ベクトルを取得する第２取得手段であって、前記第２属性特徴ベクトルは、少なくとも前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、前記特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する、第２取得手段と、
前記第２属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定するサブタイプ認識手段と、をさらに含む、付記１に記載の装置。
（付記７）
前記第２取得手段は、前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が前記特定サブタイプのエンティティを記述する時に使用される頻度及び前記特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記６に記載の装置。
（付記８）
前記第２取得手段は、前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが前記特定サブタイプを含まない場合に、該属性の前記第２属性特徴ベクトルにおける対応する重みを所定割合で減らす、付記６又は７に記載の装置。
（付記９）
前記第２属性特徴ベクトルは、前記特定タイプのエンティティの文字列型の属性値に前記特定サブタイプの名称が含まれるか否かをさらに反映する、付記６又は７に記載の装置。
（付記１０）
前記サブタイプ認識手段は、訓練された第２分類器を用いて、前記第２属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定し、
第２分類器を訓練する際に、前記特定サブタイプのマークが付けられているエンティティを正例として用い、前記特定サブタイプと同一のレベルの他のサブタイプのエンティティを反例として用いて、前記第２分類器を訓練する、付記６又は７に記載の装置。
（付記１１）
処理器を含む情報処理装置であって、
前記処理器は、
認識すべきエンティティの第１属性特徴ベクトルを取得し、前記第１属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映し、
前記第１属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定する、装置。
（付記１２）
情報処理方法であって、
認識すべきエンティティの第１属性特徴ベクトルを取得するステップであって、前記第１属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、ステップと、
前記第１属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するステップと、を含む、方法。
（付記１３）
前記セマンティック・データベースの属性のうち少なくとも一部が前記特定タイプのエンティティを記述する時に使用される頻度及び前記セマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記１２に記載の方法。
（付記１４）
各属性について、該属性の前記特定タイプのエンティティを記述する時の使用頻度が高いほど、該属性の前記第１属性特徴ベクトルにおける対応する重みが大きく、該属性のセマンティック・データベースにおける全てのエンティティを記述する時の使用頻度が高いほど、該属性の前記第１属性特徴ベクトルにおける対応する重みが小さい、付記１３に記載の方法。
（付記１５）
訓練された第１分類器を用いて、前記第１属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定し、
第１分類器を訓練する際に、前記特定タイプのマークが付けられているエンティティを正例として用い、前記特定タイプと同一のレベルの他のタイプのエンティティを反例として用いて、前記第１分類器を訓練する、付記１２又は１３に記載の方法。
（付記１６）
特定タイプのエンティティの第２属性特徴ベクトルを取得するステップであって、前記第２属性特徴ベクトルは、少なくとも前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、前記特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する、ステップと、
前記第２属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定するステップと、をさらに含む、付記１２に記載の方法。
（付記１７）
前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が前記特定サブタイプのエンティティを記述する時に使用される頻度及び前記特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、付記１６に記載の方法。
（付記１８）
前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが前記特定サブタイプを含まない場合に、該属性の前記第２属性特徴ベクトルにおける対応する重みを所定割合で減らす、付記１６又は１７に記載の方法。
（付記１９）
前記第２属性特徴ベクトルは、前記特定タイプのエンティティの文字列型の属性値に前記特定サブタイプの名称が含まれるか否かをさらに反映する、付記１６又は１７に記載の方法。
（付記２０）
訓練された第２分類器を用いて、前記第２属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定し、
第２分類器を訓練する際に、前記特定サブタイプのマークが付けられているエンティティを正例として用い、前記特定サブタイプと同一のレベルの他のサブタイプのエンティティを反例として用いて、前記第２分類器を訓練する、付記１６又は１７に記載の方法。

以上の実施例は単なる本発明を説明するためのものであり、本発明を限定するものではなく、当業者は、本発明の主旨及び範囲から逸脱することなく、各種の変更及び変形を行ってもよいため、全ての均等的な態様も本発明の範囲に属し、本発明の特許の保護範囲は特許請求の範囲により限定される。

Claims

情報処理装置であって、
認識すべきエンティティの第１属性特徴ベクトルを取得する第１取得手段であって、前記第１属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、第１取得手段と、
前記第１属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するタイプ認識手段と、を含む、装置。
前記第１取得手段は、前記セマンティック・データベースの属性のうち少なくとも一部が前記特定タイプのエンティティを記述する時に使用される頻度及び前記セマンティック・データベースにおける全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、請求項１に記載の装置。
各属性について、該属性の前記特定タイプのエンティティを記述する時の使用頻度が高いほど、該属性の前記第１属性特徴ベクトルにおける対応する重みが大きく、該属性のセマンティック・データベースにおける全てのエンティティを記述する時の使用頻度が高いほど、該属性の前記第１属性特徴ベクトルにおける対応する重みが小さい、請求項２に記載の装置。
前記タイプ認識手段は、訓練された第１分類器を用いて、前記第１属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定し、
第１分類器を訓練する際に、前記特定タイプのマークが付けられているエンティティを正例として用い、前記特定タイプと同一のレベルの他のタイプのエンティティを反例として用いて、前記第１分類器を訓練する、請求項１又は２に記載の装置。
特定タイプのエンティティの第２属性特徴ベクトルを取得する第２取得手段であって、前記第２属性特徴ベクトルは、少なくとも前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の、前記特定タイプの特定サブタイプのエンティティを記述する時の重要度を反映する、第２取得手段と、
前記第２属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定するサブタイプ認識手段と、をさらに含む、請求項１に記載の装置。
前記第２取得手段は、前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部が前記特定サブタイプのエンティティを記述する時に使用される頻度及び前記特定タイプの全てのエンティティを記述する時に使用される頻度に基づいて、前記重要度を決定する、請求項５に記載の装置。
前記第２取得手段は、前記特定タイプの全てのエンティティの全ての属性のうち少なくとも一部の各属性について、該属性の定義フィールドが前記特定サブタイプを含まない場合に、該属性の前記第２属性特徴ベクトルにおける対応する重みを所定割合で減らす、請求項５又は６に記載の装置。
前記第２属性特徴ベクトルは、前記特定タイプのエンティティの文字列型の属性値に前記特定サブタイプの名称が含まれるか否かをさらに反映する、請求項５又は６に記載の装置。
前記サブタイプ認識手段は、訓練された第２分類器を用いて、前記第２属性特徴ベクトルに基づいて、前記特定タイプのエンティティが前記特定サブタイプに属するか否かを判定し、
第２分類器を訓練する際に、前記特定サブタイプのマークが付けられているエンティティを正例として用い、前記特定サブタイプと同一のレベルの他のサブタイプのエンティティを反例として用いて、前記第２分類器を訓練する、請求項５又は６に記載の装置。
情報処理方法であって、
認識すべきエンティティの第１属性特徴ベクトルを取得するステップであって、前記第１属性特徴ベクトルは、少なくともセマンティック・データベースの属性のうち少なくとも一部の、前記セマンティック・データベースに含まれる特定タイプのエンティティを記述する時の重要度を反映する、ステップと、
前記第１属性特徴ベクトルに基づいて、前記認識すべきエンティティが前記特定タイプに属するか否かを判定するステップと、を含む、方法。