JP2021501387A

JP2021501387A - 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム

Info

Publication number: JP2021501387A
Application number: JP2020514181A
Authority: JP
Inventors: 雅康村岡; 哲哉那須川
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-09-27
Filing date: 2018-09-21
Publication date: 2021-01-14
Also published as: GB202003943D0; WO2019064137A1; US20190095525A1; CN111133429A

Abstract

【課題】自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ実施方法、コンピュータ・プログラム、及びコンピュータ・システムを提供する。【解決手段】コンピュータ・システムは、テキストを読み取り、複数の部分文字列を生成し、各部分文字列はテキスト内に現れるユニットを含む。コンピュータ・システムは、画像検索システムのクエリとして１つ又は複数のユニットを用いて、各部分文字列についての画像セットを取得し、画像セットは、１つ又は複数の画像を含む。コンピュータ・システムは、各文字列についての画像セットの偏差を計算する。コンピュータ・システムは、偏差及び各部分文字列の長さに基づいて、抽出される表現として複数の部分文字列のそれぞれを選択する。【選択図】図８

Description

本発明は、一般に、情報抽出に関し、より特定的には、自然言語処理のためにテキスト内の表現を抽出するための技術に関する。

固有表現認識（Named entity recognition、ＮＥＲ）は、テキスト内の、人、場所、組織、又は製品のような固有表現を識別するためのプロセスである。ＮＥＲは、その性能及び適用に関してテキスト・マイニングのような自然言語処理の役割を果たす。固有表現は、辞書に登録されていない文字列を含むことが多い。特に、登録された要素と登録されていない要素から構成される複合語は、後の自然言語処理において誤りを引き起こすことが多い。

新しい固有表現は次から次へと生まれるので、ＮＥＲシステムのための固有表現の包括的又は網羅的リストを準備するのは困難である。固有表現は、なじみのない分野又は言語に見出され得る、個人、組織、製品名、専門用語、又は外来語であることが多い。文中に現れるそうした固有表現を認識することは、後の自然言語処理の精度の改善及びその適用領域の拡張に役立つ。一般に、固有表現は、単語の前後の文脈及び品詞の連なりなどの言語的情報を利用することにより、テキストから抽出され得る。

固有表現認識に関連して、特許文献１は、ウェブページにおいて固有表現のインスタンスを検出し、固有表現を組織又は他の所定のクラスであるとして分類するための固有表現抽出システムを開示する。この技術において、多言語文書コーパスからの異なる言語のテキストには、コーパス内の文書間のリンクを用いることにより固有表現クラスを示すラベルが付けられる。次に、対訳文（parallel sentence）からのテキストに、固有表現クラスを示すラベルが、自動的に付けられる。対訳文は、異なる言語における同じ意味論的意味を有する文の対である。ラベル付きテキストは、複数の異なる言語において、固有表現クラス・ラベルを伴うテキストにラベルを付けるよう、機械学習コンポーネントを訓練するために使用される。しかしながら、特許文献１に開示される技術においては、固有表現認識システムの機械学習コンポーネントを訓練するためのデータ・ソースは、多言語又は単一言語コーパス及び対訳文などの言語情報に限定される。

米国特許出願公開第２０１５／０２８６６２９号明細書

自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ実施方法、コンピュータ・プログラム、及びコンピュータ・システムを提供する。

１つの態様において、自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ実施方法が提供される。コンピュータ実施方法は、テキストを読み取り、複数の部分文字列（substring）を生成することを含み、各部分文字列はテキスト内に現れる１つ又は複数のユニットを含む。コンピュータ実施方法は、画像検索システムのクエリとして１つ又は複数のユニットを用いて、１つ又は複数の画像を含む、各部分文字列についての画像セットを取得することをさらに含む。コンピュータ実施方法は、各部分文字列についての画像セットの偏差を計算することをさらに含む。コンピュータ実施方法は、偏差及び各部分文字列の長さに基づいて、抽出される表現として複数の部分文字列のそれぞれを選択することをさらに含む。

別の態様において、自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、そこに具体化されたプログラム・コードを有するコンピュータ可読ストレージ媒体を含む。プログラム・コードは、テキストを読み取り、複数の部分文字列を生成するように実行可能であり、各部分文字列はテキスト内に現れる１つ又は複数のユニットを含む。プログラム・コードはさらに、画像検索システムのクエリとして１つ又は複数のユニットを用いて、１つ又は複数の画像を含む、各部分文字列についての画像セットを取得するように実行可能である。プログラム・コードはさらに、各部分文字列についての画像セットの偏差を計算するように実行可能である。プログラム・コードはさらに、偏差及び各部分文字列の長さに基づいて、抽出される表現として複数の部分文字列のそれぞれを選択するように実行可能である。

更に別の態様において、自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ・システムが提供される。コンピュータ・システムは、１つ又は複数のプロセッサと、１つ又は複数のコンピュータ可読有形ストレージ・デバイスと、１つ又は複数のプロセッサの少なくとも１つにより実行される、１つ又は複数のコンピュータ可読有形ストレージ・デバイスの少なくとも１つに格納されるプログラム命令とを含む。プログラム命令は、テキストを読み取り、複数の部分文字列を生成するように実行可能であり、各々がテキスト内に現れる１つ又は複数のユニットを含む画像検索システムのクエリとして１つ又は複数のユニットを用いて、１つ又は複数の画像を含む、各部分文字列についての画像セットを取得することと、各部分文字列についての画像セットの偏差を計算することと、偏差及び各部分文字列の長さに基づいて、抽出される表現として複数の部分文字列の各々を選択することと、を行わせるように実行可能である。

本発明の実施形態の１つの実施形態による、固有表現辞書のためのシステムのブロック図を示す。本発明の実施形態の１つの実施形態による、図１に示されるシステム内の文から部分文字列を生成する例の模式図である。本発明の実施形態の１つの実施形態による、図１に示されるシステム内の各部分文字列についてのオブジェクト・ラベルを取得する方法の模式図である。本発明の実施形態の１つの実施形態による、図１に示されるシステム内の各部分文字列についてのグループを取得する例の模式図である。本発明の実施形態の１つの実施形態による、図１に示されるシステムにおける固有表現として複数の候補文字列から１つ又は複数の文字列を選択する例の模式図である。本発明の実施形態の１つの実施形態による、図１に示されるシステムにおける固有表現として複数の候補文字列から１つ又は複数の文字列を選択する別の例の模式図である。本発明の１つの実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスを示すフローチャートである。本発明の別の実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスを示すフローチャートである。本発明の１つの実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスにより認識される例を示す。本発明の１つの実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスにより認識される例を示す。本発明の１つの実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスにより認識される例を示す。本発明の１つの実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスにより認識される例を示す。本発明の１つの実施形態による、固有表現認識を実施するためのコンピュータ・システムのコンポーネントを示す図である。

ここで、本発明が特定の実施形態を用いて説明され、以下に説明される実施形態は、単に例として言及されるものであり、本発明の範囲を限定することを意図するものではない。

本発明の実施形態は、自然言語で書かれたテキストから固有表現を抽出／認識するためのコンピュータ実施方法、コンピュータ・システム、及びコンピュータ・プログラムに向けられる。

固有表現認識（ＮＥＲ）は、自然言語で書かれたテキストから固有表現を抽出するためのプロセスであり、固有表現は、人、場所、組織、製品等のような実世界オブジェクトであり得る。図１〜図１２を参照して、本発明の１つ又は複数の実施形態による、自然言語で書かれたテキストから固有表現を抽出／認識するためのコンピュータ・システム及びプロセスが示される。

図１〜図６は、本発明の１つの実施形態による、固有表現辞書を作成するためのコンピュータ・システムを説明する。コンピュータ・システムにおいては、固有表現は、画像分析技術により画像情報を利用することによって、種々の自然言語で書かれたテキストの集合体から抽出され、固有表現辞書を構築する。図７は、本発明の１つの実施形態による、オブジェクト認識技術により画像情報を利用することによって自然言語で書かれたテキストから固有表現を抽出するための方法を説明する。図８は、本発明の別の実施形態による、画像クラスタリング技術による画像情報を利用することによってテキストから固有表現を抽出するための方法を説明する。

図１は、本発明の１つの実施形態による、固有表現辞書を作成するためのシステム１００のブロック図を示す。図１に示されるように、システム１００は、テキストの集合体を格納するためのコーパス１１０と、テキストから固有表現を抽出／認識するための固有表現認識エンジン１２０と、所与のクエリと一致した１つ又は複数の画像を取り出すための画像検索システム１３０と、所与の画像内でキャプチャされたオブジェクトを分類するためのオブジェクト認識システム１４０と、所与の画像を幾つかのグループにクラスタリングするための画像クラスタリング・システム１５０と、固有表現認識エンジン１２０により認識された固有表現を格納するための辞書ストア１６０とを含むことができる。

コーパス１１０は、テキストの集合体を格納するデータベースとすることができ、英語、日本語、インドネシア語、フィンランド語、ブルガリア語、ヘブライ語、韓国語等を含む多種多様の言語で書かれた大量の文を含むことができる。コーパス１１０は、システム１００内の内部コーパス、又は特定の組織又は個人により提供され得る外部コーパスとすることができる。

固有表現認識エンジン１２０は、画像検索システム１３０、オブジェクト認識システム１４０、及び／又は画像クラスタリング・システム１５０を含むシステムと協働して、固有表現認識／抽出機能を達成するように構成される。固有表現認識の各段階において、固有表現認識エンジン１２０は、システム１３０、１４０、及び／又は１５０の各々にクエリを発行することができる。

画像検索システム１３０は、所与のクエリと一致した１つ又は複数の画像を取り出すように構成される。画像検索システム１３０は、世界規模のコンピュータ・ネットワーク（インターネット）にわたって配置される、又はソーシャル・ネットワーキング・サービスのような特定のサービスに蓄積される、膨大な画像の集合体のインデックスを格納することができる。画像検索システム１３０は、各画像と、各画像に関連したテキストから抽出されたキーワードとの間の関係を格納することができ、画像検索システム１３０のクエリは、文字列ベースのクエリとすることができる。

画像検索システム１３０は、固有表現認識エンジン１２０からクエリを受け取り、受け取ったクエリと一致した１つ又は複数の画像を取り出し、画像検索結果を固有表現認識エンジン１２０に戻すことができる。画像検索結果は、各画像の画像データ（サムネイル又はフル画像）、及び／又は各画像へのリンクを含むことができる。画像検索システム１３０は、システム１００内の内部システムとすることができ、又は適切なアプリケーション・プログラミング・インターフェース（ＡＰＩ）を通じて特定の組織又は個人により提供され得る外部サービスとすることができる。そうした外部サービスは、検索エンジン・サービス、ソーシャル・ネットワーキング・サービス等を含むことができる。

オブジェクト認識システム１４０は、所与のクエリの画像においてキャプチャされたオブジェクトを分類するように構成される。オブジェクト認識システム１４０は、固有表現認識エンジン１２０からクエリを受け取り、オブジェクト認識を実行してクエリの画像に適した１つ又は複数のオブジェクト・ラベルを識別し、オブジェクト認識結果を固有表現認識エンジン１２０に戻すことができる。

クエリは、画像の画像データ又は画像へのリンクを含むことができる。オブジェクト認識結果は、クエリの画像について識別された１つ又は複数のオブジェクト・ラベルを含むことができる。各オブジェクト・ラベルは、一般名（例えば、人、猫、自動車等）、及び／又はクエリの画像においてキャプチャされた実世界オブジェクト（例えば、ヒト、動物、機械等）の属性（例えば、年齢、性別、感情、虎斑状パターン、塗装色等）を示し得る。

画像においてキャプチャされたオブジェクトを所与のカテゴリに分類するプロセスであるオブジェクト認識は、特徴ベース、勾配ベース、派生ベース、及びテンプレート・マッチング・ベースの手法を含む、あらゆる既知のオブジェクト認識／検出技術を用いることにより、実行され得る。オブジェクト認識システム１４０は、システム１００内の内部システムとすることができ、又は適切なＡＰＩを通じて特定の組織又は個人により提供され得る外部サービスとすることもできる。

画像クラスタリング・システム１５０は、所与の画像を幾つかのグループ（又は、クラスタ）にグループ化するように構成される。画像クラスタリング・システム１５０は、固有表現認識エンジン１２０からクエリを受け取り、クエリの所与の画像に対して画像クラスタリングを行い、クラスタリング結果を固有表現認識エンジン１２０に戻すことができる。クエリは、画像の画像データ又は画像へのリンクを含むことができる。クラスタリング結果は、クラスタリングの結果としてのグループ構成（group composition）を含むことができる。画像クラスタリングは、少なくとも部分的に、特徴ベクトルに基づくことができ、特徴ベクトルの各々は、各画像から特徴抽出器により抽出され得る。

凝集型階層的クラスタリング（群平均法（group average method）を含む）及び非階層的クラスタリング（例えば、ｋ平均法（k-means）、ｋメドイド法（k-medoids）、ｘ平均法（x-means）等）などの任意の既知のクラスタリング・アルゴリズムを画像の特徴ベクトルに適用することができる。パラメータとして一定数のクラスタを有する、ｋ平均法のようなアルゴリズムが用いられる場合、エルボー法（elbow method）、シルエット法（silhouette method）等に用いられるいずれかの既知の基準を用いることにより、適切な数のクラスタを求めることができる。また、画像クラスタリング・システム１５０は、システム１００内の内部システムとすることができ、又は適切なＡＰＩを通じて特定の組織又は個人により提供され得る外部サービスとすることもできる。

辞書ストア１６０は、固有表現認識エンジン１２０により認識された固有表現を保持する固有表現辞書を格納するように構成される。辞書ストア１６０は、固有表現認識エンジン１２０がアクセスできる、いずれかの内部又は外部ストレージ・デバイス若しくは媒体を用いることにより、提供され得る。

固有表現認識エンジン１２０は、テキスト内の固有表現を認識するために、システム１３０、１４０及び／又は１５０を用いることにより、新規な固有表現認識プロセスを実行する。固有表現認識プロセスのターゲットは、人、場所、組織、製品等のような適切な名前を有する任意の実世界オブジェクトを含むことができる。実施形態において、ターゲットは、いわゆる未知の語も含み得る。

図１において、固有表現認識エンジン１２０のより詳細なブロック図が示される。図１に示されるように、固有表現認識エンジン１２０は、固有表現についての候補文字列として、所与のテキストから複数の部分文字列を生成するための部分文字列生成モジュール１２２と、各候補文字列についての画像の偏差を計算するための画像偏差計算モジュール１２４と、抽出される固有表現として複数の候補文字列の中から１つ又は複数の文字列を選択するための固有表現選択モジュール１２６とを含む。

部分文字列生成モジュール１２２は、固有表現に対する候補文字列として複数の部分文字列を生成するために、コーパス１１０内に格納されたテキストを最初から１つずつ読み取るように構成される。部分文字列生成モジュール１２２により読み取られたテキストは、既知のものであることも又は未知のものであることもある、特定の自然言語で書かれた文とすることができる。文中に現れる単一のユニット、及び文中に現れる連続するユニットの組み合わせを列挙することにより、複数の部分文字列が生成され得る。従って、各部分文字列は、文中に現れる１つ又は複数の連続するユニットから構成され得る。ユニットは、英語で書かれた文のように文中に語分割記号（word divider）がある場合は単語であり、又は日本語で書かれた文のように、文中に語分割記号がない場合は文字であることに留意されたい。また、ユニットは、韓国語で書かれた文のように、文中に語分割記号はあるが、個別の様式に従って語分割記号を与える方法に関してあいまいさが存在する場合は文字である。部分文字列生成モジュール１２２により生成される複数の部分文字列は、文中に現れる単語又は文字のセットのべき集合の少なくとも部分を含む。

図２は、本発明の１つの実施形態による、図１に示されるシステムにおける文から部分文字列を生成する例の模式図である。図２において、例示的な文から部分文字列を生成する方法が説明される。図２の例は、インドネシア語で書かれた文を示す。例示的な文“ｔｕｋａｎｇｓａｐｕｍｅｍｂｅｒｓｉｈｋａｎｊａｌａｎ”は、スペースで区切られた４つの連続する単語を含む。従って、文の文字列は、文中に現れる４つの単語のセットで構成され、単語のセットのべき集合は、少なくとも１０個の部分文字列、すなわち、単一の単語を４つ、スペースを有して連続する２つの単語からなる連結文字列を３つ、スペースを有して連続する３つの単語からなる連結文字列を２つ、及びスペースを有して連続する４つの単語からなる連続文字列を１つ、含み得る。ヌル文字列及び離れた語の連結文字列（例えば、“ｔｕｋａｎｇｊａｌａｎ”）もべき集合の中に存在することに留意されたい。しかしながら、特定の実施形態において、余分な処理を回避するために、ヌル文字列、及び離れた語の連結文字列は、候補文字列から除外され得る。この例では、例示的な文から、部分文字列生成モジュール１２２により、１０個の部分文字列が、固有表現に対する候補文字列として生成される。

特定の実施形態において、部分文字列の長さ（ユニットの数）は、適切な最大値に制限され得ることに留意されたい。他の実施形態において、長さの昇順で部分文字列を処理することにより、他のシステムからの応答がない場合、部分文字列の長さが制限され得る。

再び図１を参照すると、画像偏差計算モジュール１２４は、画像検索システム１３０から、各候補文字列（部分文字列）に関連する１つ又は複数の画像を含む画像セットを取得するように構成される。画像セットは、画像検索システム１３０のクエリとして各候補文字列内の１又は複数の単語又は文字を用いることにより取得され得る。例示的実施形態において、各候補文字列内の全ての単語又は文字が、画像検索システム１３０のクエリとして用いられる。画像検索システムのクエリを作成するために、検索演算子の付加（例えば、候補文字列を二重引用符で囲む、記号により複数の単語を連結する）といった候補文字列の修正、大文字化、及び単数形と複数形との間の変換も考えることができる。特定の実施形態において、クエリは、候補文字列との完全一致を要求し得る。他の特定の実施形態において、クエリは、候補文字列との部分一致を許容し得る。

画像偏差計算モジュール１２４は、オブジェクト認識システム１４０及び／又は画像クラスタリング・システム１５０から、各候補文字列についての１つ又は複数の画像に関する分析結果を取得するようにも構成される。分析結果は、オブジェクト認識システム１４０及び／又は画像クラスタリング・システム１５０のクエリとして、各候補文字列について少なくとも部分的に取得された１つ又は複数の画像を用いることにより、取得され得る。画像偏差計算モジュール１２４は、候補文字列について取得された分析結果に少なくとも部分的に基づいて、各候補文字列についての画像セットの偏差を計算するようにさらに構成される。各部分文字列についての偏差は、画像のばらつき及び／又は画像セット内の画像のバイアスの尺度である。

オブジェクト認識システム１４０から取得された分析結果は、画像セット内の各画像について認識された１つ又は複数のオブジェクト・ラベルを含み得る。画像セット内の各画像について認識されたオブジェクト・ラベルは、各候補文字列について集約される。各候補文字列について取得されたオブジェクト・ラベルは、各候補文字列についての偏差を計算するために用いることができる。オブジェクト認識システム１４０を用いる場合、画像偏差計算モジュール１２４は、固有表現として選択された候補文字列について取得された１つ又は複数のオブジェクト・ラベルを用いることにより、固有表現のタイプ（例えば、人、建物、都市等）を推定することができる。

図３は、本発明の１つの実施形態による、図１に示されるシステムにおける各部分文字列についてのオブジェクト・ラベルを取得する例の模式図である。図３において、各部分文字列についてのオブジェクト・ラベルを取得する方法が説明される。図３において、２つの部分文字列“ｔｕｋａｎｇｓａｐｕ”及び“ｍｅｍｂｅｒｓｉｈｋａｎｊａｌａｎ”についての模式的な例が代表的に示される。図３に示されるように、２つの部分文字列の各々について取り出された幾つかの画像（画像０１乃至画像０５及び画像０６乃至画像１０）がある。また、各部分文字列について、複数のオブジェクト・ラベル及びその頻度が与えられる。

実施形態において、偏差を計算するために、画像偏差計算モジュール１２４は、各候補文字列について、画像セット内に存在する画像（ＥＩ）の数をカウントすることができる。画像偏差計算モジュール１２４はさらに、各候補文字列について、異なるオブジェクト・ラベル（ＤＯＬ）の数、及びオブジェクト・ラベルにおけるオブジェクト・ラベル分布のバイアス（ＢＯＬ）を計算することができる。各候補文字列についての偏差を計算するために、各候補文字列について、存在する画像（ＥＩ）の数、異なるオブジェクト・ラベル（ＤＯＬ）の数、及び／又はオブジェクト・ラベル分布のバイアス（ＢＯＬ）を少なくとも部分的に用いることができる。

部分文字列が長すぎるか、又は意味をなさない場合、部分文字列について、画像が取り出されないか、又は僅かな画像しか取り出されない。従って、存在する画像（ＥＩ）の数は、各候補文字列についての画像セットの偏差の良い尺度であり得る。特定の実施形態において、偏差の計算に用いられる画像の数は、適切な最大値により限定され得る。従って、存在する画像（ＥＩ）の数は、所与の最大値で飽和し得る。

部分文字列が特定の概念を表す場合、画像セットの複数の画像内に同じオブジェクトを有する傾向がある。従って、異なるオブジェクト・ラベル（ＤＯＬ）の数は、各候補文字列について画像セット内の偏差の良い尺度であり得る。さらに、２つの部分文字列の各々について取得された複数のオブジェクト・ラベルがある場合、より大きいバイアスを有する部分文字列が、概念をより良く表していると考えることができる。例えば、２つの部分文字列の両方について、２つのラベル（“人”及び“像”）が取得されるが、ラベル分布が異なり、例えば、第１の部分文字列については４つの“人”ラベル及び１つの“像”ラベルがあり、第２の部分文字列については３つの“人”ラベル及び２つの“像”ラベルがあると仮定する。この例において、より大きいバイアス（４つの“人”ラベル及び１つの“像”ラベル）を有する第１の部分文字列は、より小さいバイアス（３つの“人”ラベル及び２つの“像”ラベル）を有する第２の部分文字列よりも適切であると考えることができる。従って、オブジェクト・ラベル分布のバイアス（ＢＯＬ）は、各候補文字列についての画像の偏差の良い尺度であり得る。バイアスは、以下のようにオブジェクト・ラベルのセットについての負のエントロピーとして計算され得ることに留意されたい。

ここで、ｐ_ｉは、ラベルｉ（ｉ＝１，．．．，ｎ）の出現確率を示す。

偏差のスコアは、以下の関数（１）として表すことができる：
偏差スコア＝ｆ（ＥＩ，ＤＯＬ，ＢＯＬ，［ＬＳ］）（１）
ここで、ＬＳは、単語の数によりカウントされる部分文字列の長さを表し、角括弧は、変数が随意的であることを示す。

偏差のスコアが大きいほど、候補文字列が１つの概念をより良く表すことに留意されたい。特定の実施形態において、スコアは以下のように変化する。存在する画像（ＥＩ）の数が大きくなるにつれて、スコアはより大きくなる。異なるオブジェクト・ラベル（ＤＯＬ）の数が小さくなるにつれて、スコアはより大きくなる。オブジェクト・ラベル分布のバイアス（ＢＯＬ）が大きくなるにつれて、スコアはより大きくなる。部分文字列の長さ（ＬＳ）が大きくなるにつれて、スコアはより大きくなる。

再び図１を参照すると、画像クラスタリング・システム１５０から取得された分析結果は、画像クラスタリングに基づいて、画像セット内の所与の画像から区分化されたグループ構成を含むことができる。画像クラスタリング・システム１５０を用いる場合、画像偏差計算モジュール１２４は、各部分文字列をクラスタ化した後、グループの数をカウントすることができる。各部分文字列についての偏差を計算するために、各部分文字列についてカウントされたグループの数が、少なくとも部分的に用いられ得る。

図４は、本発明の１つの実施形態による、図１に示されるシステムにおける各部分文字列についてのグループを取得する例の模式図である。図４において、各部分文字列についてのグループを取得する方法が説明される。図４において、２つの模式的な部分文字列“部分文字列１”及び“部分文字列２”の例が代表的に示される。図４に示されるように、“部分文字列１”の画像セット内の画像は、特徴空間内の３つのグループに区分化される。他方、“部分文字列２”の画像セット内の画像は、２つのグループに区分化される。部分文字列が特定の概念を表す場合、画像セット内の複数の画像内に類似した特徴を有する傾向がある。従って、クラスタリング後のグループの数は、画像セットの偏差の良い尺度であり得る。グループの数が少ないほど、部分文字列は、１つの概念をよりよく表す。

再び図１を参照すると、固有表現選択モジュール１２６は、偏差及び各候補文字列の長さを少なくとも部分的に用いることにより、固有表現として複数の候補文字列から１つの文字列を選択するように構成される。概念を表す固有表現として考えられ得る文字列の選択は、所定の選択規則を用いることによって、行うことができる。

上述のように、複数の部分文字列は、各部分文字列についての偏差が小さくなるにつれて、スコアが大きくなるようにスコア付けされ得る。複数の部分文字列の中から、大きいスコア（最大スコア）を有するより長い（最長の）部分文字列を選択することができる。例えば、部分文字列“ＹＯＲＫ”及び部分文字列“ＮＥＷＹＯＲＫ”が同じ又はほぼ同じスコアを有する場合、より短い部分文字列“ＹＯＲＫ”ではなく、より長い部分文字列“ＮＥＷＹＯＲＫ”が、固有表現として選択される。これは文が複数の固有表現を有することを防止するものではないので、１つ又は複数の候補文字列が、所与の文について生成される複数の候補文字列から選択されることに留意されたい。

所定の選択規則に基づいて、複数の候補文字列から１つ又は複数の文字列を選択する幾つかの方法がある。

図５は、本発明の１つの実施形態による、図１に示されるシステムにおける固有表現として、複数の候補文字列から１つ又は複数の文字列を選択する例の模式図である。図５は、固有表現として複数の候補文字列から１つ又は複数の文字列を選択する方法を説明する。図５に示されるように、無向グラフ２１０は、複数のノード２１２と、各々がノード２１２の対と関連付けられた１つ又は複数のエッジ２１４とを含み、各ノード２１２は、入力文２００から取得された部分文字列を表し、各エッジ２１４は、入力文２００における部分文字列２１２の間の隣接部（adjacency）を表し、ノード２１２は、それぞれ入力文２００の開始及び終了を表す開始ノード２１２Ｓ及び終了ノード２１２Ｅを含む。偏差スコアの和を最大にする経路２１６が、各ノードの重みとして部分文字列についての各偏差スコア（その各々が部分文字列の長さの関数であるスコア＃１〜スコア＃１０）を用いながら、ビタビ・アルゴリズム（Viterbi algorithm）により取得される。経路２１６を構成する一連の部分文字列が、固有表現として選択される。特定の実施形態において、所定の選択規則は、入力文２００からセグメント化され、複数の候補文字列の中から偏差スコアの和を最大にする規則であり得る。

図６は、本発明の１つの実施形態による、図１に示されるシステムにおける固有表現として複数の候補文字列から１つ又は複数の文字列を選択する別の例の模式図である。図６は、固有表現として複数の候補文字列から１つ又は複数の文字列を選択する別の方法を説明する。図６に示されるように、その各々が偏差スコアを有する、入力文２２０から取得された部分文字列のリストが、偏差スコアにより降順にソートされる。同じ偏差スコアを有する複数の部分文字列があった場合、長さがより長いものが最初にくるように、リストがソートされることに留意されたい。リストの上部から部分文字列が選び出されると、入力文２２０内の全ての単語／文字をカバーし、互いに重複しない部分文字列２２２ａ〜２２２ｃのセットが抽出される。図６に示される例において、“ｔｕｋａｎｇ”、“ｓａｐｕ”、“ｔｕｋａｎｇｓａｐｕｍｅｍｂｅｒｓｉｈｋａｎ”、及び“ｊａｌａｎ”は、これらの部分文字列が、既に選び出された部分文字列“ｔｕｋａｎｇｓａｐｕ”及び“ｍａｃｅｔｊａｌａｎ”と重複するので、スキップされる。従って、この特定の実施形態において、所定の選択規則は、入力文からセグメント化され、複数の候補文字列の中からスコアの降順で選び出された１つ又は複数の文字列を選択するという規則であり得る。

選択規則は、上述の特定の例に限定されない。他の実施形態においては、所定の規則は、各々が、所定の閾値を上回る偏差スコアを有する１つ又は複数の文字列、又は上位Ｎ個のスコア内の１つ又は複数の文字列を単に選択するというものである。

実施形態において、固有表現認識の精度を改善するために、各部分文字列について取得された検索結果の数、各部分文字列について取得された各画像と関連したページのタイトル、及び各部分文字列について取得された各画像内に含まれる文字列のような他の情報を考慮に入れて、偏差に加えて各部分文字列についてのスコアを調整することができる。オブジェクト認識システム１４０は、ＯＣＲ（光学式文字認識）技術に基づき各画像内に含まれるこうした文字列を提供することができる。

１つの実施形態において、スコアは、検索結果の数を評価する付加的な用語を上述の関数（１）に加えることにより、検索結果の数が大きくなるにつれて、大きくなるように構成される。別の実施形態において、所与のクエリと一致した画像の取り出す際、検索の範囲は、ページのタイトル内に候補部分文字列を有するページに限定されることがあり、そのことは、上述の関数（１）における存在する画像（ＥＩ）の数に影響を与え得る。さらに別の実施形態において、スコアは、同一の／類似の文字列を含む画像の数を評価する付加的な用語を上述の関数（１）に加えることにより、候補文字列と同一の／これと類似した文字列を有する画像の数が大きくなるにつれて、大きくなるように構成される。

コーパス１１０内に格納された集合体における各文に対して上述の処理を繰り返し実行することにより、固有表現認識エンジン１２０により認識される固有表現を用いて、固有表現辞書が構築される。

図１に示されるように、システム１００は、固有表現認識エンジン１２０により構築された辞書を用いて自然言語処理を実行するための自然言語処理システム１７０をさらに含む。自然言語処理システム１７０により実行される自然言語処理は、テキスト・マイニング、多言語知識抽出等を含み得る。辞書ストア１６０内に格納される固有表現辞書内に多数の固有表現が登録されるので、自然言語処理の性能が改善され、自然言語処理の適用範囲が拡大する。

実施形態において、図１に説明されるコーパス１１０、固有表現認識エンジン１２０、画像検索システム１３０、オブジェクト認識システム１４０、画像クラスタリング・システム１５０、辞書ストア１６０、部分文字列生成モジュール１２２、画像偏差計算文字１２４、及び固有表現選択モジュール１２６は、プロセッサ、メモリ等、電子回路を含むハードウェア、又はその組み合わせのようなハードウェア・コンポーネントと共に、命令／データ構造を含むソフトウェア・モジュールとして実装されるが、それらに限定されない。図１に説明されるコーパス１１０、固有表現認識エンジン１２０、画像検索システム１３０、オブジェクト認識システム１４０、画像クラスタリング・システム１５０、辞書ストア１６０、部分文字列生成モジュール１２２、画像偏差計算モジュール１２４、及び固有表現選択モジュール１２６は、パーソナル・コンピュータ、サーバ・マシンのような単一のコンピュータ・システム上で、又はコンピュータ・クラスタのような複数のデバイスにわたり分散方式で実装され得る。

図７は、本発明の１つの実施形態による、オブジェクト認識によりテキストから固有表現を抽出するためのプロセスを示すフローチャートである。図７に示されるプロセスは、図１に示される固有表現認識エンジン１２０、すなわち固有表現認識を実施する処理ユニットにより実行され得ることに留意されたい。図７に示されるプロセスは、操作者からの文処理要求を受け取ることに応答して、ステップＳ１００から開始する。

ステップＳ１０１において、処理ユニットは、入力文を先頭から１つずつ読み取り、各部分文字列が文内に現れる１つ又は複数のユニットを含むように、固有表現についての候補文字列として部分文字列のセットを生成する。部分文字列におけるユニットは、単語又は文字とすることができる。文内の単語又は文字のセットのべき集合の少なくとも部分が、部分文字列として使用され得る。ステップＳ１０２からＳ１０９までの処理は、ステップＳ１０１で生成された各部分文字列について繰り返し実行される。

ステップＳ１０３において、処理ユニットは、画像検索システム１３０にクエリを発行することによって、画像検索システム１３０から各部分文字列に関連する１つ又は複数の画像を含む画像セットを取得する。ステップＳ１０４において、処理ユニットは、各部分文字列について取得された画像セット内の存在する画像（ＥＩ）の数をカウントする。特定の実施形態において、存在する画像の数が制限され得ることに留意されたい。

ステップＳ１０５において、処理ユニットは、オブジェクト認識に基づいて各部分文字列の画像セットについての１つ又は複数のオブジェクト・ラベルを取得する。オブジェクト認識システム１４０から、分析結果が取得される。ステップＳ１０６において、処理ユニットは、各部分文字列について取得された異なるオブジェクト・ラベル（ＤＯＬ）の数を計算する。ステップＳ１０７において、処理ユニットは、各部分文字列について取得されたオブジェクト・ラベル分布のバイアス（ＢＯＬ）を計算する。

ステップＳ１０８において、処理ユニットは、ステップＳ１０４でカウントされた存在する画像（ＥＩ）の数、ステップＳ１０６で計算された異なるオブジェクト・ラベル（ＤＯＬ）の数、及び／又はステップＳ１０７で計算されたオブジェクト・ラベル分布のバイアス（ＢＯＬ）を少なくとも部分的に用いて、各文字列についての画像セットの偏差を計算する。偏差のスコアは、各部分文字列についての偏差が小さくなるにつれてスコアが大きくなるように、上述の式（１）により計算される。

ステップＳ１０１で生成された全ての部分文字列についてステップＳ１０２からステップＳ１０９までを繰り返し実行することにより、プロセスは、ステップＳ１１０に進むことができる。ステップＳ１１０において、処理ユニットは、偏差及び各部分文字列の長さを少なくとも部分的に用いて、固有表現としてステップＳ１０１で生成された複数の部分文字列から、１つの部分文字列を選択する。より具体的には、より大きいスコアを有する１つ又は複数のより長い部分文字列が、複数の部分文字列から固有表現として選択され得る。実施形態において、部分文字列は、入力文からセグメント化され、複数の候補文字列からの偏差スコアの和を最大にする１つ又は複数の文字列を選択する所定の規則に基づいて、複数の部分文字列から選択され得る。ステップＳ１１０において、固有表現のタイプは、部分文字列について取得された１つ又は複数のラベルを用いて推定することができる。さらに、実施形態においては、ステップＳ１１０において、処理ユニットは、各部分文字列についての検索結果の数、各部分文字列についての各画像と関連したページのタイトル、及び／又は各部分文字列についての各画像内の文字列を取得し、処理ユニットは、偏差に加えてこれらの情報を用いてスコアを調整する。

所与の集合体内の各文について図７に示されるプロセスを繰り返し実行することにより、固有表現辞書が構築される。

図８は、本発明の別の実施形態による、オブジェクト認識技術により画像情報を利用することによって、テキストから固有表現を抽出するためのプロセスを示すフローチャートである。図８に示されるプロセスは、図１に示される固有表現認識エンジン１２０、すなわち固有表現認識を実施する処理ユニットにより実行され得ることに留意されたい。図８に示されるプロセスは、図７に示される実施形態と同様に、操作者からの文処理要求を受け取ることに応答して、ステップＳ２００から始まる。

ステップＳ２０１において、処理ユニットは、入力文を先頭から１つずつ読み取り、固有表現についての候補文字列として部分文字列のセットを生成する。図７に示されるプロセスと同様に、ステップＳ２０２からＳ２０６までの処理は、生成された各部分文字列について繰り返し実行される。

ステップＳ２０３において、処理ユニットは、図７に示されるプロセスと同様に、画像検索システム１３０にクエリを発行することにより、画像検索システム１３０から各部分文字列についての１つ又は複数の画像を含む画像セットを取得する。

ステップＳ２０４において、処理ユニットは、画像クラスタリングに基づいて各部分文字列についての画像セット内の画像を幾つかのグループにグループ化し、各部分文字列についてのグループの数をカウントする。画像クラスタリング・システム１５０から取得された分析結果は、画像セット内の所与の画像から区分化された複数の画像のグループを示すことができる。

ステップＳ２０５において、処理ユニットは、各部分文字列についてカウントされたグループの数に少なくとも部分的に基づいて、各部分文字列についての画像セットの偏差を計算する。ステップＳ２０１で生成された全ての部分文字列についてステップＳ２０２からＳ２０６までの処理を繰り返し実行することにより、プロセスはステップＳ２０７に進む。

ステップＳ２０７において、処理ユニットは、各部分文字列についての偏差及び長さを少なくとも部分的に用いて、固有表現として複数の部分文字列から１つの部分文字列を選択する。より具体的には、複数の部分文字列の中から、より大きいスコアを有する１つ又は複数の長い部分文字列が選択される。

所与の集合体内の各文について図８に示されるプロセスを繰り返し実行することにより、固有表現辞書が構築される。

実施形態によると、自然言語で書かれたテキストから固有表現を抽出／認識するためのコンピュータ実施方法、コンピュータ・システム、及びコンピュータ・プログラム製品が提供される。

実施形態によると、テキストがなじみのない言語で書かれていても、及び／又はなじみのない分野に属していても、文字列と関連した画像情報を利用することにより、テキストから、固有表現に対応する文字列を抽出することができる。画像情報は、実際に、言語表現を伴わない概念を表すことがあり、集団的知識として世界規模のコンピュータ・ネットワークにおけるテキストと関連付けられる。その結果、画像情報は、後の自然言語処理の精度を改善し、特に、なじみのない言語及び／又は分野で書かれたテキストのターゲットにされる適用領域を拡張するのに有用である。

例えば、文“ＩＡＴＥＡＨＡＭＢＵＲＧＥＲＩＮＮＥＷＹＯＲＫ”が与えられると仮定する。この例において、システムが“ＮＥＷ”を概念として認識すれば、システムは、テキスト・マイニングのような後の適用において間違いを犯すであろう。この場合、システムは、“ＮＥＷＹＯＲＫ”を１つの概念として構文解析するのが好ましい。この例は明白であるが、本発明の実施形態によると、テキストの言語が既知であるか、又は未知であるかに関係なく、好ましくは、なじみのない言語及び／又はなじみのない分野においても固有表現に対応する文字列がテキストから抽出され得る。それは、品詞、意味等のような言語的背景知識を必要としない。なじみのない分野及び／又は言語において固有表現を認識すれば、後の自然言語処理を適用することによって、構造化されていないテキストから貴重な情報を取り出すことが可能になる。

上述の例示的実施形態において、固有表現認識は、テキスト内の表現を抽出するための新規な技術の例として説明された。しかしながら、他の実施形態において、新規な技術のターゲットは、固有表現に限定されない。本発明の他の実施形態による、写真、図、絵画等により表され得る特定の概念を表す、慣用句、複合動詞、複合名詞等を含むいずれかの特定の言語的表現を、テキスト内の表現を抽出するための新規な技術のターゲットとすることができる。

実証研究
本発明の実施形態による図７に示されるプロセスは、コード化され、幾つかの所与の文に対して実行された。インドネシア語、フィンランド語、ブルガリア語、及びヘブライ語で書かれた文が、固有表現認識エンジンのための入力テキストとして使用された。Ｇｏｏｇｌｅ（商標）ＣｕｓｔｏｍＳｅａｒｃｈＡＰＩ及びＩＢＭ（商標）Ｗａｔｓｏｎ（商標）ＶｉｓｕａｌＲｅｃｏｇｎｉｔｉｏｎＡＰＩが、それぞれ、画像検索システム及びオブジェクト認識システムとして使用された。各部分文字列についての画像セットの偏差は、上述の関数（１）により表される偏差スコアにより評価された。各々の所与の文から取得された部分文字列のリストは、偏差スコアにより降順でソートされた。各々の所与の文についてのリストの上部から部分文字列を選び出す間、所与の文内の全ての語／文字をカバーし、互いに重複しない部分文字列のセットが、固有表現のセットとして抽出された。各部分文字列に対して使用された画像の数は、５つに制限された。

図９〜図１２は、本発明の１つの実施形態による、オブジェクト認識技術により画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスによって認識される例を示す。図９に示される例は、インドネシア語で書かれた文である。図９に示されるように、インドネシア語の文は、３つの部分文字列にセグメント化され、その各々が、図９に示される対応するオブジェクト・ラベルを有していた。この例において、３つの部分文字列は、固有表現の候補として認識された。図１０〜図１２の例は、それぞれフィンランド語、ブルガリア語、及びヘブライ語で書かれた文であり、その各々が、入力文として使用された。図に示されるように、文は幾つかの部分文字列にセグメント化され、その各々は、図に示される対応するオブジェクト・ラベルを有していた。これらの部分文字列は、固有表現の候補として認識された。図９〜図１２に示されるように、プロセスは、文についての言語的な背景知識なしに、インドネシア語、フィンランド語、ブルガリア語、及びヘブライ語を含む幾つかの自然言語で書かれた文における固有表現を識別できることが実証された。

図１３は、本発明の１つの実施形態による、固有表現認識を実施するためのコンピュータ・システム１０のコンポーネントを示す図である。コンピュータ・システム１０は、固有表現認識エンジン１２０を実装するために用いられる。コンピュータ・システム１０は、好適な処理デバイスの一例にすぎず、本明細書に記載される本発明の実施形態の使用範囲又は機能に関する何らかの制限を示唆することを意図するものではない。それにも関わらず、コンピュータ・システム１０は、上述した機能のいずれかを実装及び／又は実行することができる。

コンピュータ・システム１０は、多数の他の汎用又は専用コンピューティング・システム環境又は構成で動作する。コンピュータ・システム１０と共に用いるのに好適であり得る周知のコンピューティング・システム、環境、及び／又は構成の例として、これらに限定されるものではないが、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、手持ち式又はラップトップ型デバイス、車載デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラム可能民生電子機器、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、及び、上述のシステム若しくはデバイスのいずれかを含む分散型クラウド・コンピューティング環境等が含まれる。

コンピュータ・システム１０は、コンピュータ・システムによって実行される、プログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な文脈で説明することができる。一般に、プログラム・モジュールは、特定のタスクを実行する又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含み得る。

図１３に示されるように、コンピュータ・システム１０は、汎用コンピューティング・デバイスの形で示される。コンピュータ・システム１０のコンポーネントは、これらに限定されるものではないが、プロセッサ（又は処理ユニット）１２、メモリ・バスを含むバス若しくはメモリ・コントローラによりプロセッサ１２に結合されたメモリ１６、及び種々のバス・アーキテクチャのいずれかを用いるプロセッサ又はローカル・バスを含むことができる。

コンピュータ・システム１０は、典型的には、種々のコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム１０によりアクセス可能ないずれかの利用可能媒体とすることができ、揮発性媒体及び不揮発性媒体の両方と、取り外し可能媒体及び取り外し不能媒体の両方とを含む。

メモリ１６は、ランダム・アクセス・メモリ（ＲＡＭ）など、揮発性メモリの形のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム１０は、他の取り外し可能／取り外し不能、揮発性／不揮発性のコンピュータ・システム・ストレージ媒体をさらに含むことができる。単なる例として、ストレージ・システム１８は、取り外し不能の不揮発性磁気媒体との間の読み出し及び書き込みのために提供され得る。以下でさらに示され説明されるように、ストレージ・システム１８は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュールのセット（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含むことができる。

限定ではなく、例として、プログラム・モジュールのセット（少なくとも１つ）を有するプログラム／ユーティリティがストレージ・システム１８内に格納され得るが、オペレーティング・システム、１つ又は複数のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データも格納され得る。オペレーティング・システム、１つ又は複数のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データ、又はそれらの何らかの組み合わせは、ネットワーキング環境の実装形態を含むことができる。プログラム・モジュールは、通常、本明細書で記載される本発明の実施形態の機能及び／又は方法を実行する。

コンピュータ・システム１０は、キーボード、ポインティング・デバイス、カーナビゲーション・システム、及び音声システム等のような１つ又は複数の周辺機器２４；ディスプレイ２６；ユーザがコンピュータ・システム１０と対話することを可能にする１つ又は複数のデバイス；及び／又は、コンピュータ・システム１０が１つ又は複数の他のコンピューティング・デバイスと通信することを可能にするいずれかのデバイス（例えば、ネットワーク・カード、モデム等）と通信することもできる。このような通信は、入力／出力（Ｉ／Ｏ）インターフェース２２を経由して行うことができる。コンピュータ・システム１０は、ネットワーク・アダプタ２０を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、汎用広域ネットワーク（ＷＡＮ）、及び／又はパブリック・ネットワーク（例えば、インターネット）などの１つ又は複数のネットワークと通信することもできる。示されるように、ネットワーク・アダプタ２０は、バスを介して、コンピュータ・システム１０の他のコンポーネントと通信する。図示されないが、コンピュータ・システム１０と共に他のハードウェア及び／又はソフトウェア・コンポーネントが使用され得ることを理解されたい。例としては、これらに限定されるものではないが、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部のディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、及びデータ・アーカイブ・ストレージ・システムなどが含まれる。

本発明は、コンピュータ・システム、方法、及び／又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体（単数又は複数）を含むことができる。

コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの：すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー・ディスク、パンチカード若しくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング／処理デバイスにダウンロードすることができ、又は、例えばインターネット、ローカル・エリア・ネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、及び／又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び／又はエッジ・サーバを含むことができる。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、それぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体内に格納するためにコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、又は、「Ｃ」プログラミング言語若しくは類似のプログラミング言語などの通常の手続き型プログラミング言語を含む１つ又は複数のプログラミング言語の任意の組み合わせで記述することができるいずれかのソースコード若しくはオブジェクトコードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）若しくは広域ネットワーク（ＷＡＮ）を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある（例えば、インターネットサービスプロバイダを用いたインターネットを通じて）。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、又はプログラム可能論理アレイ（ＰＬＡ）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個別化することによりコンピュータ可読プログラム命令を実行し、本発明の態様を実施することができる。

本発明の態様は、本発明の実施形態による方法、装置（システム）及びコンピュータ・プログラム製品のフローチャート図及び／又はブロック図を参照して説明される。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。

これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び／又はブロック図の１つ又は複数のブロック内で指定された機能／動作を実装するための手段を作り出すようにすることができる。これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、及び／又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、命令が内部に格納されたコンピュータ可読ストレージ媒体が、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定された機能／動作の態様を実装する命令を含む製品を含むようにすることもできる。

コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実装プロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定された機能／動作を実装するようにすることもできる。

図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための１つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される２つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び／又はフローチャート図の各ブロック、及びブロック図及び／又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。

本明細書で用いられる用語は、特定の実施形態を説明することのみを目的とし、本発明を限定することを意図したものではない。本明細書内で用いられる場合、単数形「１つの（a）」、「１つの（an）」及び「その（the）」は、文脈がそうでないことを明確に示していない限り、複数形も含むことを意図している。さらに、用語「含む（include）」、「含んでいる（including）」、「含む（comprise）」、及び／又は「含んでいる（comprising）」は、本開示で用いられる場合、記述された特徴、整数、ステップ、動作、要素、及び／又はコンポーネントの存在を指定するが、１つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネント、及び／又はその群の存在又は付加を除外するものではないことが理解されるであろう。

以下の特許請求の範囲に存在する場合、「手段又はステップと機能との組合せ（ミーンズ又はステップ・プラス・ファンクション）」要素の対応する構造、材料、動作及び均等物は、明確に特許請求された他の請求要素と共に機能を実行するための任意の構造、材料、又は行為を含むことを意図したものである。本発明の１つ又は複数の態様の説明は、例証及び説明のためだけに提示されたものであり、網羅的であること又は本発明を開示した形態に限定することを意図したものではない。

当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の用途、若しくは市場で見出される技術に優る技術的改善を最も良く説明するために、又は当業者が本明細書に開示される実施形態を理解するのを可能にするために、選択された。

１００：システム
１１０：コーパス
１２０：固有表現認識エンジン
１２２：部分文字列生成モジュール
１２４：画像偏差計算モジュール
１２６：固有表現選択モジュール
１３０：画像検索システム
１４０：オブジェクト認識システム
１５０：画像クラスタリング・システム
１６０：辞書ストア
１７０：自然言語処理システム
２００、２２０：入力文
２１２：ノード
２１４：エッジ
２１６：経路
２２２ａ〜２２２ｃ：部分文字列

Claims

自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ実施方法であって、前記方法は、
テキストを読み取り、複数の部分文字列を生成することであって、各部分文字列は前記テキスト内に現れる１つ又は複数のユニットを含む、読み取ることと、
画像検索システムのクエリとして前記１つ又は複数のユニットを用いて、１つ又は複数の画像を含む、前記各部分文字列についての画像セットを取得することと、
前記各部分文字列についての前記画像セットの偏差を計算することと、
前記偏差及び各部分文字列の長さに基づいて、抽出される表現として前記複数の部分文字列のそれぞれを選択することと、
を含む、方法。
前記画像セット内の前記１つ又は複数の画像についてのオブジェクト認識の結果に基づいて、前記各部分文字列についての１つ又は複数のラベルを取得することと、
前記各部分文字列について取得された前記１つ又は複数のラベルにおける異なるラベルの数を計算することと、
をさらに含み、
前記異なるラベルの前記数は、前記各部分文字列についての前記画像セットにおける前記偏差を計算するために用いられる、請求項１に記載の方法。
前記各部分文字列について取得された前記１つ又は複数のラベルにおけるラベル分布のバイアスを計算することをさらに含み、
前記ラベル分布の前記バイアスは、前記各部分文字列についての前記画像セットの前記偏差を計算するために用いられる、
請求項２に記載の方法。
前記各部分文字列についての前記画像セット内の前記１つ又は複数の画像の数をカウントすることをさらに含み、
前記１つ又は複数の画像の前記数は、前記各部分文字列についての前記画像セットの前記偏差を計算するために用いられる、
請求項２に記載の方法。
前記各部分文字列の前記それぞれについて取得された前記１つ又は複数のラベルを用いることにより、前記表現のタイプを推定することであって、前記複数の部分文字列の前記それぞれは前記表現として選択される、推定することをさらに含む、請求項２に記載の方法。
前記１つ又は複数の画像の特徴に基づいて、前記各部分文字列についての前記画像セット内の前記１つ又は複数の画像を１つ又は複数のグループにグループ化することと、
前記各部分文字列について取得された前記１つ又は複数のグループの数をカウントすることであって、前記各部分文字列についてカウントされた前記１つ又は複数のグループの前記数は、前記各分文字列についての前記偏差を計算するために用いられる、カウントすることと、
をさらに含む、請求項１に記載の方法。
前記各部分文字列についての前記偏差が小さくなるにつれてスコアが大きくなるように、前記複数の部分文字列をスコア付けすることをさらに含む、請求項１に記載の方法。
前記複数の部分文字列から、より大きいスコアを有する１つ又は複数のより長い部分文字列を選択することをさらに含む、請求項７に記載の方法。
前記各部分文字列についての検索結果の数と、前記各部分文字列についての前記各画像内に含まれる前記各部分文字列についての各画像と関連したページのタイトルとを取得することと、
前記各部分文字列についての前記偏差に加えて、前記検索結果の数及び前記各画像と関連した前記ページの前記タイトルとを用いて、前記スコアを調整することと、
をさらに含む、請求項７に記載の方法。
集合体内の文の各文について、前記読み取ること、前記取得すること、前記計算すること、及び前記選択することを実行することと、
前記集合体内の前記文から抽出された表現を用いることにより、辞書を構築することと、
をさらに含む、請求項１に記載の方法。
自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、そこに具体化されたプログラム・コードを有するコンピュータ可読ストレージ媒体を含み、前記プログラム・コードは、
テキストを読み取り、複数の部分文字列を生成することであって、各部分文字列は前記テキスト内に現れる１つ又は複数のユニットを含む、読み取ることと、
画像検索システムのクエリとして前記１つ又は複数のユニットを用いて、１つ又は複数の画像を含む、前記各部分文字列についての画像セットを取得することと、
前記各部分文字列についての前記画像セットの偏差を計算することと、
前記偏差及び各部分文字列の長さに基づいて、抽出される表現として前記複数の部分文字列のそれぞれを選択することと、
を行わせるように実行可能である、コンピュータ・プログラム製品。
前記画像セット内の前記１つ又は複数の画像についてのオブジェクト認識の結果に基づいて、前記各部分文字列についての１つ又は複数のラベルを取得することと、
前記各部分文字列について取得された前記１つ又は複数のラベルにおける異なるラベルの数を計算することと、
前記各部分文字列について取得された前記１つ又は複数のラベルにおけるラベル分布のバイアスを計算することと、
前記各部分文字列についての前記画像セット内の前記１つ又は複数の画像の数をカウントすることと、
前記各部分文字列の前記それぞれについて取得された前記１つ又は複数のラベルを用いることにより、前記表現のタイプを推定することであって、前記複数の部分文字列の前記それぞれは前記表現として選択される、推定することと、
を行わせるように実行可能な前記プログラム・コードをさらに含み、
前記異なるラベルの前記数、前記ラベル分布のバイアス、及び前記１つ又は複数の画像の前記数は、前記各部分文字列についての前記画像セットの前記偏差を計算するために用いられる、請求項１１に記載のコンピュータ・プログラム製品。
前記１つ又は複数の画像の特徴に基づいて、前記各部分文字列についての前記画像セット内の前記１つ又は複数の画像を１つ又は複数のグループにグループ化することと、
前記各部分文字列について取得された前記１つ又は複数のグループの数をカウントすることであって、前記各部分文字列についてカウントされた前記１つ又は複数のグループの前記数は、前記各部分文字列についての前記偏差を計算するために用いられる、カウントすることと、
を行わせるように実行可能な前記プログラム・コードをさらに含む、請求項１１に記載のコンピュータ・プログラム製品。
前記各部分文字列についての前記偏差が小さくなるにつれてスコアが大きくなるように、前記複数の部分文字列をスコア付けすることと、
前記各部分文字列についての検索結果の数、前記各部分文字列についての前記各画像内に含まれる前記各部分文字列についての各画像と関連したページのタイトルを取得することと、
前記検索結果の数及び前記各画像と関連した前記ページの前記タイトルを用いて、前記各部分文字列についての前記偏差に加えて前記スコアを調整することと、
前記複数の部分文字列からより大きいスコアを有する１つ又は複数のより長い部分文字列を選択することと、
を行わせるように実行可能な前記プログラム・コードをさらに含む、請求項１１に記載のコンピュータ・プログラム製品。
文の集合体から抽出された表現を用いることにより、辞書を構築することを行わせるように実行可能な前記プログラム・コードをさらに含む、請求項１１に記載のコンピュータ・プログラム製品。
自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ・システムであって、前記コンピュータ・システムは、
１つ又は複数のプロセッサと、１つ又は複数のコンピュータ可読有形ストレージ・デバイスと、前記１つ又は複数のプロセッサの少なくとも１つにより実行される、前記１つ又は複数のコンピュータ可読有形ストレージ・デバイスの少なくとも１つに格納されるプログラム命令とを含み、前記プログラム命令は、
テキストを読み取り、複数の部分文字列を生成することであって、各部分文字列は前記テキスト内に現れる１つ又は複数のユニットを含む、読み取ることと、
画像検索システムのクエリとして前記１つ又は複数のユニットを用いて、１つ又は複数の画像を含む、前記各部分文字列についての画像セットを取得することと、
前記各部分文字列についての前記画像セットの偏差を計算することと、
前記偏差及び各部分文字列の長さに基づいて、抽出される表現として前記複数の部分文字列のそれぞれを選択することと、
を行わせるように実行可能である、コンピュータ・システム。
前記画像セット内の前記１つ又は複数の画像についてのオブジェクト認識の結果に基づいて、前記各部分文字列についての１つ又は複数のラベルを取得することと、
前記各部分文字列について取得された前記１つ又は複数のラベルにおける異なるラベルの数を計算することと、
前記各部分文字列について取得された前記１つ又は複数のラベルにおけるラベル分布のバイアスを計算することと、
前記各部分文字列についての前記画像セット内の前記１つ又は複数の画像の数をカウントすることと、
前記各部分文字列の前記それぞれについて取得された前記１つ又は複数のラベルを用いることにより、前記表現のタイプを推定することであって、前記複数の部分文字列の前記それぞれは前記表現として選択される、推定することと、
を行わせるように実行可能な前記プログラム命令をさらに含み、
前記異なるラベルの数、前記ラベル分布のバイアス、及び前記１つ又は複数の画像の数は、前記各部分文字列についての前記画像セットの前記偏差を計算するために用いられる、請求項１６に記載のコンピュータ・システム。
前記１つ又は複数の画像の特定に基づいて、前記各部分文字列についての前記画像セット内の前記１つ又は複数の画像を１つ又は複数のグループにグループ化することと、
前記各部分文字列について取得された前記１つ又は複数のグループの数をカウントすることであって、前記各部分文字列についてカウントされた前記１つ又は複数のグループの前記数は、前記各分文字列についての前記偏差を計算するために用いられる、カウントすることと、
を行わせるように実行可能な前記プログラム命令をさらに含む、請求項１６に記載のコンピュータ・システム。
前記各部分文字列についての前記偏差が小さくなるにつれてスコアが大きくなるように、前記複数の部分文字列をスコア付けすることと、
前記各部分文字列についての検索結果の数、前記各部分文字列についての前記各画像内に含まれる前記各部分文字列についての各画像と関連したページのタイトルを取得することと、
前記検索結果の数及び前記各画像と関連した前記ページの前記タイトルを用いて、前記各部分文字列についての前記偏差に加えて前記スコアを調整することと、
前記複数の部分文字列からより大きいスコアを有する１つ又は複数のより長い部分文字列を選択することと、
を行わせるように実行可能な前記プログラム命令をさらに含む、請求項１６に記載のコンピュータ・システム。
文の集合体から抽出された表現を用いることにより、辞書を構築することを行わせるように実行可能な前記プログラム命令をさらに含む、請求項１６に記載のコンピュータ・システム。