JP2021501387A - 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム - Google Patents

自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム Download PDF

Info

Publication number
JP2021501387A
JP2021501387A JP2020514181A JP2020514181A JP2021501387A JP 2021501387 A JP2021501387 A JP 2021501387A JP 2020514181 A JP2020514181 A JP 2020514181A JP 2020514181 A JP2020514181 A JP 2020514181A JP 2021501387 A JP2021501387 A JP 2021501387A
Authority
JP
Japan
Prior art keywords
substring
image
substrings
deviation
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020514181A
Other languages
English (en)
Inventor
雅康 村岡
雅康 村岡
哲哉 那須川
哲哉 那須川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021501387A publication Critical patent/JP2021501387A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ実施方法、コンピュータ・プログラム、及びコンピュータ・システムを提供する。【解決手段】 コンピュータ・システムは、テキストを読み取り、複数の部分文字列を生成し、各部分文字列はテキスト内に現れるユニットを含む。コンピュータ・システムは、画像検索システムのクエリとして1つ又は複数のユニットを用いて、各部分文字列についての画像セットを取得し、画像セットは、1つ又は複数の画像を含む。コンピュータ・システムは、各文字列についての画像セットの偏差を計算する。コンピュータ・システムは、偏差及び各部分文字列の長さに基づいて、抽出される表現として複数の部分文字列のそれぞれを選択する。【選択図】 図8

Description

本発明は、一般に、情報抽出に関し、より特定的には、自然言語処理のためにテキスト内の表現を抽出するための技術に関する。
固有表現認識(Named entity recognition、NER)は、テキスト内の、人、場所、組織、又は製品のような固有表現を識別するためのプロセスである。NERは、その性能及び適用に関してテキスト・マイニングのような自然言語処理の役割を果たす。固有表現は、辞書に登録されていない文字列を含むことが多い。特に、登録された要素と登録されていない要素から構成される複合語は、後の自然言語処理において誤りを引き起こすことが多い。
新しい固有表現は次から次へと生まれるので、NERシステムのための固有表現の包括的又は網羅的リストを準備するのは困難である。固有表現は、なじみのない分野又は言語に見出され得る、個人、組織、製品名、専門用語、又は外来語であることが多い。文中に現れるそうした固有表現を認識することは、後の自然言語処理の精度の改善及びその適用領域の拡張に役立つ。一般に、固有表現は、単語の前後の文脈及び品詞の連なりなどの言語的情報を利用することにより、テキストから抽出され得る。
固有表現認識に関連して、特許文献1は、ウェブページにおいて固有表現のインスタンスを検出し、固有表現を組織又は他の所定のクラスであるとして分類するための固有表現抽出システムを開示する。この技術において、多言語文書コーパスからの異なる言語のテキストには、コーパス内の文書間のリンクを用いることにより固有表現クラスを示すラベルが付けられる。次に、対訳文(parallel sentence)からのテキストに、固有表現クラスを示すラベルが、自動的に付けられる。対訳文は、異なる言語における同じ意味論的意味を有する文の対である。ラベル付きテキストは、複数の異なる言語において、固有表現クラス・ラベルを伴うテキストにラベルを付けるよう、機械学習コンポーネントを訓練するために使用される。しかしながら、特許文献1に開示される技術においては、固有表現認識システムの機械学習コンポーネントを訓練するためのデータ・ソースは、多言語又は単一言語コーパス及び対訳文などの言語情報に限定される。
米国特許出願公開第2015/0286629号明細書
自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ実施方法、コンピュータ・プログラム、及びコンピュータ・システムを提供する。
1つの態様において、自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ実施方法が提供される。コンピュータ実施方法は、テキストを読み取り、複数の部分文字列(substring)を生成することを含み、各部分文字列はテキスト内に現れる1つ又は複数のユニットを含む。コンピュータ実施方法は、画像検索システムのクエリとして1つ又は複数のユニットを用いて、1つ又は複数の画像を含む、各部分文字列についての画像セットを取得することをさらに含む。コンピュータ実施方法は、各部分文字列についての画像セットの偏差を計算することをさらに含む。コンピュータ実施方法は、偏差及び各部分文字列の長さに基づいて、抽出される表現として複数の部分文字列のそれぞれを選択することをさらに含む。
別の態様において、自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、そこに具体化されたプログラム・コードを有するコンピュータ可読ストレージ媒体を含む。プログラム・コードは、テキストを読み取り、複数の部分文字列を生成するように実行可能であり、各部分文字列はテキスト内に現れる1つ又は複数のユニットを含む。プログラム・コードはさらに、画像検索システムのクエリとして1つ又は複数のユニットを用いて、1つ又は複数の画像を含む、各部分文字列についての画像セットを取得するように実行可能である。プログラム・コードはさらに、各部分文字列についての画像セットの偏差を計算するように実行可能である。プログラム・コードはさらに、偏差及び各部分文字列の長さに基づいて、抽出される表現として複数の部分文字列のそれぞれを選択するように実行可能である。
更に別の態様において、自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ・システムが提供される。コンピュータ・システムは、1つ又は複数のプロセッサと、1つ又は複数のコンピュータ可読有形ストレージ・デバイスと、1つ又は複数のプロセッサの少なくとも1つにより実行される、1つ又は複数のコンピュータ可読有形ストレージ・デバイスの少なくとも1つに格納されるプログラム命令とを含む。プログラム命令は、テキストを読み取り、複数の部分文字列を生成するように実行可能であり、各々がテキスト内に現れる1つ又は複数のユニットを含む画像検索システムのクエリとして1つ又は複数のユニットを用いて、1つ又は複数の画像を含む、各部分文字列についての画像セットを取得することと、各部分文字列についての画像セットの偏差を計算することと、偏差及び各部分文字列の長さに基づいて、抽出される表現として複数の部分文字列の各々を選択することと、を行わせるように実行可能である。
本発明の実施形態の1つの実施形態による、固有表現辞書のためのシステムのブロック図を示す。 本発明の実施形態の1つの実施形態による、図1に示されるシステム内の文から部分文字列を生成する例の模式図である。 本発明の実施形態の1つの実施形態による、図1に示されるシステム内の各部分文字列についてのオブジェクト・ラベルを取得する方法の模式図である。 本発明の実施形態の1つの実施形態による、図1に示されるシステム内の各部分文字列についてのグループを取得する例の模式図である。 本発明の実施形態の1つの実施形態による、図1に示されるシステムにおける固有表現として複数の候補文字列から1つ又は複数の文字列を選択する例の模式図である。 本発明の実施形態の1つの実施形態による、図1に示されるシステムにおける固有表現として複数の候補文字列から1つ又は複数の文字列を選択する別の例の模式図である。 本発明の1つの実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスを示すフローチャートである。 本発明の別の実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスを示すフローチャートである。 本発明の1つの実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスにより認識される例を示す。 本発明の1つの実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスにより認識される例を示す。 本発明の1つの実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスにより認識される例を示す。 本発明の1つの実施形態による、オブジェクト認識技術を用いる画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスにより認識される例を示す。 本発明の1つの実施形態による、固有表現認識を実施するためのコンピュータ・システムのコンポーネントを示す図である。
ここで、本発明が特定の実施形態を用いて説明され、以下に説明される実施形態は、単に例として言及されるものであり、本発明の範囲を限定することを意図するものではない。
本発明の実施形態は、自然言語で書かれたテキストから固有表現を抽出/認識するためのコンピュータ実施方法、コンピュータ・システム、及びコンピュータ・プログラムに向けられる。
固有表現認識(NER)は、自然言語で書かれたテキストから固有表現を抽出するためのプロセスであり、固有表現は、人、場所、組織、製品等のような実世界オブジェクトであり得る。図1〜図12を参照して、本発明の1つ又は複数の実施形態による、自然言語で書かれたテキストから固有表現を抽出/認識するためのコンピュータ・システム及びプロセスが示される。
図1〜図6は、本発明の1つの実施形態による、固有表現辞書を作成するためのコンピュータ・システムを説明する。コンピュータ・システムにおいては、固有表現は、画像分析技術により画像情報を利用することによって、種々の自然言語で書かれたテキストの集合体から抽出され、固有表現辞書を構築する。図7は、本発明の1つの実施形態による、オブジェクト認識技術により画像情報を利用することによって自然言語で書かれたテキストから固有表現を抽出するための方法を説明する。図8は、本発明の別の実施形態による、画像クラスタリング技術による画像情報を利用することによってテキストから固有表現を抽出するための方法を説明する。
図1は、本発明の1つの実施形態による、固有表現辞書を作成するためのシステム100のブロック図を示す。図1に示されるように、システム100は、テキストの集合体を格納するためのコーパス110と、テキストから固有表現を抽出/認識するための固有表現認識エンジン120と、所与のクエリと一致した1つ又は複数の画像を取り出すための画像検索システム130と、所与の画像内でキャプチャされたオブジェクトを分類するためのオブジェクト認識システム140と、所与の画像を幾つかのグループにクラスタリングするための画像クラスタリング・システム150と、固有表現認識エンジン120により認識された固有表現を格納するための辞書ストア160とを含むことができる。
コーパス110は、テキストの集合体を格納するデータベースとすることができ、英語、日本語、インドネシア語、フィンランド語、ブルガリア語、ヘブライ語、韓国語等を含む多種多様の言語で書かれた大量の文を含むことができる。コーパス110は、システム100内の内部コーパス、又は特定の組織又は個人により提供され得る外部コーパスとすることができる。
固有表現認識エンジン120は、画像検索システム130、オブジェクト認識システム140、及び/又は画像クラスタリング・システム150を含むシステムと協働して、固有表現認識/抽出機能を達成するように構成される。固有表現認識の各段階において、固有表現認識エンジン120は、システム130、140、及び/又は150の各々にクエリを発行することができる。
画像検索システム130は、所与のクエリと一致した1つ又は複数の画像を取り出すように構成される。画像検索システム130は、世界規模のコンピュータ・ネットワーク(インターネット)にわたって配置される、又はソーシャル・ネットワーキング・サービスのような特定のサービスに蓄積される、膨大な画像の集合体のインデックスを格納することができる。画像検索システム130は、各画像と、各画像に関連したテキストから抽出されたキーワードとの間の関係を格納することができ、画像検索システム130のクエリは、文字列ベースのクエリとすることができる。
画像検索システム130は、固有表現認識エンジン120からクエリを受け取り、受け取ったクエリと一致した1つ又は複数の画像を取り出し、画像検索結果を固有表現認識エンジン120に戻すことができる。画像検索結果は、各画像の画像データ(サムネイル又はフル画像)、及び/又は各画像へのリンクを含むことができる。画像検索システム130は、システム100内の内部システムとすることができ、又は適切なアプリケーション・プログラミング・インターフェース(API)を通じて特定の組織又は個人により提供され得る外部サービスとすることができる。そうした外部サービスは、検索エンジン・サービス、ソーシャル・ネットワーキング・サービス等を含むことができる。
オブジェクト認識システム140は、所与のクエリの画像においてキャプチャされたオブジェクトを分類するように構成される。オブジェクト認識システム140は、固有表現認識エンジン120からクエリを受け取り、オブジェクト認識を実行してクエリの画像に適した1つ又は複数のオブジェクト・ラベルを識別し、オブジェクト認識結果を固有表現認識エンジン120に戻すことができる。
クエリは、画像の画像データ又は画像へのリンクを含むことができる。オブジェクト認識結果は、クエリの画像について識別された1つ又は複数のオブジェクト・ラベルを含むことができる。各オブジェクト・ラベルは、一般名(例えば、人、猫、自動車等)、及び/又はクエリの画像においてキャプチャされた実世界オブジェクト(例えば、ヒト、動物、機械等)の属性(例えば、年齢、性別、感情、虎斑状パターン、塗装色等)を示し得る。
画像においてキャプチャされたオブジェクトを所与のカテゴリに分類するプロセスであるオブジェクト認識は、特徴ベース、勾配ベース、派生ベース、及びテンプレート・マッチング・ベースの手法を含む、あらゆる既知のオブジェクト認識/検出技術を用いることにより、実行され得る。オブジェクト認識システム140は、システム100内の内部システムとすることができ、又は適切なAPIを通じて特定の組織又は個人により提供され得る外部サービスとすることもできる。
画像クラスタリング・システム150は、所与の画像を幾つかのグループ(又は、クラスタ)にグループ化するように構成される。画像クラスタリング・システム150は、固有表現認識エンジン120からクエリを受け取り、クエリの所与の画像に対して画像クラスタリングを行い、クラスタリング結果を固有表現認識エンジン120に戻すことができる。クエリは、画像の画像データ又は画像へのリンクを含むことができる。クラスタリング結果は、クラスタリングの結果としてのグループ構成(group composition)を含むことができる。画像クラスタリングは、少なくとも部分的に、特徴ベクトルに基づくことができ、特徴ベクトルの各々は、各画像から特徴抽出器により抽出され得る。
凝集型階層的クラスタリング(群平均法(group average method)を含む)及び非階層的クラスタリング(例えば、k平均法(k-means)、kメドイド法(k-medoids)、x平均法(x-means)等)などの任意の既知のクラスタリング・アルゴリズムを画像の特徴ベクトルに適用することができる。パラメータとして一定数のクラスタを有する、k平均法のようなアルゴリズムが用いられる場合、エルボー法(elbow method)、シルエット法(silhouette method)等に用いられるいずれかの既知の基準を用いることにより、適切な数のクラスタを求めることができる。また、画像クラスタリング・システム150は、システム100内の内部システムとすることができ、又は適切なAPIを通じて特定の組織又は個人により提供され得る外部サービスとすることもできる。
辞書ストア160は、固有表現認識エンジン120により認識された固有表現を保持する固有表現辞書を格納するように構成される。辞書ストア160は、固有表現認識エンジン120がアクセスできる、いずれかの内部又は外部ストレージ・デバイス若しくは媒体を用いることにより、提供され得る。
固有表現認識エンジン120は、テキスト内の固有表現を認識するために、システム130、140及び/又は150を用いることにより、新規な固有表現認識プロセスを実行する。固有表現認識プロセスのターゲットは、人、場所、組織、製品等のような適切な名前を有する任意の実世界オブジェクトを含むことができる。実施形態において、ターゲットは、いわゆる未知の語も含み得る。
図1において、固有表現認識エンジン120のより詳細なブロック図が示される。図1に示されるように、固有表現認識エンジン120は、固有表現についての候補文字列として、所与のテキストから複数の部分文字列を生成するための部分文字列生成モジュール122と、各候補文字列についての画像の偏差を計算するための画像偏差計算モジュール124と、抽出される固有表現として複数の候補文字列の中から1つ又は複数の文字列を選択するための固有表現選択モジュール126とを含む。
部分文字列生成モジュール122は、固有表現に対する候補文字列として複数の部分文字列を生成するために、コーパス110内に格納されたテキストを最初から1つずつ読み取るように構成される。部分文字列生成モジュール122により読み取られたテキストは、既知のものであることも又は未知のものであることもある、特定の自然言語で書かれた文とすることができる。文中に現れる単一のユニット、及び文中に現れる連続するユニットの組み合わせを列挙することにより、複数の部分文字列が生成され得る。従って、各部分文字列は、文中に現れる1つ又は複数の連続するユニットから構成され得る。ユニットは、英語で書かれた文のように文中に語分割記号(word divider)がある場合は単語であり、又は日本語で書かれた文のように、文中に語分割記号がない場合は文字であることに留意されたい。また、ユニットは、韓国語で書かれた文のように、文中に語分割記号はあるが、個別の様式に従って語分割記号を与える方法に関してあいまいさが存在する場合は文字である。部分文字列生成モジュール122により生成される複数の部分文字列は、文中に現れる単語又は文字のセットのべき集合の少なくとも部分を含む。
図2は、本発明の1つの実施形態による、図1に示されるシステムにおける文から部分文字列を生成する例の模式図である。図2において、例示的な文から部分文字列を生成する方法が説明される。図2の例は、インドネシア語で書かれた文を示す。例示的な文“tukang sapu membersihkan jalan”は、スペースで区切られた4つの連続する単語を含む。従って、文の文字列は、文中に現れる4つの単語のセットで構成され、単語のセットのべき集合は、少なくとも10個の部分文字列、すなわち、単一の単語を4つ、スペースを有して連続する2つの単語からなる連結文字列を3つ、スペースを有して連続する3つの単語からなる連結文字列を2つ、及びスペースを有して連続する4つの単語からなる連続文字列を1つ、含み得る。ヌル文字列及び離れた語の連結文字列(例えば、“tukang jalan”)もべき集合の中に存在することに留意されたい。しかしながら、特定の実施形態において、余分な処理を回避するために、ヌル文字列、及び離れた語の連結文字列は、候補文字列から除外され得る。この例では、例示的な文から、部分文字列生成モジュール122により、10個の部分文字列が、固有表現に対する候補文字列として生成される。
特定の実施形態において、部分文字列の長さ(ユニットの数)は、適切な最大値に制限され得ることに留意されたい。他の実施形態において、長さの昇順で部分文字列を処理することにより、他のシステムからの応答がない場合、部分文字列の長さが制限され得る。
再び図1を参照すると、画像偏差計算モジュール124は、画像検索システム130から、各候補文字列(部分文字列)に関連する1つ又は複数の画像を含む画像セットを取得するように構成される。画像セットは、画像検索システム130のクエリとして各候補文字列内の1又は複数の単語又は文字を用いることにより取得され得る。例示的実施形態において、各候補文字列内の全ての単語又は文字が、画像検索システム130のクエリとして用いられる。画像検索システムのクエリを作成するために、検索演算子の付加(例えば、候補文字列を二重引用符で囲む、記号により複数の単語を連結する)といった候補文字列の修正、大文字化、及び単数形と複数形との間の変換も考えることができる。特定の実施形態において、クエリは、候補文字列との完全一致を要求し得る。他の特定の実施形態において、クエリは、候補文字列との部分一致を許容し得る。
画像偏差計算モジュール124は、オブジェクト認識システム140及び/又は画像クラスタリング・システム150から、各候補文字列についての1つ又は複数の画像に関する分析結果を取得するようにも構成される。分析結果は、オブジェクト認識システム140及び/又は画像クラスタリング・システム150のクエリとして、各候補文字列について少なくとも部分的に取得された1つ又は複数の画像を用いることにより、取得され得る。画像偏差計算モジュール124は、候補文字列について取得された分析結果に少なくとも部分的に基づいて、各候補文字列についての画像セットの偏差を計算するようにさらに構成される。各部分文字列についての偏差は、画像のばらつき及び/又は画像セット内の画像のバイアスの尺度である。
オブジェクト認識システム140から取得された分析結果は、画像セット内の各画像について認識された1つ又は複数のオブジェクト・ラベルを含み得る。画像セット内の各画像について認識されたオブジェクト・ラベルは、各候補文字列について集約される。各候補文字列について取得されたオブジェクト・ラベルは、各候補文字列についての偏差を計算するために用いることができる。オブジェクト認識システム140を用いる場合、画像偏差計算モジュール124は、固有表現として選択された候補文字列について取得された1つ又は複数のオブジェクト・ラベルを用いることにより、固有表現のタイプ(例えば、人、建物、都市等)を推定することができる。
図3は、本発明の1つの実施形態による、図1に示されるシステムにおける各部分文字列についてのオブジェクト・ラベルを取得する例の模式図である。図3において、各部分文字列についてのオブジェクト・ラベルを取得する方法が説明される。図3において、2つの部分文字列“tukang sapu”及び“membersihkan jalan”についての模式的な例が代表的に示される。図3に示されるように、2つの部分文字列の各々について取り出された幾つかの画像(画像01乃至画像05及び画像06乃至画像10)がある。また、各部分文字列について、複数のオブジェクト・ラベル及びその頻度が与えられる。
実施形態において、偏差を計算するために、画像偏差計算モジュール124は、各候補文字列について、画像セット内に存在する画像(EI)の数をカウントすることができる。画像偏差計算モジュール124はさらに、各候補文字列について、異なるオブジェクト・ラベル(DOL)の数、及びオブジェクト・ラベルにおけるオブジェクト・ラベル分布のバイアス(BOL)を計算することができる。各候補文字列についての偏差を計算するために、各候補文字列について、存在する画像(EI)の数、異なるオブジェクト・ラベル(DOL)の数、及び/又はオブジェクト・ラベル分布のバイアス(BOL)を少なくとも部分的に用いることができる。
部分文字列が長すぎるか、又は意味をなさない場合、部分文字列について、画像が取り出されないか、又は僅かな画像しか取り出されない。従って、存在する画像(EI)の数は、各候補文字列についての画像セットの偏差の良い尺度であり得る。特定の実施形態において、偏差の計算に用いられる画像の数は、適切な最大値により限定され得る。従って、存在する画像(EI)の数は、所与の最大値で飽和し得る。
部分文字列が特定の概念を表す場合、画像セットの複数の画像内に同じオブジェクトを有する傾向がある。従って、異なるオブジェクト・ラベル(DOL)の数は、各候補文字列について画像セット内の偏差の良い尺度であり得る。さらに、2つの部分文字列の各々について取得された複数のオブジェクト・ラベルがある場合、より大きいバイアスを有する部分文字列が、概念をより良く表していると考えることができる。例えば、2つの部分文字列の両方について、2つのラベル(“人”及び“像”)が取得されるが、ラベル分布が異なり、例えば、第1の部分文字列については4つの“人”ラベル及び1つの“像”ラベルがあり、第2の部分文字列については3つの“人”ラベル及び2つの“像”ラベルがあると仮定する。この例において、より大きいバイアス(4つの“人”ラベル及び1つの“像”ラベル)を有する第1の部分文字列は、より小さいバイアス(3つの“人”ラベル及び2つの“像”ラベル)を有する第2の部分文字列よりも適切であると考えることができる。従って、オブジェクト・ラベル分布のバイアス(BOL)は、各候補文字列についての画像の偏差の良い尺度であり得る。バイアスは、以下のようにオブジェクト・ラベルのセットについての負のエントロピーとして計算され得ることに留意されたい。
Figure 2021501387
ここで、pは、ラベルi(i=1,...,n)の出現確率を示す。
偏差のスコアは、以下の関数(1)として表すことができる:
偏差スコア=f(EI,DOL,BOL,[LS])(1)
ここで、LSは、単語の数によりカウントされる部分文字列の長さを表し、角括弧は、変数が随意的であることを示す。
偏差のスコアが大きいほど、候補文字列が1つの概念をより良く表すことに留意されたい。特定の実施形態において、スコアは以下のように変化する。存在する画像(EI)の数が大きくなるにつれて、スコアはより大きくなる。異なるオブジェクト・ラベル(DOL)の数が小さくなるにつれて、スコアはより大きくなる。オブジェクト・ラベル分布のバイアス(BOL)が大きくなるにつれて、スコアはより大きくなる。部分文字列の長さ(LS)が大きくなるにつれて、スコアはより大きくなる。
再び図1を参照すると、画像クラスタリング・システム150から取得された分析結果は、画像クラスタリングに基づいて、画像セット内の所与の画像から区分化されたグループ構成を含むことができる。画像クラスタリング・システム150を用いる場合、画像偏差計算モジュール124は、各部分文字列をクラスタ化した後、グループの数をカウントすることができる。各部分文字列についての偏差を計算するために、各部分文字列についてカウントされたグループの数が、少なくとも部分的に用いられ得る。
図4は、本発明の1つの実施形態による、図1に示されるシステムにおける各部分文字列についてのグループを取得する例の模式図である。図4において、各部分文字列についてのグループを取得する方法が説明される。図4において、2つの模式的な部分文字列“部分文字列1”及び“部分文字列2”の例が代表的に示される。図4に示されるように、“部分文字列1”の画像セット内の画像は、特徴空間内の3つのグループに区分化される。他方、“部分文字列2”の画像セット内の画像は、2つのグループに区分化される。部分文字列が特定の概念を表す場合、画像セット内の複数の画像内に類似した特徴を有する傾向がある。従って、クラスタリング後のグループの数は、画像セットの偏差の良い尺度であり得る。グループの数が少ないほど、部分文字列は、1つの概念をよりよく表す。
再び図1を参照すると、固有表現選択モジュール126は、偏差及び各候補文字列の長さを少なくとも部分的に用いることにより、固有表現として複数の候補文字列から1つの文字列を選択するように構成される。概念を表す固有表現として考えられ得る文字列の選択は、所定の選択規則を用いることによって、行うことができる。
上述のように、複数の部分文字列は、各部分文字列についての偏差が小さくなるにつれて、スコアが大きくなるようにスコア付けされ得る。複数の部分文字列の中から、大きいスコア(最大スコア)を有するより長い(最長の)部分文字列を選択することができる。例えば、部分文字列“YORK”及び部分文字列“NEW YORK”が同じ又はほぼ同じスコアを有する場合、より短い部分文字列“YORK”ではなく、より長い部分文字列“NEW YORK”が、固有表現として選択される。これは文が複数の固有表現を有することを防止するものではないので、1つ又は複数の候補文字列が、所与の文について生成される複数の候補文字列から選択されることに留意されたい。
所定の選択規則に基づいて、複数の候補文字列から1つ又は複数の文字列を選択する幾つかの方法がある。
図5は、本発明の1つの実施形態による、図1に示されるシステムにおける固有表現として、複数の候補文字列から1つ又は複数の文字列を選択する例の模式図である。図5は、固有表現として複数の候補文字列から1つ又は複数の文字列を選択する方法を説明する。図5に示されるように、無向グラフ210は、複数のノード212と、各々がノード212の対と関連付けられた1つ又は複数のエッジ214とを含み、各ノード212は、入力文200から取得された部分文字列を表し、各エッジ214は、入力文200における部分文字列212の間の隣接部(adjacency)を表し、ノード212は、それぞれ入力文200の開始及び終了を表す開始ノード212S及び終了ノード212Eを含む。偏差スコアの和を最大にする経路216が、各ノードの重みとして部分文字列についての各偏差スコア(その各々が部分文字列の長さの関数であるスコア#1〜スコア#10)を用いながら、ビタビ・アルゴリズム(Viterbi algorithm)により取得される。経路216を構成する一連の部分文字列が、固有表現として選択される。特定の実施形態において、所定の選択規則は、入力文200からセグメント化され、複数の候補文字列の中から偏差スコアの和を最大にする規則であり得る。
図6は、本発明の1つの実施形態による、図1に示されるシステムにおける固有表現として複数の候補文字列から1つ又は複数の文字列を選択する別の例の模式図である。図6は、固有表現として複数の候補文字列から1つ又は複数の文字列を選択する別の方法を説明する。図6に示されるように、その各々が偏差スコアを有する、入力文220から取得された部分文字列のリストが、偏差スコアにより降順にソートされる。同じ偏差スコアを有する複数の部分文字列があった場合、長さがより長いものが最初にくるように、リストがソートされることに留意されたい。リストの上部から部分文字列が選び出されると、入力文220内の全ての単語/文字をカバーし、互いに重複しない部分文字列222a〜222cのセットが抽出される。図6に示される例において、“tukang”、“sapu”、“tukang sapu membersihkan”、及び“jalan”は、これらの部分文字列が、既に選び出された部分文字列“tukang sapu”及び“macet jalan”と重複するので、スキップされる。従って、この特定の実施形態において、所定の選択規則は、入力文からセグメント化され、複数の候補文字列の中からスコアの降順で選び出された1つ又は複数の文字列を選択するという規則であり得る。
選択規則は、上述の特定の例に限定されない。他の実施形態においては、所定の規則は、各々が、所定の閾値を上回る偏差スコアを有する1つ又は複数の文字列、又は上位N個のスコア内の1つ又は複数の文字列を単に選択するというものである。
実施形態において、固有表現認識の精度を改善するために、各部分文字列について取得された検索結果の数、各部分文字列について取得された各画像と関連したページのタイトル、及び各部分文字列について取得された各画像内に含まれる文字列のような他の情報を考慮に入れて、偏差に加えて各部分文字列についてのスコアを調整することができる。オブジェクト認識システム140は、OCR(光学式文字認識)技術に基づき各画像内に含まれるこうした文字列を提供することができる。
1つの実施形態において、スコアは、検索結果の数を評価する付加的な用語を上述の関数(1)に加えることにより、検索結果の数が大きくなるにつれて、大きくなるように構成される。別の実施形態において、所与のクエリと一致した画像の取り出す際、検索の範囲は、ページのタイトル内に候補部分文字列を有するページに限定されることがあり、そのことは、上述の関数(1)における存在する画像(EI)の数に影響を与え得る。さらに別の実施形態において、スコアは、同一の/類似の文字列を含む画像の数を評価する付加的な用語を上述の関数(1)に加えることにより、候補文字列と同一の/これと類似した文字列を有する画像の数が大きくなるにつれて、大きくなるように構成される。
コーパス110内に格納された集合体における各文に対して上述の処理を繰り返し実行することにより、固有表現認識エンジン120により認識される固有表現を用いて、固有表現辞書が構築される。
図1に示されるように、システム100は、固有表現認識エンジン120により構築された辞書を用いて自然言語処理を実行するための自然言語処理システム170をさらに含む。自然言語処理システム170により実行される自然言語処理は、テキスト・マイニング、多言語知識抽出等を含み得る。辞書ストア160内に格納される固有表現辞書内に多数の固有表現が登録されるので、自然言語処理の性能が改善され、自然言語処理の適用範囲が拡大する。
実施形態において、図1に説明されるコーパス110、固有表現認識エンジン120、画像検索システム130、オブジェクト認識システム140、画像クラスタリング・システム150、辞書ストア160、部分文字列生成モジュール122、画像偏差計算文字124、及び固有表現選択モジュール126は、プロセッサ、メモリ等、電子回路を含むハードウェア、又はその組み合わせのようなハードウェア・コンポーネントと共に、命令/データ構造を含むソフトウェア・モジュールとして実装されるが、それらに限定されない。図1に説明されるコーパス110、固有表現認識エンジン120、画像検索システム130、オブジェクト認識システム140、画像クラスタリング・システム150、辞書ストア160、部分文字列生成モジュール122、画像偏差計算モジュール124、及び固有表現選択モジュール126は、パーソナル・コンピュータ、サーバ・マシンのような単一のコンピュータ・システム上で、又はコンピュータ・クラスタのような複数のデバイスにわたり分散方式で実装され得る。
図7は、本発明の1つの実施形態による、オブジェクト認識によりテキストから固有表現を抽出するためのプロセスを示すフローチャートである。図7に示されるプロセスは、図1に示される固有表現認識エンジン120、すなわち固有表現認識を実施する処理ユニットにより実行され得ることに留意されたい。図7に示されるプロセスは、操作者からの文処理要求を受け取ることに応答して、ステップS100から開始する。
ステップS101において、処理ユニットは、入力文を先頭から1つずつ読み取り、各部分文字列が文内に現れる1つ又は複数のユニットを含むように、固有表現についての候補文字列として部分文字列のセットを生成する。部分文字列におけるユニットは、単語又は文字とすることができる。文内の単語又は文字のセットのべき集合の少なくとも部分が、部分文字列として使用され得る。ステップS102からS109までの処理は、ステップS101で生成された各部分文字列について繰り返し実行される。
ステップS103において、処理ユニットは、画像検索システム130にクエリを発行することによって、画像検索システム130から各部分文字列に関連する1つ又は複数の画像を含む画像セットを取得する。ステップS104において、処理ユニットは、各部分文字列について取得された画像セット内の存在する画像(EI)の数をカウントする。特定の実施形態において、存在する画像の数が制限され得ることに留意されたい。
ステップS105において、処理ユニットは、オブジェクト認識に基づいて各部分文字列の画像セットについての1つ又は複数のオブジェクト・ラベルを取得する。オブジェクト認識システム140から、分析結果が取得される。ステップS106において、処理ユニットは、各部分文字列について取得された異なるオブジェクト・ラベル(DOL)の数を計算する。ステップS107において、処理ユニットは、各部分文字列について取得されたオブジェクト・ラベル分布のバイアス(BOL)を計算する。
ステップS108において、処理ユニットは、ステップS104でカウントされた存在する画像(EI)の数、ステップS106で計算された異なるオブジェクト・ラベル(DOL)の数、及び/又はステップS107で計算されたオブジェクト・ラベル分布のバイアス(BOL)を少なくとも部分的に用いて、各文字列についての画像セットの偏差を計算する。偏差のスコアは、各部分文字列についての偏差が小さくなるにつれてスコアが大きくなるように、上述の式(1)により計算される。
ステップS101で生成された全ての部分文字列についてステップS102からステップS109までを繰り返し実行することにより、プロセスは、ステップS110に進むことができる。ステップS110において、処理ユニットは、偏差及び各部分文字列の長さを少なくとも部分的に用いて、固有表現としてステップS101で生成された複数の部分文字列から、1つの部分文字列を選択する。より具体的には、より大きいスコアを有する1つ又は複数のより長い部分文字列が、複数の部分文字列から固有表現として選択され得る。実施形態において、部分文字列は、入力文からセグメント化され、複数の候補文字列からの偏差スコアの和を最大にする1つ又は複数の文字列を選択する所定の規則に基づいて、複数の部分文字列から選択され得る。ステップS110において、固有表現のタイプは、部分文字列について取得された1つ又は複数のラベルを用いて推定することができる。さらに、実施形態においては、ステップS110において、処理ユニットは、各部分文字列についての検索結果の数、各部分文字列についての各画像と関連したページのタイトル、及び/又は各部分文字列についての各画像内の文字列を取得し、処理ユニットは、偏差に加えてこれらの情報を用いてスコアを調整する。
所与の集合体内の各文について図7に示されるプロセスを繰り返し実行することにより、固有表現辞書が構築される。
図8は、本発明の別の実施形態による、オブジェクト認識技術により画像情報を利用することによって、テキストから固有表現を抽出するためのプロセスを示すフローチャートである。図8に示されるプロセスは、図1に示される固有表現認識エンジン120、すなわち固有表現認識を実施する処理ユニットにより実行され得ることに留意されたい。図8に示されるプロセスは、図7に示される実施形態と同様に、操作者からの文処理要求を受け取ることに応答して、ステップS200から始まる。
ステップS201において、処理ユニットは、入力文を先頭から1つずつ読み取り、固有表現についての候補文字列として部分文字列のセットを生成する。図7に示されるプロセスと同様に、ステップS202からS206までの処理は、生成された各部分文字列について繰り返し実行される。
ステップS203において、処理ユニットは、図7に示されるプロセスと同様に、画像検索システム130にクエリを発行することにより、画像検索システム130から各部分文字列についての1つ又は複数の画像を含む画像セットを取得する。
ステップS204において、処理ユニットは、画像クラスタリングに基づいて各部分文字列についての画像セット内の画像を幾つかのグループにグループ化し、各部分文字列についてのグループの数をカウントする。画像クラスタリング・システム150から取得された分析結果は、画像セット内の所与の画像から区分化された複数の画像のグループを示すことができる。
ステップS205において、処理ユニットは、各部分文字列についてカウントされたグループの数に少なくとも部分的に基づいて、各部分文字列についての画像セットの偏差を計算する。ステップS201で生成された全ての部分文字列についてステップS202からS206までの処理を繰り返し実行することにより、プロセスはステップS207に進む。
ステップS207において、処理ユニットは、各部分文字列についての偏差及び長さを少なくとも部分的に用いて、固有表現として複数の部分文字列から1つの部分文字列を選択する。より具体的には、複数の部分文字列の中から、より大きいスコアを有する1つ又は複数の長い部分文字列が選択される。
所与の集合体内の各文について図8に示されるプロセスを繰り返し実行することにより、固有表現辞書が構築される。
実施形態によると、自然言語で書かれたテキストから固有表現を抽出/認識するためのコンピュータ実施方法、コンピュータ・システム、及びコンピュータ・プログラム製品が提供される。
実施形態によると、テキストがなじみのない言語で書かれていても、及び/又はなじみのない分野に属していても、文字列と関連した画像情報を利用することにより、テキストから、固有表現に対応する文字列を抽出することができる。画像情報は、実際に、言語表現を伴わない概念を表すことがあり、集団的知識として世界規模のコンピュータ・ネットワークにおけるテキストと関連付けられる。その結果、画像情報は、後の自然言語処理の精度を改善し、特に、なじみのない言語及び/又は分野で書かれたテキストのターゲットにされる適用領域を拡張するのに有用である。
例えば、文“I ATE A HAMBURGER IN NEW YORK”が与えられると仮定する。この例において、システムが“NEW”を概念として認識すれば、システムは、テキスト・マイニングのような後の適用において間違いを犯すであろう。この場合、システムは、“NEW YORK”を1つの概念として構文解析するのが好ましい。この例は明白であるが、本発明の実施形態によると、テキストの言語が既知であるか、又は未知であるかに関係なく、好ましくは、なじみのない言語及び/又はなじみのない分野においても固有表現に対応する文字列がテキストから抽出され得る。それは、品詞、意味等のような言語的背景知識を必要としない。なじみのない分野及び/又は言語において固有表現を認識すれば、後の自然言語処理を適用することによって、構造化されていないテキストから貴重な情報を取り出すことが可能になる。
上述の例示的実施形態において、固有表現認識は、テキスト内の表現を抽出するための新規な技術の例として説明された。しかしながら、他の実施形態において、新規な技術のターゲットは、固有表現に限定されない。本発明の他の実施形態による、写真、図、絵画等により表され得る特定の概念を表す、慣用句、複合動詞、複合名詞等を含むいずれかの特定の言語的表現を、テキスト内の表現を抽出するための新規な技術のターゲットとすることができる。
実証研究
本発明の実施形態による図7に示されるプロセスは、コード化され、幾つかの所与の文に対して実行された。インドネシア語、フィンランド語、ブルガリア語、及びヘブライ語で書かれた文が、固有表現認識エンジンのための入力テキストとして使用された。Google(商標)Custom Search API及びIBM(商標)Watson(商標)Visual Recognition APIが、それぞれ、画像検索システム及びオブジェクト認識システムとして使用された。各部分文字列についての画像セットの偏差は、上述の関数(1)により表される偏差スコアにより評価された。各々の所与の文から取得された部分文字列のリストは、偏差スコアにより降順でソートされた。各々の所与の文についてのリストの上部から部分文字列を選び出す間、所与の文内の全ての語/文字をカバーし、互いに重複しない部分文字列のセットが、固有表現のセットとして抽出された。各部分文字列に対して使用された画像の数は、5つに制限された。
図9〜図12は、本発明の1つの実施形態による、オブジェクト認識技術により画像情報を利用することにより、テキストから固有表現を抽出するためのプロセスによって認識される例を示す。図9に示される例は、インドネシア語で書かれた文である。図9に示されるように、インドネシア語の文は、3つの部分文字列にセグメント化され、その各々が、図9に示される対応するオブジェクト・ラベルを有していた。この例において、3つの部分文字列は、固有表現の候補として認識された。図10〜図12の例は、それぞれフィンランド語、ブルガリア語、及びヘブライ語で書かれた文であり、その各々が、入力文として使用された。図に示されるように、文は幾つかの部分文字列にセグメント化され、その各々は、図に示される対応するオブジェクト・ラベルを有していた。これらの部分文字列は、固有表現の候補として認識された。図9〜図12に示されるように、プロセスは、文についての言語的な背景知識なしに、インドネシア語、フィンランド語、ブルガリア語、及びヘブライ語を含む幾つかの自然言語で書かれた文における固有表現を識別できることが実証された。
図13は、本発明の1つの実施形態による、固有表現認識を実施するためのコンピュータ・システム10のコンポーネントを示す図である。コンピュータ・システム10は、固有表現認識エンジン120を実装するために用いられる。コンピュータ・システム10は、好適な処理デバイスの一例にすぎず、本明細書に記載される本発明の実施形態の使用範囲又は機能に関する何らかの制限を示唆することを意図するものではない。それにも関わらず、コンピュータ・システム10は、上述した機能のいずれかを実装及び/又は実行することができる。
コンピュータ・システム10は、多数の他の汎用又は専用コンピューティング・システム環境又は構成で動作する。コンピュータ・システム10と共に用いるのに好適であり得る周知のコンピューティング・システム、環境、及び/又は構成の例として、これらに限定されるものではないが、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、手持ち式又はラップトップ型デバイス、車載デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラム可能民生電子機器、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、及び、上述のシステム若しくはデバイスのいずれかを含む分散型クラウド・コンピューティング環境等が含まれる。
コンピュータ・システム10は、コンピュータ・システムによって実行される、プログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な文脈で説明することができる。一般に、プログラム・モジュールは、特定のタスクを実行する又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含み得る。
図13に示されるように、コンピュータ・システム10は、汎用コンピューティング・デバイスの形で示される。コンピュータ・システム10のコンポーネントは、これらに限定されるものではないが、プロセッサ(又は処理ユニット)12、メモリ・バスを含むバス若しくはメモリ・コントローラによりプロセッサ12に結合されたメモリ16、及び種々のバス・アーキテクチャのいずれかを用いるプロセッサ又はローカル・バスを含むことができる。
コンピュータ・システム10は、典型的には、種々のコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム10によりアクセス可能ないずれかの利用可能媒体とすることができ、揮発性媒体及び不揮発性媒体の両方と、取り外し可能媒体及び取り外し不能媒体の両方とを含む。
メモリ16は、ランダム・アクセス・メモリ(RAM)など、揮発性メモリの形のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム10は、他の取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータ・システム・ストレージ媒体をさらに含むことができる。単なる例として、ストレージ・システム18は、取り外し不能の不揮発性磁気媒体との間の読み出し及び書き込みのために提供され得る。以下でさらに示され説明されるように、ストレージ・システム18は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュールのセット(例えば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含むことができる。
限定ではなく、例として、プログラム・モジュールのセット(少なくとも1つ)を有するプログラム/ユーティリティがストレージ・システム18内に格納され得るが、オペレーティング・システム、1つ又は複数のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データも格納され得る。オペレーティング・システム、1つ又は複数のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データ、又はそれらの何らかの組み合わせは、ネットワーキング環境の実装形態を含むことができる。プログラム・モジュールは、通常、本明細書で記載される本発明の実施形態の機能及び/又は方法を実行する。
コンピュータ・システム10は、キーボード、ポインティング・デバイス、カーナビゲーション・システム、及び音声システム等のような1つ又は複数の周辺機器24;ディスプレイ26;ユーザがコンピュータ・システム10と対話することを可能にする1つ又は複数のデバイス;及び/又は、コンピュータ・システム10が1つ又は複数の他のコンピューティング・デバイスと通信することを可能にするいずれかのデバイス(例えば、ネットワーク・カード、モデム等)と通信することもできる。このような通信は、入力/出力(I/O)インターフェース22を経由して行うことができる。コンピュータ・システム10は、ネットワーク・アダプタ20を介して、ローカル・エリア・ネットワーク(LAN)、汎用広域ネットワーク(WAN)、及び/又はパブリック・ネットワーク(例えば、インターネット)などの1つ又は複数のネットワークと通信することもできる。示されるように、ネットワーク・アダプタ20は、バスを介して、コンピュータ・システム10の他のコンポーネントと通信する。図示されないが、コンピュータ・システム10と共に他のハードウェア及び/又はソフトウェア・コンポーネントが使用され得ることを理解されたい。例としては、これらに限定されるものではないが、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部のディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、及びデータ・アーカイブ・ストレージ・システムなどが含まれる。
本発明は、コンピュータ・システム、方法、及び/又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチカード若しくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスにダウンロードすることができ、又は、例えばインターネット、ローカル・エリア・ネットワーク(LAN)、広域ネットワーク(WAN)、及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体内に格納するためにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、又は、「C」プログラミング言語若しくは類似のプログラミング言語などの通常の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述することができるいずれかのソースコード若しくはオブジェクトコードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個別化することによりコンピュータ可読プログラム命令を実行し、本発明の態様を実施することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して説明される。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロック内で指定された機能/動作を実装するための手段を作り出すようにすることができる。これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、及び/又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、命令が内部に格納されたコンピュータ可読ストレージ媒体が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作の態様を実装する命令を含む製品を含むようにすることもできる。
コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実装プロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実装するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
本明細書で用いられる用語は、特定の実施形態を説明することのみを目的とし、本発明を限定することを意図したものではない。本明細書内で用いられる場合、単数形「1つの(a)」、「1つの(an)」及び「その(the)」は、文脈がそうでないことを明確に示していない限り、複数形も含むことを意図している。さらに、用語「含む(include)」、「含んでいる(including)」、「含む(comprise)」、及び/又は「含んでいる(comprising)」は、本開示で用いられる場合、記述された特徴、整数、ステップ、動作、要素、及び/又はコンポーネントの存在を指定するが、1つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネント、及び/又はその群の存在又は付加を除外するものではないことが理解されるであろう。
以下の特許請求の範囲に存在する場合、「手段又はステップと機能との組合せ(ミーンズ又はステップ・プラス・ファンクション)」要素の対応する構造、材料、動作及び均等物は、明確に特許請求された他の請求要素と共に機能を実行するための任意の構造、材料、又は行為を含むことを意図したものである。本発明の1つ又は複数の態様の説明は、例証及び説明のためだけに提示されたものであり、網羅的であること又は本発明を開示した形態に限定することを意図したものではない。
当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の用途、若しくは市場で見出される技術に優る技術的改善を最も良く説明するために、又は当業者が本明細書に開示される実施形態を理解するのを可能にするために、選択された。
100:システム
110:コーパス
120:固有表現認識エンジン
122:部分文字列生成モジュール
124:画像偏差計算モジュール
126:固有表現選択モジュール
130:画像検索システム
140:オブジェクト認識システム
150:画像クラスタリング・システム
160:辞書ストア
170:自然言語処理システム
200、220:入力文
212:ノード
214:エッジ
216:経路
222a〜222c:部分文字列

Claims (20)

  1. 自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ実施方法であって、前記方法は、
    テキストを読み取り、複数の部分文字列を生成することであって、各部分文字列は前記テキスト内に現れる1つ又は複数のユニットを含む、読み取ることと、
    画像検索システムのクエリとして前記1つ又は複数のユニットを用いて、1つ又は複数の画像を含む、前記各部分文字列についての画像セットを取得することと、
    前記各部分文字列についての前記画像セットの偏差を計算することと、
    前記偏差及び各部分文字列の長さに基づいて、抽出される表現として前記複数の部分文字列のそれぞれを選択することと、
    を含む、方法。
  2. 前記画像セット内の前記1つ又は複数の画像についてのオブジェクト認識の結果に基づいて、前記各部分文字列についての1つ又は複数のラベルを取得することと、
    前記各部分文字列について取得された前記1つ又は複数のラベルにおける異なるラベルの数を計算することと、
    をさらに含み、
    前記異なるラベルの前記数は、前記各部分文字列についての前記画像セットにおける前記偏差を計算するために用いられる、請求項1に記載の方法。
  3. 前記各部分文字列について取得された前記1つ又は複数のラベルにおけるラベル分布のバイアスを計算することをさらに含み、
    前記ラベル分布の前記バイアスは、前記各部分文字列についての前記画像セットの前記偏差を計算するために用いられる、
    請求項2に記載の方法。
  4. 前記各部分文字列についての前記画像セット内の前記1つ又は複数の画像の数をカウントすることをさらに含み、
    前記1つ又は複数の画像の前記数は、前記各部分文字列についての前記画像セットの前記偏差を計算するために用いられる、
    請求項2に記載の方法。
  5. 前記各部分文字列の前記それぞれについて取得された前記1つ又は複数のラベルを用いることにより、前記表現のタイプを推定することであって、前記複数の部分文字列の前記それぞれは前記表現として選択される、推定することをさらに含む、請求項2に記載の方法。
  6. 前記1つ又は複数の画像の特徴に基づいて、前記各部分文字列についての前記画像セット内の前記1つ又は複数の画像を1つ又は複数のグループにグループ化することと、
    前記各部分文字列について取得された前記1つ又は複数のグループの数をカウントすることであって、前記各部分文字列についてカウントされた前記1つ又は複数のグループの前記数は、前記各分文字列についての前記偏差を計算するために用いられる、カウントすることと、
    をさらに含む、請求項1に記載の方法。
  7. 前記各部分文字列についての前記偏差が小さくなるにつれてスコアが大きくなるように、前記複数の部分文字列をスコア付けすることをさらに含む、請求項1に記載の方法。
  8. 前記複数の部分文字列から、より大きいスコアを有する1つ又は複数のより長い部分文字列を選択することをさらに含む、請求項7に記載の方法。
  9. 前記各部分文字列についての検索結果の数と、前記各部分文字列についての前記各画像内に含まれる前記各部分文字列についての各画像と関連したページのタイトルとを取得することと、
    前記各部分文字列についての前記偏差に加えて、前記検索結果の数及び前記各画像と関連した前記ページの前記タイトルとを用いて、前記スコアを調整することと、
    をさらに含む、請求項7に記載の方法。
  10. 集合体内の文の各文について、前記読み取ること、前記取得すること、前記計算すること、及び前記選択することを実行することと、
    前記集合体内の前記文から抽出された表現を用いることにより、辞書を構築することと、
    をさらに含む、請求項1に記載の方法。
  11. 自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、そこに具体化されたプログラム・コードを有するコンピュータ可読ストレージ媒体を含み、前記プログラム・コードは、
    テキストを読み取り、複数の部分文字列を生成することであって、各部分文字列は前記テキスト内に現れる1つ又は複数のユニットを含む、読み取ることと、
    画像検索システムのクエリとして前記1つ又は複数のユニットを用いて、1つ又は複数の画像を含む、前記各部分文字列についての画像セットを取得することと、
    前記各部分文字列についての前記画像セットの偏差を計算することと、
    前記偏差及び各部分文字列の長さに基づいて、抽出される表現として前記複数の部分文字列のそれぞれを選択することと、
    を行わせるように実行可能である、コンピュータ・プログラム製品。
  12. 前記画像セット内の前記1つ又は複数の画像についてのオブジェクト認識の結果に基づいて、前記各部分文字列についての1つ又は複数のラベルを取得することと、
    前記各部分文字列について取得された前記1つ又は複数のラベルにおける異なるラベルの数を計算することと、
    前記各部分文字列について取得された前記1つ又は複数のラベルにおけるラベル分布のバイアスを計算することと、
    前記各部分文字列についての前記画像セット内の前記1つ又は複数の画像の数をカウントすることと、
    前記各部分文字列の前記それぞれについて取得された前記1つ又は複数のラベルを用いることにより、前記表現のタイプを推定することであって、前記複数の部分文字列の前記それぞれは前記表現として選択される、推定することと、
    を行わせるように実行可能な前記プログラム・コードをさらに含み、
    前記異なるラベルの前記数、前記ラベル分布のバイアス、及び前記1つ又は複数の画像の前記数は、前記各部分文字列についての前記画像セットの前記偏差を計算するために用いられる、請求項11に記載のコンピュータ・プログラム製品。
  13. 前記1つ又は複数の画像の特徴に基づいて、前記各部分文字列についての前記画像セット内の前記1つ又は複数の画像を1つ又は複数のグループにグループ化することと、
    前記各部分文字列について取得された前記1つ又は複数のグループの数をカウントすることであって、前記各部分文字列についてカウントされた前記1つ又は複数のグループの前記数は、前記各部分文字列についての前記偏差を計算するために用いられる、カウントすることと、
    を行わせるように実行可能な前記プログラム・コードをさらに含む、請求項11に記載のコンピュータ・プログラム製品。
  14. 前記各部分文字列についての前記偏差が小さくなるにつれてスコアが大きくなるように、前記複数の部分文字列をスコア付けすることと、
    前記各部分文字列についての検索結果の数、前記各部分文字列についての前記各画像内に含まれる前記各部分文字列についての各画像と関連したページのタイトルを取得することと、
    前記検索結果の数及び前記各画像と関連した前記ページの前記タイトルを用いて、前記各部分文字列についての前記偏差に加えて前記スコアを調整することと、
    前記複数の部分文字列からより大きいスコアを有する1つ又は複数のより長い部分文字列を選択することと、
    を行わせるように実行可能な前記プログラム・コードをさらに含む、請求項11に記載のコンピュータ・プログラム製品。
  15. 文の集合体から抽出された表現を用いることにより、辞書を構築することを行わせるように実行可能な前記プログラム・コードをさらに含む、請求項11に記載のコンピュータ・プログラム製品。
  16. 自然言語処理のためにテキスト内の表現を抽出するためのコンピュータ・システムであって、前記コンピュータ・システムは、
    1つ又は複数のプロセッサと、1つ又は複数のコンピュータ可読有形ストレージ・デバイスと、前記1つ又は複数のプロセッサの少なくとも1つにより実行される、前記1つ又は複数のコンピュータ可読有形ストレージ・デバイスの少なくとも1つに格納されるプログラム命令とを含み、前記プログラム命令は、
    テキストを読み取り、複数の部分文字列を生成することであって、各部分文字列は前記テキスト内に現れる1つ又は複数のユニットを含む、読み取ることと、
    画像検索システムのクエリとして前記1つ又は複数のユニットを用いて、1つ又は複数の画像を含む、前記各部分文字列についての画像セットを取得することと、
    前記各部分文字列についての前記画像セットの偏差を計算することと、
    前記偏差及び各部分文字列の長さに基づいて、抽出される表現として前記複数の部分文字列のそれぞれを選択することと、
    を行わせるように実行可能である、コンピュータ・システム。
  17. 前記画像セット内の前記1つ又は複数の画像についてのオブジェクト認識の結果に基づいて、前記各部分文字列についての1つ又は複数のラベルを取得することと、
    前記各部分文字列について取得された前記1つ又は複数のラベルにおける異なるラベルの数を計算することと、
    前記各部分文字列について取得された前記1つ又は複数のラベルにおけるラベル分布のバイアスを計算することと、
    前記各部分文字列についての前記画像セット内の前記1つ又は複数の画像の数をカウントすることと、
    前記各部分文字列の前記それぞれについて取得された前記1つ又は複数のラベルを用いることにより、前記表現のタイプを推定することであって、前記複数の部分文字列の前記それぞれは前記表現として選択される、推定することと、
    を行わせるように実行可能な前記プログラム命令をさらに含み、
    前記異なるラベルの数、前記ラベル分布のバイアス、及び前記1つ又は複数の画像の数は、前記各部分文字列についての前記画像セットの前記偏差を計算するために用いられる、請求項16に記載のコンピュータ・システム。
  18. 前記1つ又は複数の画像の特定に基づいて、前記各部分文字列についての前記画像セット内の前記1つ又は複数の画像を1つ又は複数のグループにグループ化することと、
    前記各部分文字列について取得された前記1つ又は複数のグループの数をカウントすることであって、前記各部分文字列についてカウントされた前記1つ又は複数のグループの前記数は、前記各分文字列についての前記偏差を計算するために用いられる、カウントすることと、
    を行わせるように実行可能な前記プログラム命令をさらに含む、請求項16に記載のコンピュータ・システム。
  19. 前記各部分文字列についての前記偏差が小さくなるにつれてスコアが大きくなるように、前記複数の部分文字列をスコア付けすることと、
    前記各部分文字列についての検索結果の数、前記各部分文字列についての前記各画像内に含まれる前記各部分文字列についての各画像と関連したページのタイトルを取得することと、
    前記検索結果の数及び前記各画像と関連した前記ページの前記タイトルを用いて、前記各部分文字列についての前記偏差に加えて前記スコアを調整することと、
    前記複数の部分文字列からより大きいスコアを有する1つ又は複数のより長い部分文字列を選択することと、
    を行わせるように実行可能な前記プログラム命令をさらに含む、請求項16に記載のコンピュータ・システム。
  20. 文の集合体から抽出された表現を用いることにより、辞書を構築することを行わせるように実行可能な前記プログラム命令をさらに含む、請求項16に記載のコンピュータ・システム。
JP2020514181A 2017-09-27 2018-09-21 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム Pending JP2021501387A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/717,044 US20190095525A1 (en) 2017-09-27 2017-09-27 Extraction of expression for natural language processing
US15/717,044 2017-09-27
PCT/IB2018/057287 WO2019064137A1 (en) 2017-09-27 2018-09-21 EXPRESSION OF EXPRESSION FOR TREATMENT OF NATURAL LANGUAGE

Publications (1)

Publication Number Publication Date
JP2021501387A true JP2021501387A (ja) 2021-01-14

Family

ID=65806795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020514181A Pending JP2021501387A (ja) 2017-09-27 2018-09-21 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム

Country Status (5)

Country Link
US (1) US20190095525A1 (ja)
JP (1) JP2021501387A (ja)
CN (1) CN111133429A (ja)
GB (1) GB202003943D0 (ja)
WO (1) WO2019064137A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102161147B1 (ko) * 2019-10-31 2020-09-29 한국해양과학기술원 이상운항 선박 식별 장치 및 방법
US20220138233A1 (en) * 2020-11-04 2022-05-05 International Business Machines Corporation System and Method for Partial Name Matching Against Noisy Entities Using Discovered Relationships
CN114792092B (zh) * 2022-06-24 2022-09-13 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
US7177798B2 (en) * 2000-04-07 2007-02-13 Rensselaer Polytechnic Institute Natural language interface using constrained intermediate dictionary of results
US8874431B2 (en) * 2001-03-16 2014-10-28 Meaningful Machines Llc Knowledge system method and apparatus
US8341112B2 (en) * 2006-05-19 2012-12-25 Microsoft Corporation Annotation by search
US20080052262A1 (en) * 2006-08-22 2008-02-28 Serhiy Kosinov Method for personalized named entity recognition
US8311973B1 (en) * 2011-09-24 2012-11-13 Zadeh Lotfi A Methods and systems for applications for Z-numbers
US9528847B2 (en) * 2012-10-15 2016-12-27 Microsoft Technology Licensing, Llc Pictures from sketches
US9934526B1 (en) * 2013-06-27 2018-04-03 A9.Com, Inc. Text recognition for search results
US9501499B2 (en) * 2013-10-21 2016-11-22 Google Inc. Methods and systems for creating image-based content based on text-based content
CN103617239A (zh) * 2013-11-26 2014-03-05 百度在线网络技术(北京)有限公司 命名实体的识别方法、装置及分类模型的创建方法、装置
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN104933152B (zh) * 2015-06-24 2018-09-14 北京京东尚科信息技术有限公司 命名实体识别方法及装置
US10242033B2 (en) * 2015-07-07 2019-03-26 Adobe Inc. Extrapolative search techniques
US10437868B2 (en) * 2016-03-04 2019-10-08 Microsoft Technology Licensing, Llc Providing images for search queries

Also Published As

Publication number Publication date
GB202003943D0 (en) 2020-05-06
WO2019064137A1 (en) 2019-04-04
US20190095525A1 (en) 2019-03-28
CN111133429A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
US11514235B2 (en) Information extraction from open-ended schema-less tables
WO2017118427A1 (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
JP5346279B2 (ja) 検索による注釈付与
US11645475B2 (en) Translation processing method and storage medium
US9483460B2 (en) Automated formation of specialized dictionaries
US20120047172A1 (en) Parallel document mining
US20100185691A1 (en) Scalable semi-structured named entity detection
WO2017177809A1 (zh) 语言文本的分词方法和系统
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
US20130036076A1 (en) Method for keyword extraction
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US11397855B2 (en) Data standardization rules generation
CN105760363B (zh) 文本文件的词义消歧方法及装置
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
Zu et al. Resume information extraction with a novel text block segmentation algorithm
Khabsa et al. Chemical entity extraction using CRF and an ensemble of extractors
JP2021501387A (ja) 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム
CN107357765A (zh) Word文档碎片化方法及装置
Dastanwala et al. A review on social audience identification on twitter using text mining methods
Klampfl et al. Machine learning techniques for automatically extracting contextual information from scientific publications
Ali et al. Detection of plagiarism in Urdu text documents
Sarkar et al. A memory-based learning approach for named entity recognition in Hindi
WO2014114117A1 (en) Language recognition based on vocabulary lists

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200309

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200330