JP6781760B2

JP6781760B2 - 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法

Info

Publication number: JP6781760B2
Application number: JP2018541179A
Authority: JP
Inventors: シュナーチ、エイアル; レヴィ、ラン; スローニム、ノーム
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2016-02-09
Filing date: 2017-01-19
Publication date: 2020-11-04
Anticipated expiration: 2037-01-19
Also published as: GB2562983A; US20170228365A1; GB201814449D0; CN108604228B; US10073834B2; CN108604228A; JP2019511036A; WO2017137859A1

Description

本発明は、幾つかの実施形態において、機械学習に関し、排他的ではなくより具体的には、人間可読テキストにおいてターゲットを識別するための自動機械学習のためのシステム及び方法に関する。

人間可読テキストにおけるパターンを識別するために、複数の方法が開発されている。例えば、特定の明確な意味的関係において互いに関連するテキスト内の単語（word）の対（大部分が名詞）を識別するために、方法が開発されている。例えば、著者−タイトル、人−誕生日、上位語（hypernym）及び部分語（meronym）などである。

複数レイヤの単語の表現にわたる言語特徴生成のためのコンピュータ実施方法、システム及びコンピュータ・プログラムを提供する。

本発明の幾つかの実施形態の態様によると、テキストにおけるターゲット意味的現象（target semantic phenomenon）を識別する１つ又は複数のクロス・レイヤ・パターンを出力するためのコンピュータ実施方法が提供され、この方法は、ターゲット意味的現象を表すものとして指定された訓練テキスト断片の各訓練テキスト断片の少なくとも幾つかの単語の各単語について、それぞれのレイヤにより定められる特徴値（feature-value）を抽出することと、訓練テキスト断片について識別された特徴値を統計的に分析し、訓練テキスト断片についての共通のパターンを表すレイヤを含む１つ又は複数のクロス・レイヤ・パターンを識別することであって、共通のクロス・レイヤ・パターンは、少なくとも１つの単語のそれぞれのレイヤの１つ又は複数の特徴値及び別の単語の別のそれぞれのレイヤの少なくとも別の特徴値を定める、分析することと、ターゲット意味的現象を表すテキスト断片を識別するために、識別されたクロス・レイヤ・パターンを出力することと、を含む。

随意的に、方法は、新しいテキスト断片から抽出された特徴値をクロス・レイヤ・パターンの少なくとも１つと照合する又は相関させることによってターゲット意味的現象を識別するように、統計的分類器を訓練することと、新しいテキストを分析してターゲット意味的現象を表す新しいテキスト断片を識別するために、訓練された統計的分類器を格納又は伝送することと、をさらに含む。随意的に、識別することは、ターゲット意味的現象を表さないものとして指定された訓練テキスト断片に対して実行され、分類器は、ターゲット意味的現象を表さないものとして指定された訓練テキスト断片から抽出した特徴値に基づいて訓練される。

随意的に、クロス・レイヤ・パターンは、ターゲット意味的現象を含むテキスト断片内に現れない少なくとも１つの負の特徴値を含む。

随意的に、クロス・レイヤ・パターンの各レイヤは、意味的知識、統語的知識、ドメイン知識、タスク・エキスパートによる知識の注入からなる群から選択されるメンバーである。代替的に又は付加的に、クロス・レイヤ・パターンの各レイヤは、単語の品詞（part-of-speech、ＰＯＳ）タグ、単語の上位語、単語により表される固有（named）エンティティ、単語により表される感情、所定の辞書（lexicon）内に現れる単語からなる群から選択されるメンバーである

随意的に、クロス・レイヤ・パターンは、複数の異なるレイヤと関連したテキスト断片内の１つ又は複数の単語を含む。

随意的に、複数の異なるレイヤは、１つ又は複数の単語について組み合わされる。

随意的に、クロス・レイヤ・パターンは、各々が異なるレイヤと関連したテキスト断片内の２つ又はそれより多い異なる単語を含む。

随意的に、２つ又はそれより多い異なる単語と関連した異なるレイヤは、クロス・レイヤ・パターン内の順序により定められる。

随意的に、ターゲット意味的現象は、定義、トピックの又はトピックに反する証拠を提供するステートメント、証拠なしにトピックについて何かが事実であるという、エンティティによりなされるステートメント、及びトピックについてエンティティにより表現される感情からなる群から選択されるメンバーである。

随意的に、クロス・レイヤ・パターンは、各々が異なる単語からの２つ又はそれより多いレイヤの間の少なくとも１つの定められたギャップを含む。

随意的に、クロス・レイヤ・パターンは、特徴を繰り返し組み合わせてより長いクロス・レイヤ・パターンを生成することによって生成される。随意的に、方法は、各々の繰り返しの終わりに貪欲分析（greedy analysis）を適用し、正確な予測の確率に従ってランク付けされた上位所定数のクロス・レイヤ・パターンを識別することをさらに含む。随意的に、上位の所定数のクロス・レイヤ・パターンは、他の以前に選択されたより高いランクの特徴を有する相関要件に基づいて選択される。代替的に又は付加的に、特徴を組み合わせることは、別の単語の別の特徴を組み合わせて及び順番に付加することによって実行される。代替的に又は付加的に、特徴を組み合わせることは、同じ単語の別の特徴を組み合わせて付加することによって実行される。

本発明の幾つかの実施形態の態様によると、少なくとも１つのクロス・レイヤ・パターンを少なくとも１つのテキスト断片に適用し、ターゲット意味的現象を識別するためのコンピュータ実施方法が提供され、この方法は、人間可読テキストの各テキスト断片内の少なくとも幾つかの単語から、各々がそれぞれのレイヤにより定められる複数の特徴値を抽出することと、複数の特徴値を少なくとも１つのクロス・レイヤ・パターンと照合する又は相関させることと、合致又は相関が見つかった場合、それぞれのテキスト断片内のターゲット意味的現象の存在のしるしを出力することと、を含む。

随意的に、少なくとも１つのクロス・レイヤ・パターンと照合する又は相関させることは、訓練された統計的分類器を複数の特徴値に適用することによって実行される。

本発明の幾つかの実施形態の態様によると、テキストにおけるターゲット意味的現象を識別するシステムであって、ターゲット意味的現象を表す複数の訓練テキスト断片を受け取るためのデータ・インターフェースと、コードを格納するプログラム・ストアと、格納されたコードを実施するための、データ・インターフェース及びプログラム・ストアに結合されたプロセッサとを含み、コードは、複数の訓練テキスト断片の少なくとも幾つかの単語の各単語について、それぞれのレイヤにより定められる複数の特徴値を抽出するためのコードと、複数の訓練テキスト断片についての共通のパターンを表す複数のレイヤを含む少なくとも１つのクロス・レイヤ・パターンを識別するために、複数の特徴値を統計的に分析するためのコードであって、共通のクロス・レイヤ・パターンは、少なくとも１つの単語のそれぞれのレイヤの少なくとも１つの特徴値及び別の単語の別のそれぞれのレイヤの少なくとも別の特徴値を定める、コードと、ターゲット意味的現象を表すテキスト断片を識別するために、識別された少なくとも１つのクロス・レイヤ・パターンを出力するためのコードとを含む。

別段の定めがない限り、本明細書で用いられる全ての技術的及び／又は科学的用語は、本発明が関係する技術の当業者により一般に理解されているものと同じ意味を有する。本明細書に述べられるものと類似又は等価の方法及び材料は、本発明の実施形態の実施又は試験に使用され得るが、例示的方法及び／又は材料が後述される。矛盾がある場合には、定義を含めて本明細書が優先する。加えて、材料、方法及び例は、例示にすぎず、必ずしも制限することを意図したものではない。

本発明の幾つかの実施形態が、添付図面を参照して単なる例として本明細書に説明される。特に図面を詳細に具体的に参照するが、その詳細は例であり、本発明の実施形態の説明に役立つ説明のために示されることが強調される。この点で、図面と併用される説明により、本発明の実施形態がどのように実施され得るかが、当業者には明らかになるであろう。

本発明の幾つかの実施形態による、テキストにおけるターゲット意味的現象を識別する少なくとも１つのクロス・レイヤ・パターンを出力するためのコンピュータ実施方法のフローチャートである。本発明の幾つかの実施形態による、少なくとも１つのクロス・レイヤ・パターンを適用し、テキストにおけるターゲット意味的現象を識別するためのシステムのブロック図である。本発明の幾つかの実施形態による、特徴を組み合わせて、ターゲット意味的現象を表すテキスト断片を示す統計的に重要なクロス・レイヤ・パターンを生成する例示的なコンピュータ実施方法のフローチャートである。本発明の幾つかの実施形態による、少なくとも１つのクロス・レイヤ・パターンをテキストに適用し、ターゲット意味的現象の存在を識別するためのコンピュータ実施方法のフローチャートである。本発明の幾つかの実施形態による、文においてなされる主張（claim）の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。

本発明は、幾つかの実施形態において、機械学習に関し、限定ではないがより具体的には、人間可読テキストにおいてターゲットを識別するための自動機械学習のためのシステム及び方法に関する。

本発明の幾つかの実施形態の態様は、例えば、テキストの句、所定数の単語（例えば、window（ウィンドウ））、文、所定数の文、又は段落などの、テキスト断片（text fragment）内の人間可読テキスト（例えば、ファイル、随意的にはテキスト・ファイルとして格納された）におけるターゲット意味的現象を識別する少なくとも１つのクロス・レイヤ・パターンを出力するシステム及び／又は方法（例えば、方法の命令を実施するコードを実行するプロセッサ）に関する。システム及び／又は方法は、識別されたクロス・レイヤ・パターンを用いてターゲット意味的現象を識別するように、統計的分類器を訓練することができる。ターゲット意味的現象は、抽象的であることもあり、又は人間により入力された命令のセットを用いて定義するのは困難であり得るが、例えばエンティティ（例えば、人、組織）が、特定のトピックについて主張（すなわち、必ずしも証拠を提供せずに何かが真実であるとのアサーション）をなす文を読むことによって、人間に認識可能である。本明細書で説明されるシステム及び／又は方法は、エンティティが文におけるトピックについて主張をなすことを示す１つ又は複数のクロス・レイヤ・パターンを出力することができる。訓練された統計的分類器は、クロス・レイヤ・パターンを適用して、テキスト断片の単語から抽出した特徴値を１つ又は複数のクロス・レイヤ・パターンと相関させる及び／又は照合することによって、新しいテキストにおけるターゲット意味的現象を識別することができる。

クロス・レイヤ・パターンは、テキスト断片、句、分析する単語の数（例えば、３、５、１０語など）を定める所定のウィンドウ、単一の文、複数の文、及び／又は段落のような、テキストから抽出した特徴値に基づいて複数単語のテキストにおけるターゲット意味的現象を識別する共通の又は一般的なフィンガプリント又はテンプレートと考えることができる。

クロス・レイヤ・パターンは、ターゲット意味的現象を表す複数の文（又は他のテキスト断片）について一般的なレイヤのセットを表す。クロス・レイヤ・パターンは、同じ単語からの複数の特徴値、及び／又は異なる単語からの異なる特徴値を含み得る、複数の句、テキスト断片、又は文から抽出された複数の特徴値を一般化することができる。クロス・レイヤ・パターンは、特徴値の順序、及び／又は特徴値の組み合わせを定めることができる。特徴値は、例えば特徴値ベクトルとして、プロセッサと関連したメモリ内に格納することができる。

各々の特徴値は、少なくとも１つのレイヤに基づく。各々の単語は、同じレイヤの異なるレベルから抽出した特徴値、及び／又は異なるレイヤからの特徴値を含むことができる。

例示的なレイヤとして、１つ又は複数の意味的カテゴリ（例えば、単語の意味）、１つ又は複数の統語的カテゴリ（例えば、単語の順序及び／又は構造）、１つ又は複数のドメイン知識カテゴリ（例えば、単語がどのドメインに属するか、及び／又はドメインのどのレイヤに属するか）、１つ又は複数の知識の注入（例えば、タスク・エキスパートにより提供される）、単語の品詞（ＰＯＳ）（例えば、猫は名詞である）、単語の上位語（辞書により定義されるより一般的な単語、例えば、動物は、猫という単語の上位語である）、単語により表される固有エンティティ及びタイプ（例えば、ＩＢＭ（IBM Corporationの商標）という単語は、会社というタイプの固有エンティティである）、及び単語により表される感情（sentiment）（例えば、良い）、並びに単語が所定の辞書内に現れるかどうか（及び随意的に、現れる場合、例えば各辞書について定められる単語のデータベースなど、どの辞書か）が挙げられる。

随意的に、クロス・レイヤ・パターンは、１つ又は複数の負の特徴値及び／又はレイヤを含む。負の特徴値は、ターゲット意味的現象を含むテキスト内に現れない特徴値を表す。文（又は他のテキスト断片）における負の特徴値の存在は、文（又は他のテキスト断片）がターゲット意味的現象を含まないことを示す。

随意的に、クロス・レイヤ・パターンは、文（又は他のテキスト断片）内に次々に現れる属性及び／又は特徴値のシーケンスを含む。クロス・レイヤ・パターンは、属性及び／又は特徴値間のギャップを含むことがあり、例えば、ギャップは、パターンについて示す単語が見つからなかったこと、従って、スキップされたことを表す。

本発明の幾つかの実施形態の態様は、１つ又は複数の識別されたクロス・レイヤ・パターンを複数単語の人間可読テキスト（例えば、テキスト・ファイルとしてメモリ内に格納された）に適用し、テキストの特定の句、文、及び／又は段落内に現れるようなターゲット意味的現象を識別するためのシステム及び／又は方法（例えば、方法の命令を実施するコードを実行するプロセッサ）に関する。随意的に、識別されたクロス・レイヤ・パターンを用いて訓練された統計的分類器が適用される。システム及び／又は方法は、テキストの各テキスト断片の複数の単語から複数の特徴値を抽出し、随意的に訓練された統計的分類器を用いて、抽出された特徴値を１つ又は複数のクロス・レイヤ・パターンと照合する及び／又は相関させる。１つ又は複数のクロス・レイヤ・パターンとの合致及び／又は相関は、特徴値が抽出されたテキスト断片がターゲット意味的現象を表すことを示す。ディスプレイ上でユーザに提示するために、ターゲット意味的現象が識別されるテキストの文、テキスト断片、及び／又は句をマーク付けすること、例えば、仮想タグでタグ付けすること、リストとして格納すること、色で強調表示すること、及び／又はウィンドウ内に提示することが可能である。

本明細書で説明されるシステム及び／又は方法は、コンピュータのメモリのテキスト・ファイル内に格納することができる単語のセット（例えば、文、テキスト断片、句）がターゲット意味的現象を表すかどうかを自動的に判断する（すなわち、プロセッサにより実行される命令コードによって）技術的問題に対する技術的解決法を提供する。ターゲット意味的現象は、単語のセットを読む人間により容易に認識可能であるが、例えばテキスト断片の単語とターゲット意味的現象との間の関係は、理解しにくく、明白ではなく、直感的でないことがあるので、プロセッサにより実行されるコードによる識別のために命令のセットとして定めることが、人間にとって困難なことがある。人間は、テキスト断片内のターゲット意味的現象を識別するために、コードを書く方法を知ることはできない。本明細書で説明されるシステム及び／又は方法は、ターゲット意味的現象の人間による手動定義を必要とすることなく、テキスト断片内のターゲット意味的現象を自動的に識別するプロセスを含む。

本明細書で説明されるシステム及び／又は方法（例えば、システム・コンポーネントにより実施される方法）は、処理リソース要件（例えば、プロセッサの利用）、及び／又はストレージ要件（例えば、メモリ空間）を減少させることによって、及び／又は、利用可能なコンピューティング・リソースを用いてリアルタイム処理（例えば、秒又は分のオーダーの）を提供することによって、コンピュータの性能を改善する。改善した性能は、例えば、クロス・レイヤ・パターンにおいて用いられる特徴値の組み合わせを選択するシステム及び／又は方法（例えば、システム・コンポーネントにより実施される)によって得ることができる。

本明細書で説明されるシステム及び／又は方法（例えば、システム・コンポーネントにより実施される方法）は、訓練された統計的分類器の形態の新しいデータ、及び／又はクロス・レイヤ・パターンの構造（統計的分類器によって用いることができる）を生成する。

本明細書で説明されるシステム及び／又は方法は、自動機械学習の分野の改善に関する。従って、本明細書で説明されるシステム及び／又は方法（例えば、システム・コンポーネントにより実施される方法）は、必然的に、自動機械学習の技術的分野において生じる実際の技術的問題を克服するためのコンピュータ技術に根差している。

本発明の少なくとも１つの実施形態を詳細に説明する前に、本発明は、その用途が、必ずしも以下の説明に述べられる、及び／又は図面及び／又は例に示されるコンポーネントの構成及び配置及び／又は方法の詳細に制限されるものではないことを理解されたい。本発明は、種々の方法で実施又は実行される他の実施形態も可能である。

本発明は、システム、方法、及び／又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体（単数又は複数）を含むことができる。

コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの：すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー・ディスク、パンチカード若しくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング／処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び／又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び／又はエッジ・サーバを含むことができる。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体に格納する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、又は、「Ｃ」プログラミング言語若しくは類似のプログラミング言語などの通常の手続き型プログラミング言語を含む１つ又は複数のプログラミング言語の任意の組み合わせで記述することができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）若しくは広域ネットワーク（ＷＡＮ）を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある（例えば、インターネットサービスプロバイダを用いたインターネットを通じて）。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、又はプログラム可能論理アレイ（ＰＬＡ）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個人化することによりコンピュータ可読プログラム命令を実行し、本発明の態様を実施することができる。

本発明の態様は、本発明の実施形態による方法、装置（システム）及びコンピュータ・プログラム製品のフローチャート図及び／又はブロック図を参照して説明される。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。

これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び／又はブロック図の１つ又は複数のブロック内で指定された機能／動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定された機能／動作を実施する命令を含む製品を製造するようにすることもできる。

コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定された機能／動作を実行するためのプロセスを提供するようにすることもできる。

図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための１つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される２つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び／又はフローチャート図の各ブロック、及びブロック図及び／又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。

本明細書で用いられる場合、以下の用語は、本明細書で説明されるように分析されるテキストの単位を表すものとして互いに交換可能である：すなわち、テキストの文、句、所定数の単語（例えば、分析ウィンドウ）、テキスト断片、所定数の文、段落、又は複数の段落など。

本明細書で用いられる場合、統計的分類器という用語は、ターゲット意味的現象（例えば、その存在、その不存在、及び／又はその存在又は不存在の確率）を示す入力及び出力として複数の特徴を受け取る１つ又は複数の機械学習方法を含むように広く用いられる。統計的分類器は、例えば、参照テーブル、テンプレートのセット、機能又は機能のセット、入力を出力カテゴリにマッピングする統計的分類器、決定論的分類器、ハッシュ・テーブル、マッピング機能、及び／又は他の方法を表す。

本明細書で用いられる場合、特徴値という用語は、文の実際の単語に基づいて抽出される値を意味する。本明細書で用いられる場合、レイヤという用語は、それぞれの単語についての付加的な情報を付加する分類カテゴリ及び／又は単語の態様を意味する。特徴値は、それぞれのレイヤにより定められる。異なるレイヤと関連した異なる特徴値は、例えば異なる単語からなど、各々の文から抽出される。例えば、第１のレイヤにより定められる第１の特徴値は、第１の単語から抽出され、第２の（異なる）レイヤにより定められる第２の（異なる）特徴値は、第２の（異なる）単語から抽出される。別の例において、同じ単語について、第１及び第２のレイヤにより定められる第１及び第２の特徴値は、同じ単語から抽出される。例えば、猫という単語について、第１の特徴値の名詞を抽出することができる（すなわち、猫は名詞である）。特徴値名詞は、第１のレイヤ、すなわち統語的レイヤであり得る品詞（ＰＯＳ）レイヤにより定められる。猫という同じ単語について、第２の特徴値の上位語を抽出することができる（すなわち、動物は、猫の上位語である）。第２の特徴値は、第２のレイヤ、すなわち辞書により定めることができる。

ここで、本発明の幾つかの実施形態による、人間可読テキスト（例えば、複数の単語、句、文）におけるターゲット意味的現象を識別する少なくとも１つのクロス・レイヤ・パターンを出力するためのコンピュータ実施方法のフローチャートである図１を参照する。クロス・レイヤ・パターンを用いて、文がターゲット意味的現象を表すかどうかの表示を出力するように、統計的分類器を訓練することができる。本発明の幾つかに実施形態による、テキストにおけるターゲット意味的現象を識別する少なくとも１つのクロス・レイヤ・パターンを出力するシステム２００のブロック図である図２も参照する。方法及び／又はシステム２００は、ユーザが、ターゲット意味的現象（抽象的であることもあり、及び／又は識別するために命令を定義することが困難であり得る）を表すテキスト（例えば、複数の文）を定めること、及び、テキスト内のターゲット意味的現象の存在を表す１つ又は複数のクロス・レイヤ・パターンを自動的に識別すること（テキストから抽出された特徴値に基づいて）を可能にする。

図１の方法の動作は、システム２００のコンポーネントによって、随意的にはプログラム・ストア２０６内のコードとして格納される命令を実行するコンピューティング・ユニット２０４の処理ユニット２０２によって、実行することができる。

システム２００は、例えば、サーバ（例えば、データ・インターフェース２０８を介してネットワーク接続上でサービスを１又は複数のクライアント端末に提供する）として、ウェブサーバ（例えば、ウェブブラウザを用いてサービスをクライアント端末に提供する）として、及び／又はローカルに格納されるコードを実行するクライアントとして、実装することができるコンピューティング・ユニット２０４を含む。コンピューティング・ユニット２０４は、ハードウェア・コンポーネント（例えば、スタンドアロンのコンピューティング・ユニット）として、ソフトウェア・コンポーネント（例えば、既存のコンピューティング・ユニット内に実装される）として、及び／又は既存のコンピューティング・ユニット（例えば、プラグインカード、取り付け可能ユニット）内に挿入されるハードウェア・コンポーネントとして、実装することができる。サーバの実装は、ｓｏｆｔｗａｒｅａｓａｓｅｒｖｉｃｅ（ＳＡＡＳ）を提供すること、サーバと通信するクライアント上にインストールできるアプリケーションを提供すること、及び／又は遠隔アクセス・セッションを用いて機能を提供することによって、サービスをクライアント端末に提供することができる。コンピューティング・ユニット２０４の他の例示的な実装として、例えば、モバイル機器、デスクトップ・コンピュータ、シン・クライアント、スマートフォン、タブレット・コンピュータ、ラップトップ・コンピュータ、ウェアラブル・コンピュータ、メガネ・コンピュータ、及び腕時計コンピュータが挙げられる。

処理ユニット２０２は、例えば、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、フィールド・プログラム可能ゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）及び特定用途向け集積回路（ＡＳＩＣ）として実装することができる。処理ユニット２０２は、１つ又は複数のプロセッサ（同種又は異種）を含むことができ、それらは、クラスタとして及び／又は１つ又は複数のマルチコア処理ユニットとして、並列処理するように配置することができる。

プログラム・ストア２０６は、例えば、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、及び／又は、例えば不揮発性メモリ、磁気媒体、半導体メモリ・デバイス、ハードドライブ、取り外し可能ストレージ及び光学式媒体（例えばＤＶＤ、ＣＤ−ＲＯＭ）などのストレージ・デバイスなど、処理ユニット２０２により実行されるコード命令を格納する。

コンピューティング・ユニット２０４は、例えば、メモリ、ハードドライブ、光ディスク、ストレージ・ユニット、遠隔ストレージ・サーバへのインターフェース、及びクラウドサーバへのインターフェース、及び／又は他のストレージ・ユニットなど、データを格納するためのデータ・リポジトリ２１０を含む。データ・リポジトリ２１０は、統計的分類器（例えば、本明細書で説明されるような）を訓練するためのテキストを格納する訓練テキスト・リポジトリ２１０Ａ、異なるターゲット意味的現象（例えば、本明細書で説明されるような）を識別するように訓練された統計的分類器を格納する分類器リポジトリ２１０Ｂ、識別されたクロス・レイヤ・パターン（例えば、本明細書で説明されるような）を格納するクロス・レイヤ・パターン・リポジトリ２１０Ｃ、及び文から特徴値を抽出するための命令を格納する（例えば、スクリプト、規則のセット、コード、又は他の実装として）特徴値リポジトリ２１０Ｄを含むことができる。

コンピューティング・ユニット２０４は、例えば、タッチスクリーン、キーボード、マウス、及びスピーカ及びマイクロホンを用いた音声作動式ソフトウェアなど、（ディスプレイ２１４と統合することができる、又は別個のデバイスとして実装することができる）ユーザ・インターフェース２１２を含む、又はこれと通信する。

１０２において、複数の訓練文を含む訓練テキストを、コンピューティング・ユニット２０４により受け取り、訓練テキスト・リポジトリ２１０Ａ内に格納することができる。訓練テキストは、段落及び／又は句を含むことができる。訓練テキストは、例えば、随意的にテキスト・ファイルなどのファイル、ワードプロセッシング・ファイル、バイナリ・ファイル又は他の形式として格納することができる。

本明細書で用いられる場合、文という用語は、句、又は概念若しくは文脈を一緒に形成する複数の単語を含む他のテキスト部分を意味することがあり、及び／又は、それらと交換可能であることがある。

訓練テキストは、例えば、キーボード（すなわち、ユーザ・インターフェース２１２）及び／又はタッチスクリーン（例えばディスプレイ２１４）を用いて、ユーザにより手動で入力すること、ネットワーク上で伝送すること（例えば、随意的にデータ・インターフェース２０８を介して、ファイル、ネットワーク・メッセージ、パケットとして）、及び／又はストレージ位置から（例えば、ディスク、取り外し可能メモリ、ストレージ・サーバ、及び／又は他のストレージ・デバイスから）取り出すこと、及び／又は遠隔位置へのリンク（例えば、テキストを含むウェブページへのリンク）として指定することができる。テキストの例として：オンライン・ニュース記事、本からの節、及び報告書からの段落が含まれる。

１０４において、ターゲット意味的現象を表す訓練テキスト内の１つ又は複数の訓練文の指定を、コンピューティング・ユニット２０４により受け取る。この指定は、例えば、ターゲット意味的現象を表す訓練文のボックスをクリックすること、強調表示すること、及び／又はチェックするなど、ユーザ・インターフェース２１２を用いて（例えば、ディスプレイ２１４上に提示されるグラフィカル・ユーザ・インターフェースを用いて）、ユーザにより手動で入力することができる。指定は、例えば指定された格納ファイルにおける、ターゲット意味的現象を表す文のリストを提供することにより、ユーザにより提供することができる。

随意的に、例えば、ユーザが、ターゲット意味的現象を表さない（例えば、ターゲット意味的現象を表すファイルとは異なるファイル内の）文のリストを提供すること、及び／又はターゲット意味的現象を表さない訓練文をマーク付けすること（例えば、ターゲット意味的現象を表す文の指定とは異なるマーク付けを用いて）によって、ターゲット意味的現象を表さない訓練テキスト内の１つ又は複数の訓練文の指定を、コンピューティング・ユニット２０４により受け取る。代替的に、ターゲット意味的現象を表さない文の明確でない文の指定が与えられる。コードは、指定されない文（すなわち、ターゲット意味的現象を表すものとして指定されない）はターゲット意味的現象を表さないと自動的に仮定することができる。

ブロック１０２及び１０４は、例えば、ユーザが、２つのファイル、すなわちターゲット意味的現象を表す文を含む第１のファイル及びターゲット意味的現象を表さない文を含む第２のファイルをアップロードするためにデータ・インターフェース２０８を用いることにより、同時に実行できることが留意される。

例示的なターゲット意味的現象は、定義文（すなわち、用語又は概念を説明する文）、トピックの又はトピックに反する証拠を提供するステートメント、証拠なしにトピックについて何かが事実であるという、エンティティによりなされるステートメント（すなわち、主張を含む文）、及びトピックについてエンティティにより表現される感情を含む。

１０６において、処理ユニット２０２により実行されるプログラム・ストア２０６内に格納されるコードは、訓練テキストの各訓練文の少なくとも幾つかの単語の各単語（又は複数の単語からなる句）について、１つ又は複数のレイヤ（例えば、１つ又は複数の分類カテゴリ）を表す１つ又は複数の特徴値を抽出する。幾つかの単語は、例えば接続詞などをスキップできることが留意される。代替的に、接続詞であっても全ての単語が考慮される。

特徴値は、データ・リポジトリ２１０内及び／又は他の位置に格納することができる特徴リポジトリ２１０Ｄ（例えば、データベース、特徴値を抽出するコード、特徴値を定めるテキストベースの規則、及び／又は他の実装）内に格納された所定の特徴値に基づいて、コードにより自動的に識別することができる。

随意的に、レイヤの１つ又は複数は、複数のレベルを有する階層を含む。特徴値は、階層の１又は複数のレベルに基づいて抽出することができる。随意的に、レイヤの１つ又は複数は、階層のない単一レベルを有するフラット・レベルを含む。特徴値は、レイヤのフラット・レベルに基づいて抽出することができる。本明細書で説明されるシステム及び／又は方法は、文内に現れない他の単語を除外しながら、異なる文における単語を表す、階層の最も適切なレベルを識別することができる。訓練文のセットが深紅色、スミレ色、及びラベンダー色を含むとき、第２のレベルから紫の色を選択することができる。色が大まかすぎ、訓練文内に含まれない第２のレベル上の他の色を含むことがあるので、必ずしも、第１のレベルからの特徴値の色を選択することができるとは限らない。黄色を含む新しい訓練文が分析されると、特徴値の色を選択することができる。

例示的なレイヤは、意味的知識、統語的知識、ドメイン知識、タスク・エキスパートによる知識の注入、単語の上位語、単語により表される固有エンティティ、単語により表される感情、所定の辞書内に現れる単語を含む。

１０８において、各訓練文について識別及び／又は抽出された特徴値を統計的に分析し（例えば、処理ユニット２０２により実行されるプログラム・ストア２０６内に格納されたコードによって）、訓練文のセット（例えば、受け取った全て）に対して共通のクロス・レイヤ・パターンを識別する。クロス・レイヤ・パターンは、各々が異なるレイヤを表す各文の少なくとも２つの単語から抽出された複数の特徴値を含む。クロス・レイヤ・パターンは、ターゲット意味的現象を表す文の単語から抽出された特徴値のセットの間の共通性の一般化を表す。受け取った訓練文のセット内のターゲット意味的現象と相関するクロス・レイヤ・パターンは、例えば、統計的確率閾値及び／又は範囲などの相関要件によって定めることができる。新しい文内の抽出された特徴値に基づいたクロス・レイヤ・パターンの識別は、ターゲット意味的現象を表す新しい文を示す。

クロス・レイヤ・パターンは、ターゲット意味的現象を表す文の共通の一般的構造を表す。クロス・レイヤ・パターンは、異なる文の間の共通性を最もよく表す単語を識別することに基づく。異なるレイヤにわたる一般化を識別し、文の間の一般的な共通性を捕える。

随意的に、クロス・レイヤ・パターンは、ターゲット意味的現象を表すものとして指定された文内に現れない１つ又は複数の負の特徴値を含む。負の特徴値は、ターゲット意味的現象を表さない文内に現れ得る。例えば、クロス・レイヤ・パターン、［数字なし（no digit］［動詞（verb）］［感情］は、数字を含まず、動詞の単語を有し、その後に感情の単語が続く（随意的に単語の間にギャップを有した状態で）文を識別する。

随意的に、クロス・レイヤ・パターンは、複数の異なるレイヤを有して識別される文内に１つ又は複数の単語を含む。各レイヤは、同じ単語から抽出された異なる特徴値に基づき得る。

随意的に、クロス・レイヤ・パターンは、異なるレイヤを有して識別された文内に２又はそれより多い異なる単語を含む。異なる特徴値は、異なる単語から抽出することができる。

随意的に、クロス・レイヤ・パターンは、２つ又はそれより多いレイヤの定められた組み合わせ及び／又は順序を含む。組み合わせは、同時に同じ単語内に現れる２つ又はそれより多い特徴値（異なるレイヤからの）に基づく。順序は、同時に同じ文の異なる単語内に現れる２つ又はそれより多い特徴値（異なるレイヤからの）に基づく。順序は、文内の単語の順序により定めることができる。順序は、例えば、特徴値１の後に特徴値２が続く、又は特徴値２の後に特徴値１が続くといった、異なる順序の順列などの複数の選択肢を含むことができる。

随意的に、クロス・レイヤ・パターンは、２つ又はそれより多いレイヤの間のギャップのような特徴値の間の１つ又は複数の定められたギャップを含む。ギャップは、特徴値が抽出されない単語などの、隣接する単語から抽出された特徴値の間に生じるものとして定めることができる。ギャップは、組み合わせ及び／又は順序として定めることができる。

ここで、クロス・レイヤ・パターンの例が提供される。以下の３つの文は、主張（すなわち、特定のトピックについての、人、組織、又はパーティのようなエンティティによるアサーション）を含むものとして指定される。各文の各主張は、異なるトピックと関連する。
（１）反対者は、開放予備選挙が違憲であると論ずる。
（２）リチャードは、プロプライエタリ・ソフトウェア（proprietary software）が一般的に悪意のある特徴を含むと言う。
（３）大多数は、修正第１項が他に違反する権利を保証しないと述べる。

上記の３つの文について識別されるクロス・レイヤ・パターンは、以下のように表すことができる３つの文が共有する共通の構造に基づいている。：
［誰かが（someone）］［論ずる（argue）／言う（say）／述べる（state）］［that］［トピックに関連する何か（something-related-to-the-topic）］

新しい文における主張の存在を識別するために用いることができる、上記の３つの文について識別されるクロス・レイヤ・パターンは、以下の特徴値の組み合わせのセットにより形式的に表すことができる。：
［名詞］［動詞表現の上位語］［that接続詞］［名詞＆トピックの辞書からの単語］

ここで、本発明の幾つかの実施形態による、特徴値を結合して、ターゲット意味的現象を表すそれぞれの文を示す統計的に重要なクロス・レイヤ・パターンを生成する例示的なコンピュータ実施方法のフローチャートである、図３を参照する。方法の動作は、処理ユニット２０２により実行される、コンピューティング・ユニット２０４のプログラム・ストア２０６内に格納されたコードにより実行することができる。方法は、クロス・レイヤ・パターンを効率的及び自動的に構築することにより、コンピューティング・リソースの利用を改善することができる（例えば、プロセッサ及び／又はメモリ要件及び／又は利用の低減）。

図１を参照して説明されたように、図３の方法（例えば、方法を実装したプログラム・ストア２０６内に格納されたコード）は、ターゲット意味的現象を表すものとして指定された訓練文、及び随意的にターゲット意味的現象を表さないものとして指定された訓練文を入力として受け取る。

３０２において、各文から複数の特徴値が抽出される。随意的に、各文の各単語について、複数の特徴値が抽出される（幾つかの単語はスキップされ得る）。抽出される特徴値は、例えば、抽出のための自動化した特徴値のセット（例えば、全ての可能な特徴を抽出する力ずくの方法（brute force method））に基づくことができ、（例えば、スクリプト又は他の命令としてファイル内にユーザにより定められた）特徴値のセットを手動で定めることができ、及び／又はデータベース、コード、スクリプト、ファイル、又は他の実装により定めることができる。

３０４において、例えば、約０．１％、又は０．５％、又は１％未満、又は他の値のような、所定の百分率を下回る訓練文内に現れる特徴値など、頻繁でない特徴値をフィルタリングにより取り除くことができる。頻繁でない特徴値のフィルタリングにより、処理からまれな（rare）特徴値を排除することができ、そのことにより、クロス・レイヤ・パターンのメモリ・ストレージ・サイズが低減し、及び／又はまれな特徴値を抽出しようと試みることを防止することにより、プロセッサの利用が改善され得る。

３０６において、抽出した特徴値がランク付けされる。ランク付けは、それぞれの特徴値により提供される情報利得に基づくことができる。それぞれの特徴値を用いて及び用いずにエントロピーを計算することにより、情報利得を計算することができる。情報利得は、文におけるターゲット意味的現象の存在を正しく識別する能力（例えば、確率）へのそれぞれの特徴値の寄与を表すことができる。

３０８において、上位の特徴値が選択される。上位特徴値は、所定数の上位特徴値、情報利得閾値より上の全ての特徴値、又は他の方法に基づいて選択することができる。

特徴値は、他の以前に選択されたより高いランクの特徴値と相関されること（又は、所定の相関要件を下回る相関）に基づいて選択することができる。相関は、例えば、シード特徴値などの属性間の正規化された相互情報によって測定することができる。負の特徴値について、各々のシード特徴は、その負により二倍にすることができる。

３１０において、各々の単一特徴値パターンが、複数特徴値パターンに成長される。個々の特徴値（例えば、［名詞］）は、他の特徴値の付加により成長されるシードを表す。

随意的に、個々の特徴値を別の単語の別の特徴値に付加し、特徴値の組み合わせを生成することができる。特徴値の順序は、特徴値の組み合わせの部分として定めることができる。特徴値は、特徴値の単語の前の単語及び／又特徴値の単語の後の単語を考慮することにより、左及び／又は右に成長させることができる。（［名詞］、［感情］）

代替的に又は付加的に、特定の単語の個々の特徴値を、同じ単語の別の特徴値と組み合わせる。他の特徴値は、異なる分類カテゴリのもの、及び／又は同じ分類カテゴリの異なるレイヤのものとすることができる。例えば、（［名詞、dobj］）。

３１２において、上位の（例えば、所定数の）クロス・レイヤ・パターンを識別するために、随意的に貪欲分析（greedy analysis）を用いて、生成された特徴パターン（すなわち、同じくクロス・レイヤ・パターンと呼ばれる特徴値の組み合わせ）が分析される。クロス・レイヤ・パターンは、情報利得及び／又は正確な予測の確率（例えば、ブロック３０６を参照して説明されるような）に従ってランク付けされる。

３１４において、上位の（例えば、所定数の）クロス・レイヤ・パターンが選択される。例えばブロック３０８を参照して説明されたように、パターンは、他の以前に選択されたより高いランク付けの特徴値との相関要件に基づいて選択することができる。

３１６において、付加的な特徴値（同じ単語及び／又は他の単語の）を繰り返し組み合わせてより長いクロス・レイヤ・パターンを生成することにより、各々のクロス・レイヤ・パターンが成長される。クロス・レイヤ・パターンは、例えば、パターンの最大ストレージ・サイズ、パターンにおける特徴値の最大数、パターンを用いた新しい文の最大推定処理時間、又は他の停止条件方法などの停止条件が満たされるまで、成長される。

３１８において、生成されたクロス・レイヤ・パターンは、別の位置（例えば、遠隔サーバ、クラウドサーバ）内に格納された、及び／又は伝送された（ネットワーク上でサーバ及び／又はクライアント端末へ）データ・リポジトリ２１０のクロス・レイヤ・パターン・リポジトリ２１０Ｃ内に格納される。

ここで再び図１の１１０を参照すると、コンピューティング・ユニット２０４の処理ユニット２０２により実行されるプログラム・ストア２０６内に格納されたコードは、１つ又は複数の新しい文を含む次のテキスト内のターゲット意味的現象を識別するように、統計的分類器を訓練する。統計的分類器は、ターゲット意味的現象を表す新しい文を示す新しいテキストの新しい文におけるクロス・レイヤ・パターンを識別するように、新しいテキストから抽出された特徴値を処理する。

統計的分類器は、それぞれの訓練文の識別されたクロス・レイヤ・パターン（抽出された特徴値を定めることができる）及びターゲット意味的現象（又はターゲット意味的現象の不存在）を入力として用いて訓練することができる。統計的分類器は、クロス・レイヤ・パターンとターゲット意味的現象との間の相関を識別し、新しい文について抽出された特徴値をターゲット意味的現象と相関させることができる。

単一クラス分類器、及び／又は複数の単一クラス分類器、及び／又はマルチクラス分類器、及び／又は複数のマルチクラス分類器を訓練することができる。例えば、分類器の組み合わせを、例えば、分類器のカスケード、分類器のブースティング・トポロジ、又は平行分類スキームなどの異なるターゲット意味的現象を識別するように訓練することができる。

随意的に、分類器は、教師あり学習（supervised learning）に基づいて訓練される。分類器を訓練するためのコード命令の例として、ニューラル・ネットワーク（Neural Networks）、サポート・ベクター・マシン（Support Vector Machines）、決定木（Decision Trees）、ハード／ソフト・スレショルディング（Hard/Soft Thresholding）、単純ベイズ分類器（Naive Bayes Classifiers）、又はいずれかの他の適切な分類システム及び／又は方法が挙げられる。代替的に又は付加的に、分類器は、例えば、ｋ近傍法（k-Nearest Neighbors、ＫＮＮ）クラスタリング、混合ガウス・モデル（Gaussian Mixture Model、ＧＭＭ）パラメータ化などの教師なし学習（unsupervised leaning）、又は他の適切な教師なし方法に基づいて訓練される（及び／又は機械学習が行われる）。

訓練された統計的分類器は、ターゲット意味的現象を正しく識別する精度を示す確率を出力することができる。

随意的に、複数の訓練された統計的分類器が訓練される。各々の分類器は、１つのタイプのターゲット意味的現象を識別することができる。

１１２において、訓練された統計的分類器が、格納される（例えば、データ・リポジトリ２１０の分類器リポジトリ２１０Ｂ内に）、又はデータ・インターフェース２０８を介して（例えば、ネットワーク上で）クライアント端末によるローカル使用のため及び／又は遠隔ストレージのために遠隔サーバに伝送される。訓練された統計的分類器は、新しいテキストを分析して、ターゲット意味的現象を表す１つ又は複数の新しい文を識別するために用いられる。代替的に又は付加的に、識別されたクロス・レイヤ・パターンが格納される及び／又は伝送される。クロス・レイヤ・パターンを用いて、文内のターゲット意味的現象を識別すること（例えば、文から抽出された特徴値を照合する又は相関させることによって）、及び／又は、統計的分類器を訓練するために、別のプロセス（例えば、クライアント端末又はサーバのような外部コンピューティング・ユニット）により、クロス・レイヤ・パターンを用いることができる。

ここで、本発明の幾つかの実施形態による、クロス・レイヤ・パターン（随意的に、訓練された統計的分類器）を新しい人間可読テキスト（例えば、少なくとも１つの文又は句を含む）に適用して、ターゲット意味的現象の存在を識別するためのコンピュータ実施方法のフローチャートである、図４を参照する。方法は、プログラム・ストア２０６内に格納されるコード命令を実行するコンピューティング・ユニット２０４の処理ユニット２０２により実施することができる。

４０２において、ターゲット意味的現象を表すものとしてテキスト内の文を識別するように訓練された統計的分類器として、随意的に実装される１つ又は複数のクロス・レイヤ・パターンが提供される。複数の統計的分類器及び／又は複数のクロス・レイヤ・パターンを適用できることが留意される。各々の統計的分類器を、１つのタイプのターゲット意味的現象を識別するように訓練することができる。代替的に又は付加的に、同じ統計的分類器を、複数のタイプのターゲット意味的現象を識別するように訓練することもできる。訓練される統計的分類器は、例えば分類器リポジトリ２１０Ｂなどのストレージ・ユニットから取得することができる。

４０４において、１つ又は複数の文又は句を含む新しいテキストを、コンピューティング・ユニット２０４により受け取る。新しいテキストは、例えば、ユーザがテキストを手動で入力することによって（例えば、キーボードを用いて）、テキストを格納するテキスト・ファイルを介して、テキストを有するウェブページをホストするウェブサーバへのリンク又は他の方法を用いて、受け取ることができる。

４０６において、コードは、各文（例えば、全ての単語）内の少なくとも幾つかの単語から特徴値を抽出する。各々の抽出された特徴値は、それぞれのレイヤを表す。特徴値は、訓練された統計的分類器により定められるクロス・レイヤ・パターンに基づいて抽出することができる。随意的に、異なるクロス・レイヤ・パターン内に含まれる特徴値の全て（又はそのサブセット）が抽出される。

４０８において、随意的に各文について、抽出された特徴値を集めることができる。集められた特徴値を特徴値ベクトルとして編成することができる。

４１０において、訓練された統計的分類器を、各々の集められた特徴セットに（例えば、特徴値ベクトルに）適用する。訓練された統計的分類器は、集められた特徴値を１つ又は複数の所定のクロス・レイヤ・パターンに照合し又は相関させ、ターゲット意味的現象の存在を識別することができる。

随意的に、訓練された統計的分類器は、集められた特徴値が所定のクロス・レイヤ・パターンの１つ又は複数と相関するが、パターンと１００％合致しない場合、ターゲット意味的現象の存在を識別する精度の確率を出力する。代替的に、集められた特徴値がクロス・レイヤ・パターンの１つに合致する場合、ターゲット意味的現象の存在の識別のみが行われる。

４１２において、ターゲット意味的現象の存在（又は、その不存在）の表示の出力が提供される。出力は、例えばＧＵＩ内のディスプレイ２１４上に提示することができ、この出力は、ターゲット意味的現象を表すテキストの文をマーク付けすること（例えば、強調表示で、下線で、太字で、又は他の方法で）ができる。別の例において、ターゲット意味的現象を表す文を含むファイルを作成し、メモリに保存することができる。

文においてなされた主張の存在を識別するために、訓練文から学習したクロス・レイヤ・パターンの例が、図５〜図１１に提供される。訓練文に基づいて訓練された統計的分類器は、複数のクロス・レイヤ・パターンを含み、クロス・レイヤ・パターンの１つを新しい文から抽出された特徴値と照合する（又は、相関させる）とき、主張含むものとして新しい文を識別する。新しい文から抽出された特徴値は、クロス・レイヤ・パターン内に表される特徴値のタイプの全て（又は、選択されたサブセット）を含むことができる。

本発明の種々の実施形態の説明は、例証目的のために提示されたが、これらは、網羅的であること、又は開示された実施形態に制限することを意図するものではない。当業者には、説明される実施形態の範囲の趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で用いられる用語は、実施形態の原理、実際の適用、又は市場に見られる技術に優る技術的改善を最もよく説明するため、又は、当業者が、本明細書で開示される実施形態を理解するのを可能にするために選択された。

本出願から特許が満期になるまでの期間中、多くの関連する統計的分類器及びコンピューティング・ユニットが開発されることが予想され、統計的分類器及びコンピューティング・ユニットという用語の範囲は、先天的に全てのこのような新技術を含むことを意図する。

本明細書で用いられる場合、「約」という用語は、±１０％を指す。

「備える（comprises）」、「備えている（comprising）」、「含む（include）」、「含んでいる（including）」、「有している（having）」という用語、及びそれらの活用形は、「含むが、それらに限定されない」を意味する。この用語は、「からなる（consisting of）」及び「から本質的になる（consisting essentially of）」という用語を包含する。

「から本質的になる」という句は、組成物又は方法が、追加の成分若しくはステップが特許請求された組成物又は方法の基本的及び新規な特性を実質的に変更しない場合に限り、その追加の成分及び／又はステップを含み得ることを意味する。

本明細書で用いられる場合、単数形「ａ」、「ａｎ」及び「ｔｈｅ」は、文脈により特に明記されない限り、複数の言及を含む。例えば、「化合物」又は「少なくとも１つの化合物」という用語は、複数の化合物を（これらの混合物を含めて）含み得る。

「例示的（exemplary）」という用語は、本明細書においては、「例、実例、又は例示として役立つこと」ことを意味するために使用される。「例示的」であるものとして記載されたいずれの実施形態も、必ずしも他の実施形態よりも好ましいもの又は有利であるもの、又は他の実施形態の特徴を取り入れることを除外するものと解釈されるべきではない。

「随意的に（optionally）」という用語は、本明細書においては、「幾つかの実施形態において提供され、他の実施形態において提供されない」ことを意味するために使用される。本発明のいずれの特定の実施形態も、複数の「随意的な」特徴を、このような特徴が矛盾しない限り、含むことができる。

本出願の全体を通して、本発明の様々な実施形態が範囲の形式で提示されることがある。範囲の形式での記載は、簡便及び簡潔のためにすぎず、本発明の範囲に対する柔軟性のない限定として解釈されてならないことを理解されたい。従って、範囲の記載は、その範囲内の個々の数値だけでなく、全ての可能な部分範囲を特に開示していると考えるべきである。例えば、１〜６の範囲の記載は、例えば１、２、３、４、５及び６など、その範囲内の個々の数だけでなく、１〜３、１〜４、１〜５、２〜４、２〜６、３〜６等の部分範囲を特に開示しているものと解釈されなければならない。これは、範囲の幅に関係なく当てはまる。

本明細書において数値の範囲が指示されるときは常に、指示された範囲内の任意の引用された数字（分数又は整数）を含むことを意味する。第１の指示数「と」第２の指示数「との間に範囲が及んでいる／及ぶ」及び第１の指示数「から」第２の指示数「までに範囲が及んでいる／及ぶ」という句は、本明細書において交換可能に用いられ、第１及び第２の指示数並びにその間の全ての分数及び整数を含むことを意味する。

明確にするために別個の実施形態の文脈で記載されている本発明の幾つかの特徴は、単一の実施形態において組み合わせて提供されてもよいことを理解されたい。反対に、簡潔にするために単一の実施形態の文脈で記載されている本発明の様々な特徴は、個別に、又は任意の適切な部分的組み合わせにおいて、又は本発明の他の任意の記載された実施形態において適切であるように提供されてもよい。様々な実施形態の文脈で記載された幾つかの特徴は、それらの要素なしでは実施形態が実施不能でない限り、それらの実施形態の必須の特徴と考えるべきではない。

本発明はその具体的実施形態と共に記載されているが、多くの代替、修正及び変形が当業者に明らかとなることが明白である。従って、本発明は、添付の特許請求の範囲の趣旨及び精神及び広い範囲に含まれるこのような代替、修正及び変形を包含することが意図される。

本出願におけるいかなる参照文献の引用又は特定も、このような参考文献が本発明に対する先行技術として利用可能であることの承認として解釈されるべきではない。セクション見出しが使用される限りにおいて、それらは必ずしも限定と解釈されるべきではない。

２００：システム
２０２：処理ユニット
２０４：コンピューティング・ユニット
２０６：プログラム・ストア
２０８：データ・インターフェース
２１０：データ・リポジトリ
２１０Ａ：訓練テキスト・リポジトリ
２１０Ｂ：分類器リポジトリ
２１０Ｃ：クロス・レイヤ・パターン・リポジトリ
２１０Ｄ：特徴値リポジトリ
２１２：ユーザ・インターフェース
２１４：ディスプレイ

Claims

テキストにおけるターゲット意味的現象を識別する少なくとも１つのクロス・レイヤ・パターンを出力するためのコンピュータ実施方法であって、
前記ターゲット意味的現象を表すものとして指定された複数の訓練テキスト断片の各訓練テキスト断片の少なくとも幾つかの単語の各単語について、それぞれのレイヤにより定められる複数の特徴値を抽出することと、
前記複数の訓練テキスト断片について識別された前記複数の特徴値を統計的に分析して、前記複数の訓練テキスト断片についての共通のパターンを表す複数のレイヤを含む少なくとも１つのクロス・レイヤ・パターンを識別することであって、前記共通のクロス・レイヤ・パターンは、少なくとも１つの単語のそれぞれのレイヤの少なくとも１つの特徴値及び別の単語の別のそれぞれのレイヤの少なくとも別の特徴値を定める、分析することと、
前記ターゲット意味的現象を表すテキスト断片を識別するために、前記識別された少なくとも１つのクロス・レイヤ・パターンを出力することと、
を含む、方法。
新しいテキスト断片から抽出された特徴値を前記少なくとも１つのクロス・レイヤ・パターンの少なくとも１つと照合する又は相関させることによって、前記ターゲット意味的現象を識別するように統計的分類器を訓練することと、
新しいテキストを分析して前記ターゲット意味的現象を表す少なくとも１つの新しいテキスト断片を識別するために、前記訓練された統計的分類器を格納又は伝送することと、をさらに含む、請求項１に記載の方法。
前記それぞれのレイヤにより定められる前記複数の特徴値を抽出することは、前記ターゲット意味的現象を表さないものとして指定された訓練テキスト断片に対して実行され、前記統計的分類器は、前記ターゲット意味的現象を表さないものとして指定された前記訓練テキスト断片から抽出した前記特徴値に基づいて訓練される、請求項２に記載の方法。
前記クロス・レイヤ・パターンは、前記ターゲット意味的現象を含むテキスト断片内に現れない少なくとも１つの負の特徴値を含む、請求項１に記載のコンピュータ実施方法。
前記少なくとも１つのクロス・レイヤ・パターンの前記複数のレイヤの各レイヤは、意味的知識、統語的知識、ドメイン知識、タスク・エキスパートによる知識の注入、前記単語の品詞（ＰＯＳ）タグ、前記単語の上位語、前記単語により表される固有エンティティ、前記単語により表される感情、所定の辞書に現れる単語からなる群から選択されるメンバーである、請求項１に記載のコンピュータ実施方法。
前記クロス・レイヤ・パターンは、複数の異なるレイヤと関連した前記テキスト断片内の少なくとも１つの単語を含む、請求項１に記載のコンピュータ実施方法。
前記複数の異なるレイヤは、前記少なくとも１つの単語に対して組み合わされる、請求項１に記載のコンピュータ実施方法。
前記クロス・レイヤ・パターンは、各々異なるレイヤと関連した前記テキスト断片内の少なくとも２つの異なる単語を含む、請求項１に記載のコンピュータ実施方法。
前記少なくとも２つの異なる単語と関連した前記異なるレイヤは、前記クロス・レイヤ・パターン内の順序により定められる、請求項１に記載のコンピュータ実施方法。
前記ターゲット意味的現象は、定義、トピックの又はトピックに反する証拠を提供するステートメント、証拠なしにトピックについて何かが事実であるという、エンティティによりなされるステートメント、及びトピックについてエンティティにより表現される感情からなる群から選択されるメンバーである、請求項１に記載のコンピュータ実施方法。
前記クロス・レイヤ・パターンは、各々異なる単語からの少なくとも２つのレイヤの間の少なくとも１つの定められたギャップを含む、請求項１に記載のコンピュータ実施方法。
前記クロス・レイヤ・パターンは、特徴を繰り返し組み合わせてより長いクロス・レイヤ・パターンを生成することによって生成される、請求項１に記載のコンピュータ実施方法。
各々の繰り返しの終わりに貪欲分析を適用して正確な予測の確率に従ってランク付けされた上位の所定数のクロス・レイヤ・パターンを識別することをさらに含む、請求項１２に記載のコンピュータ実施方法。
前記上位の所定数のクロス・レイヤ・パターンは、他の以前に選択されたより高いランクの特徴を有する相関要件に基づいて選択される、請求項１３に記載のコンピュータ実施方法。
前記特徴を組み合わせることは、別の単語の別の特徴を組み合わせて及び順番に付加することによって実行される、請求項１２に記載のコンピュータ実施方法。
前記特徴を組み合わせることは、同じ単語の別の特徴を組み合わせて付加することによって実行される、請求項１２に記載のコンピュータ実施方法。
方法の請求項1から１６のいずれか一項に記載の前記方法の全てのステップを実行するように適合された手段を含むシステム。
コンピュータ・プログラムであって、前記コンピュータ・プログラムがコンピュータ・システム上で実行されるとき、方法の請求項1から１６のいずれか一項に記載の前記方法の全てのステップを実行するための命令を含む、コンピュータ・プログラム。