JP6781760B2 - 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法 - Google Patents

複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法 Download PDF

Info

Publication number
JP6781760B2
JP6781760B2 JP2018541179A JP2018541179A JP6781760B2 JP 6781760 B2 JP6781760 B2 JP 6781760B2 JP 2018541179 A JP2018541179 A JP 2018541179A JP 2018541179 A JP2018541179 A JP 2018541179A JP 6781760 B2 JP6781760 B2 JP 6781760B2
Authority
JP
Japan
Prior art keywords
cross
computer
word
layer pattern
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018541179A
Other languages
English (en)
Other versions
JP2019511036A (ja
Inventor
シュナーチ、エイアル
レヴィ、ラン
スローニム、ノーム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2019511036A publication Critical patent/JP2019511036A/ja
Application granted granted Critical
Publication of JP6781760B2 publication Critical patent/JP6781760B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Description

本発明は、幾つかの実施形態において、機械学習に関し、排他的ではなくより具体的には、人間可読テキストにおいてターゲットを識別するための自動機械学習のためのシステム及び方法に関する。
人間可読テキストにおけるパターンを識別するために、複数の方法が開発されている。例えば、特定の明確な意味的関係において互いに関連するテキスト内の単語(word)の対(大部分が名詞)を識別するために、方法が開発されている。例えば、著者−タイトル、人−誕生日、上位語(hypernym)及び部分語(meronym)などである。
複数レイヤの単語の表現にわたる言語特徴生成のためのコンピュータ実施方法、システム及びコンピュータ・プログラムを提供する。
本発明の幾つかの実施形態の態様によると、テキストにおけるターゲット意味的現象(target semantic phenomenon)を識別する1つ又は複数のクロス・レイヤ・パターンを出力するためのコンピュータ実施方法が提供され、この方法は、ターゲット意味的現象を表すものとして指定された訓練テキスト断片の各訓練テキスト断片の少なくとも幾つかの単語の各単語について、それぞれのレイヤにより定められる特徴値(feature-value)を抽出することと、訓練テキスト断片について識別された特徴値を統計的に分析し、訓練テキスト断片についての共通のパターンを表すレイヤを含む1つ又は複数のクロス・レイヤ・パターンを識別することであって、共通のクロス・レイヤ・パターンは、少なくとも1つの単語のそれぞれのレイヤの1つ又は複数の特徴値及び別の単語の別のそれぞれのレイヤの少なくとも別の特徴値を定める、分析することと、ターゲット意味的現象を表すテキスト断片を識別するために、識別されたクロス・レイヤ・パターンを出力することと、を含む。
随意的に、方法は、新しいテキスト断片から抽出された特徴値をクロス・レイヤ・パターンの少なくとも1つと照合する又は相関させることによってターゲット意味的現象を識別するように、統計的分類器を訓練することと、新しいテキストを分析してターゲット意味的現象を表す新しいテキスト断片を識別するために、訓練された統計的分類器を格納又は伝送することと、をさらに含む。随意的に、識別することは、ターゲット意味的現象を表さないものとして指定された訓練テキスト断片に対して実行され、分類器は、ターゲット意味的現象を表さないものとして指定された訓練テキスト断片から抽出した特徴値に基づいて訓練される。
随意的に、クロス・レイヤ・パターンは、ターゲット意味的現象を含むテキスト断片内に現れない少なくとも1つの負の特徴値を含む。
随意的に、クロス・レイヤ・パターンの各レイヤは、意味的知識、統語的知識、ドメイン知識、タスク・エキスパートによる知識の注入からなる群から選択されるメンバーである。代替的に又は付加的に、クロス・レイヤ・パターンの各レイヤは、単語の品詞(part-of-speech、POS)タグ、単語の上位語、単語により表される固有(named)エンティティ、単語により表される感情、所定の辞書(lexicon)内に現れる単語からなる群から選択されるメンバーである
随意的に、クロス・レイヤ・パターンは、複数の異なるレイヤと関連したテキスト断片内の1つ又は複数の単語を含む。
随意的に、複数の異なるレイヤは、1つ又は複数の単語について組み合わされる。
随意的に、クロス・レイヤ・パターンは、各々が異なるレイヤと関連したテキスト断片内の2つ又はそれより多い異なる単語を含む。
随意的に、2つ又はそれより多い異なる単語と関連した異なるレイヤは、クロス・レイヤ・パターン内の順序により定められる。
随意的に、ターゲット意味的現象は、定義、トピックの又はトピックに反する証拠を提供するステートメント、証拠なしにトピックについて何かが事実であるという、エンティティによりなされるステートメント、及びトピックについてエンティティにより表現される感情からなる群から選択されるメンバーである。
随意的に、クロス・レイヤ・パターンは、各々が異なる単語からの2つ又はそれより多いレイヤの間の少なくとも1つの定められたギャップを含む。
随意的に、クロス・レイヤ・パターンは、特徴を繰り返し組み合わせてより長いクロス・レイヤ・パターンを生成することによって生成される。随意的に、方法は、各々の繰り返しの終わりに貪欲分析(greedy analysis)を適用し、正確な予測の確率に従ってランク付けされた上位所定数のクロス・レイヤ・パターンを識別することをさらに含む。随意的に、上位の所定数のクロス・レイヤ・パターンは、他の以前に選択されたより高いランクの特徴を有する相関要件に基づいて選択される。代替的に又は付加的に、特徴を組み合わせることは、別の単語の別の特徴を組み合わせて及び順番に付加することによって実行される。代替的に又は付加的に、特徴を組み合わせることは、同じ単語の別の特徴を組み合わせて付加することによって実行される。
本発明の幾つかの実施形態の態様によると、少なくとも1つのクロス・レイヤ・パターンを少なくとも1つのテキスト断片に適用し、ターゲット意味的現象を識別するためのコンピュータ実施方法が提供され、この方法は、人間可読テキストの各テキスト断片内の少なくとも幾つかの単語から、各々がそれぞれのレイヤにより定められる複数の特徴値を抽出することと、複数の特徴値を少なくとも1つのクロス・レイヤ・パターンと照合する又は相関させることと、合致又は相関が見つかった場合、それぞれのテキスト断片内のターゲット意味的現象の存在のしるしを出力することと、を含む。
随意的に、少なくとも1つのクロス・レイヤ・パターンと照合する又は相関させることは、訓練された統計的分類器を複数の特徴値に適用することによって実行される。
本発明の幾つかの実施形態の態様によると、テキストにおけるターゲット意味的現象を識別するシステムであって、ターゲット意味的現象を表す複数の訓練テキスト断片を受け取るためのデータ・インターフェースと、コードを格納するプログラム・ストアと、格納されたコードを実施するための、データ・インターフェース及びプログラム・ストアに結合されたプロセッサとを含み、コードは、複数の訓練テキスト断片の少なくとも幾つかの単語の各単語について、それぞれのレイヤにより定められる複数の特徴値を抽出するためのコードと、複数の訓練テキスト断片についての共通のパターンを表す複数のレイヤを含む少なくとも1つのクロス・レイヤ・パターンを識別するために、複数の特徴値を統計的に分析するためのコードであって、共通のクロス・レイヤ・パターンは、少なくとも1つの単語のそれぞれのレイヤの少なくとも1つの特徴値及び別の単語の別のそれぞれのレイヤの少なくとも別の特徴値を定める、コードと、ターゲット意味的現象を表すテキスト断片を識別するために、識別された少なくとも1つのクロス・レイヤ・パターンを出力するためのコードとを含む。
別段の定めがない限り、本明細書で用いられる全ての技術的及び/又は科学的用語は、本発明が関係する技術の当業者により一般に理解されているものと同じ意味を有する。本明細書に述べられるものと類似又は等価の方法及び材料は、本発明の実施形態の実施又は試験に使用され得るが、例示的方法及び/又は材料が後述される。矛盾がある場合には、定義を含めて本明細書が優先する。加えて、材料、方法及び例は、例示にすぎず、必ずしも制限することを意図したものではない。
本発明の幾つかの実施形態が、添付図面を参照して単なる例として本明細書に説明される。特に図面を詳細に具体的に参照するが、その詳細は例であり、本発明の実施形態の説明に役立つ説明のために示されることが強調される。この点で、図面と併用される説明により、本発明の実施形態がどのように実施され得るかが、当業者には明らかになるであろう。
本発明の幾つかの実施形態による、テキストにおけるターゲット意味的現象を識別する少なくとも1つのクロス・レイヤ・パターンを出力するためのコンピュータ実施方法のフローチャートである。 本発明の幾つかの実施形態による、少なくとも1つのクロス・レイヤ・パターンを適用し、テキストにおけるターゲット意味的現象を識別するためのシステムのブロック図である。 本発明の幾つかの実施形態による、特徴を組み合わせて、ターゲット意味的現象を表すテキスト断片を示す統計的に重要なクロス・レイヤ・パターンを生成する例示的なコンピュータ実施方法のフローチャートである。 本発明の幾つかの実施形態による、少なくとも1つのクロス・レイヤ・パターンをテキストに適用し、ターゲット意味的現象の存在を識別するためのコンピュータ実施方法のフローチャートである。 本発明の幾つかの実施形態による、文においてなされる主張(claim)の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。 本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。 本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。 本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。 本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。 本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。 本発明の幾つかの実施形態による、文においてなされる主張の存在を識別するために用いられる例示的なクロス・レイヤ・パターンのリストである。
本発明は、幾つかの実施形態において、機械学習に関し、限定ではないがより具体的には、人間可読テキストにおいてターゲットを識別するための自動機械学習のためのシステム及び方法に関する。
本発明の幾つかの実施形態の態様は、例えば、テキストの句、所定数の単語(例えば、window(ウィンドウ))、文、所定数の文、又は段落などの、テキスト断片(text fragment)内の人間可読テキスト(例えば、ファイル、随意的にはテキスト・ファイルとして格納された)におけるターゲット意味的現象を識別する少なくとも1つのクロス・レイヤ・パターンを出力するシステム及び/又は方法(例えば、方法の命令を実施するコードを実行するプロセッサ)に関する。システム及び/又は方法は、識別されたクロス・レイヤ・パターンを用いてターゲット意味的現象を識別するように、統計的分類器を訓練することができる。ターゲット意味的現象は、抽象的であることもあり、又は人間により入力された命令のセットを用いて定義するのは困難であり得るが、例えばエンティティ(例えば、人、組織)が、特定のトピックについて主張(すなわち、必ずしも証拠を提供せずに何かが真実であるとのアサーション)をなす文を読むことによって、人間に認識可能である。本明細書で説明されるシステム及び/又は方法は、エンティティが文におけるトピックについて主張をなすことを示す1つ又は複数のクロス・レイヤ・パターンを出力することができる。訓練された統計的分類器は、クロス・レイヤ・パターンを適用して、テキスト断片の単語から抽出した特徴値を1つ又は複数のクロス・レイヤ・パターンと相関させる及び/又は照合することによって、新しいテキストにおけるターゲット意味的現象を識別することができる。
クロス・レイヤ・パターンは、テキスト断片、句、分析する単語の数(例えば、3、5、10語など)を定める所定のウィンドウ、単一の文、複数の文、及び/又は段落のような、テキストから抽出した特徴値に基づいて複数単語のテキストにおけるターゲット意味的現象を識別する共通の又は一般的なフィンガプリント又はテンプレートと考えることができる。
クロス・レイヤ・パターンは、ターゲット意味的現象を表す複数の文(又は他のテキスト断片)について一般的なレイヤのセットを表す。クロス・レイヤ・パターンは、同じ単語からの複数の特徴値、及び/又は異なる単語からの異なる特徴値を含み得る、複数の句、テキスト断片、又は文から抽出された複数の特徴値を一般化することができる。クロス・レイヤ・パターンは、特徴値の順序、及び/又は特徴値の組み合わせを定めることができる。特徴値は、例えば特徴値ベクトルとして、プロセッサと関連したメモリ内に格納することができる。
各々の特徴値は、少なくとも1つのレイヤに基づく。各々の単語は、同じレイヤの異なるレベルから抽出した特徴値、及び/又は異なるレイヤからの特徴値を含むことができる。
例示的なレイヤとして、1つ又は複数の意味的カテゴリ(例えば、単語の意味)、1つ又は複数の統語的カテゴリ(例えば、単語の順序及び/又は構造)、1つ又は複数のドメイン知識カテゴリ(例えば、単語がどのドメインに属するか、及び/又はドメインのどのレイヤに属するか)、1つ又は複数の知識の注入(例えば、タスク・エキスパートにより提供される)、単語の品詞(POS)(例えば、猫は名詞である)、単語の上位語(辞書により定義されるより一般的な単語、例えば、動物は、猫という単語の上位語である)、単語により表される固有エンティティ及びタイプ(例えば、IBM(IBM Corporationの商標)という単語は、会社というタイプの固有エンティティである)、及び単語により表される感情(sentiment)(例えば、良い)、並びに単語が所定の辞書内に現れるかどうか(及び随意的に、現れる場合、例えば各辞書について定められる単語のデータベースなど、どの辞書か)が挙げられる。
随意的に、クロス・レイヤ・パターンは、1つ又は複数の負の特徴値及び/又はレイヤを含む。負の特徴値は、ターゲット意味的現象を含むテキスト内に現れない特徴値を表す。文(又は他のテキスト断片)における負の特徴値の存在は、文(又は他のテキスト断片)がターゲット意味的現象を含まないことを示す。
随意的に、クロス・レイヤ・パターンは、文(又は他のテキスト断片)内に次々に現れる属性及び/又は特徴値のシーケンスを含む。クロス・レイヤ・パターンは、属性及び/又は特徴値間のギャップを含むことがあり、例えば、ギャップは、パターンについて示す単語が見つからなかったこと、従って、スキップされたことを表す。
本発明の幾つかの実施形態の態様は、1つ又は複数の識別されたクロス・レイヤ・パターンを複数単語の人間可読テキスト(例えば、テキスト・ファイルとしてメモリ内に格納された)に適用し、テキストの特定の句、文、及び/又は段落内に現れるようなターゲット意味的現象を識別するためのシステム及び/又は方法(例えば、方法の命令を実施するコードを実行するプロセッサ)に関する。随意的に、識別されたクロス・レイヤ・パターンを用いて訓練された統計的分類器が適用される。システム及び/又は方法は、テキストの各テキスト断片の複数の単語から複数の特徴値を抽出し、随意的に訓練された統計的分類器を用いて、抽出された特徴値を1つ又は複数のクロス・レイヤ・パターンと照合する及び/又は相関させる。1つ又は複数のクロス・レイヤ・パターンとの合致及び/又は相関は、特徴値が抽出されたテキスト断片がターゲット意味的現象を表すことを示す。ディスプレイ上でユーザに提示するために、ターゲット意味的現象が識別されるテキストの文、テキスト断片、及び/又は句をマーク付けすること、例えば、仮想タグでタグ付けすること、リストとして格納すること、色で強調表示すること、及び/又はウィンドウ内に提示することが可能である。
本明細書で説明されるシステム及び/又は方法は、コンピュータのメモリのテキスト・ファイル内に格納することができる単語のセット(例えば、文、テキスト断片、句)がターゲット意味的現象を表すかどうかを自動的に判断する(すなわち、プロセッサにより実行される命令コードによって)技術的問題に対する技術的解決法を提供する。ターゲット意味的現象は、単語のセットを読む人間により容易に認識可能であるが、例えばテキスト断片の単語とターゲット意味的現象との間の関係は、理解しにくく、明白ではなく、直感的でないことがあるので、プロセッサにより実行されるコードによる識別のために命令のセットとして定めることが、人間にとって困難なことがある。人間は、テキスト断片内のターゲット意味的現象を識別するために、コードを書く方法を知ることはできない。本明細書で説明されるシステム及び/又は方法は、ターゲット意味的現象の人間による手動定義を必要とすることなく、テキスト断片内のターゲット意味的現象を自動的に識別するプロセスを含む。
本明細書で説明されるシステム及び/又は方法(例えば、システム・コンポーネントにより実施される方法)は、処理リソース要件(例えば、プロセッサの利用)、及び/又はストレージ要件(例えば、メモリ空間)を減少させることによって、及び/又は、利用可能なコンピューティング・リソースを用いてリアルタイム処理(例えば、秒又は分のオーダーの)を提供することによって、コンピュータの性能を改善する。改善した性能は、例えば、クロス・レイヤ・パターンにおいて用いられる特徴値の組み合わせを選択するシステム及び/又は方法(例えば、システム・コンポーネントにより実施される)によって得ることができる。
本明細書で説明されるシステム及び/又は方法(例えば、システム・コンポーネントにより実施される方法)は、訓練された統計的分類器の形態の新しいデータ、及び/又はクロス・レイヤ・パターンの構造(統計的分類器によって用いることができる)を生成する。
本明細書で説明されるシステム及び/又は方法は、自動機械学習の分野の改善に関する。従って、本明細書で説明されるシステム及び/又は方法(例えば、システム・コンポーネントにより実施される方法)は、必然的に、自動機械学習の技術的分野において生じる実際の技術的問題を克服するためのコンピュータ技術に根差している。
本発明の少なくとも1つの実施形態を詳細に説明する前に、本発明は、その用途が、必ずしも以下の説明に述べられる、及び/又は図面及び/又は例に示されるコンポーネントの構成及び配置及び/又は方法の詳細に制限されるものではないことを理解されたい。本発明は、種々の方法で実施又は実行される他の実施形態も可能である。
本発明は、システム、方法、及び/又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチカード若しくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、又は、「C」プログラミング言語若しくは類似のプログラミング言語などの通常の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述することができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個人化することによりコンピュータ可読プログラム命令を実行し、本発明の態様を実施することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して説明される。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実施する命令を含む製品を製造するようにすることもできる。
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
本明細書で用いられる場合、以下の用語は、本明細書で説明されるように分析されるテキストの単位を表すものとして互いに交換可能である:すなわち、テキストの文、句、所定数の単語(例えば、分析ウィンドウ)、テキスト断片、所定数の文、段落、又は複数の段落など。
本明細書で用いられる場合、統計的分類器という用語は、ターゲット意味的現象(例えば、その存在、その不存在、及び/又はその存在又は不存在の確率)を示す入力及び出力として複数の特徴を受け取る1つ又は複数の機械学習方法を含むように広く用いられる。統計的分類器は、例えば、参照テーブル、テンプレートのセット、機能又は機能のセット、入力を出力カテゴリにマッピングする統計的分類器、決定論的分類器、ハッシュ・テーブル、マッピング機能、及び/又は他の方法を表す。
本明細書で用いられる場合、特徴値という用語は、文の実際の単語に基づいて抽出される値を意味する。本明細書で用いられる場合、レイヤという用語は、それぞれの単語についての付加的な情報を付加する分類カテゴリ及び/又は単語の態様を意味する。特徴値は、それぞれのレイヤにより定められる。異なるレイヤと関連した異なる特徴値は、例えば異なる単語からなど、各々の文から抽出される。例えば、第1のレイヤにより定められる第1の特徴値は、第1の単語から抽出され、第2の(異なる)レイヤにより定められる第2の(異なる)特徴値は、第2の(異なる)単語から抽出される。別の例において、同じ単語について、第1及び第2のレイヤにより定められる第1及び第2の特徴値は、同じ単語から抽出される。例えば、猫という単語について、第1の特徴値の名詞を抽出することができる(すなわち、猫は名詞である)。特徴値名詞は、第1のレイヤ、すなわち統語的レイヤであり得る品詞(POS)レイヤにより定められる。猫という同じ単語について、第2の特徴値の上位語を抽出することができる(すなわち、動物は、猫の上位語である)。第2の特徴値は、第2のレイヤ、すなわち辞書により定めることができる。
ここで、本発明の幾つかの実施形態による、人間可読テキスト(例えば、複数の単語、句、文)におけるターゲット意味的現象を識別する少なくとも1つのクロス・レイヤ・パターンを出力するためのコンピュータ実施方法のフローチャートである図1を参照する。クロス・レイヤ・パターンを用いて、文がターゲット意味的現象を表すかどうかの表示を出力するように、統計的分類器を訓練することができる。本発明の幾つかに実施形態による、テキストにおけるターゲット意味的現象を識別する少なくとも1つのクロス・レイヤ・パターンを出力するシステム200のブロック図である図2も参照する。方法及び/又はシステム200は、ユーザが、ターゲット意味的現象(抽象的であることもあり、及び/又は識別するために命令を定義することが困難であり得る)を表すテキスト(例えば、複数の文)を定めること、及び、テキスト内のターゲット意味的現象の存在を表す1つ又は複数のクロス・レイヤ・パターンを自動的に識別すること(テキストから抽出された特徴値に基づいて)を可能にする。
図1の方法の動作は、システム200のコンポーネントによって、随意的にはプログラム・ストア206内のコードとして格納される命令を実行するコンピューティング・ユニット204の処理ユニット202によって、実行することができる。
システム200は、例えば、サーバ(例えば、データ・インターフェース208を介してネットワーク接続上でサービスを1又は複数のクライアント端末に提供する)として、ウェブサーバ(例えば、ウェブブラウザを用いてサービスをクライアント端末に提供する)として、及び/又はローカルに格納されるコードを実行するクライアントとして、実装することができるコンピューティング・ユニット204を含む。コンピューティング・ユニット204は、ハードウェア・コンポーネント(例えば、スタンドアロンのコンピューティング・ユニット)として、ソフトウェア・コンポーネント(例えば、既存のコンピューティング・ユニット内に実装される)として、及び/又は既存のコンピューティング・ユニット(例えば、プラグインカード、取り付け可能ユニット)内に挿入されるハードウェア・コンポーネントとして、実装することができる。サーバの実装は、software as a service(SAAS)を提供すること、サーバと通信するクライアント上にインストールできるアプリケーションを提供すること、及び/又は遠隔アクセス・セッションを用いて機能を提供することによって、サービスをクライアント端末に提供することができる。コンピューティング・ユニット204の他の例示的な実装として、例えば、モバイル機器、デスクトップ・コンピュータ、シン・クライアント、スマートフォン、タブレット・コンピュータ、ラップトップ・コンピュータ、ウェアラブル・コンピュータ、メガネ・コンピュータ、及び腕時計コンピュータが挙げられる。
処理ユニット202は、例えば、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、フィールド・プログラム可能ゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)及び特定用途向け集積回路(ASIC)として実装することができる。処理ユニット202は、1つ又は複数のプロセッサ(同種又は異種)を含むことができ、それらは、クラスタとして及び/又は1つ又は複数のマルチコア処理ユニットとして、並列処理するように配置することができる。
プログラム・ストア206は、例えば、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、及び/又は、例えば不揮発性メモリ、磁気媒体、半導体メモリ・デバイス、ハードドライブ、取り外し可能ストレージ及び光学式媒体(例えばDVD、CD−ROM)などのストレージ・デバイスなど、処理ユニット202により実行されるコード命令を格納する。
コンピューティング・ユニット204は、例えば、メモリ、ハードドライブ、光ディスク、ストレージ・ユニット、遠隔ストレージ・サーバへのインターフェース、及びクラウドサーバへのインターフェース、及び/又は他のストレージ・ユニットなど、データを格納するためのデータ・リポジトリ210を含む。データ・リポジトリ210は、統計的分類器(例えば、本明細書で説明されるような)を訓練するためのテキストを格納する訓練テキスト・リポジトリ210A、異なるターゲット意味的現象(例えば、本明細書で説明されるような)を識別するように訓練された統計的分類器を格納する分類器リポジトリ210B、識別されたクロス・レイヤ・パターン(例えば、本明細書で説明されるような)を格納するクロス・レイヤ・パターン・リポジトリ210C、及び文から特徴値を抽出するための命令を格納する(例えば、スクリプト、規則のセット、コード、又は他の実装として)特徴値リポジトリ210Dを含むことができる。
コンピューティング・ユニット204は、例えば、タッチスクリーン、キーボード、マウス、及びスピーカ及びマイクロホンを用いた音声作動式ソフトウェアなど、(ディスプレイ214と統合することができる、又は別個のデバイスとして実装することができる)ユーザ・インターフェース212を含む、又はこれと通信する。
102において、複数の訓練文を含む訓練テキストを、コンピューティング・ユニット204により受け取り、訓練テキスト・リポジトリ210A内に格納することができる。訓練テキストは、段落及び/又は句を含むことができる。訓練テキストは、例えば、随意的にテキスト・ファイルなどのファイル、ワードプロセッシング・ファイル、バイナリ・ファイル又は他の形式として格納することができる。
本明細書で用いられる場合、文という用語は、句、又は概念若しくは文脈を一緒に形成する複数の単語を含む他のテキスト部分を意味することがあり、及び/又は、それらと交換可能であることがある。
訓練テキストは、例えば、キーボード(すなわち、ユーザ・インターフェース212)及び/又はタッチスクリーン(例えばディスプレイ214)を用いて、ユーザにより手動で入力すること、ネットワーク上で伝送すること(例えば、随意的にデータ・インターフェース208を介して、ファイル、ネットワーク・メッセージ、パケットとして)、及び/又はストレージ位置から(例えば、ディスク、取り外し可能メモリ、ストレージ・サーバ、及び/又は他のストレージ・デバイスから)取り出すこと、及び/又は遠隔位置へのリンク(例えば、テキストを含むウェブページへのリンク)として指定することができる。テキストの例として:オンライン・ニュース記事、本からの節、及び報告書からの段落が含まれる。
104において、ターゲット意味的現象を表す訓練テキスト内の1つ又は複数の訓練文の指定を、コンピューティング・ユニット204により受け取る。この指定は、例えば、ターゲット意味的現象を表す訓練文のボックスをクリックすること、強調表示すること、及び/又はチェックするなど、ユーザ・インターフェース212を用いて(例えば、ディスプレイ214上に提示されるグラフィカル・ユーザ・インターフェースを用いて)、ユーザにより手動で入力することができる。指定は、例えば指定された格納ファイルにおける、ターゲット意味的現象を表す文のリストを提供することにより、ユーザにより提供することができる。
随意的に、例えば、ユーザが、ターゲット意味的現象を表さない(例えば、ターゲット意味的現象を表すファイルとは異なるファイル内の)文のリストを提供すること、及び/又はターゲット意味的現象を表さない訓練文をマーク付けすること(例えば、ターゲット意味的現象を表す文の指定とは異なるマーク付けを用いて)によって、ターゲット意味的現象を表さない訓練テキスト内の1つ又は複数の訓練文の指定を、コンピューティング・ユニット204により受け取る。代替的に、ターゲット意味的現象を表さない文の明確でない文の指定が与えられる。コードは、指定されない文(すなわち、ターゲット意味的現象を表すものとして指定されない)はターゲット意味的現象を表さないと自動的に仮定することができる。
ブロック102及び104は、例えば、ユーザが、2つのファイル、すなわちターゲット意味的現象を表す文を含む第1のファイル及びターゲット意味的現象を表さない文を含む第2のファイルをアップロードするためにデータ・インターフェース208を用いることにより、同時に実行できることが留意される。
例示的なターゲット意味的現象は、定義文(すなわち、用語又は概念を説明する文)、トピックの又はトピックに反する証拠を提供するステートメント、証拠なしにトピックについて何かが事実であるという、エンティティによりなされるステートメント(すなわち、主張を含む文)、及びトピックについてエンティティにより表現される感情を含む。
106において、処理ユニット202により実行されるプログラム・ストア206内に格納されるコードは、訓練テキストの各訓練文の少なくとも幾つかの単語の各単語(又は複数の単語からなる句)について、1つ又は複数のレイヤ(例えば、1つ又は複数の分類カテゴリ)を表す1つ又は複数の特徴値を抽出する。幾つかの単語は、例えば接続詞などをスキップできることが留意される。代替的に、接続詞であっても全ての単語が考慮される。
特徴値は、データ・リポジトリ210内及び/又は他の位置に格納することができる特徴リポジトリ210D(例えば、データベース、特徴値を抽出するコード、特徴値を定めるテキストベースの規則、及び/又は他の実装)内に格納された所定の特徴値に基づいて、コードにより自動的に識別することができる。
随意的に、レイヤの1つ又は複数は、複数のレベルを有する階層を含む。特徴値は、階層の1又は複数のレベルに基づいて抽出することができる。随意的に、レイヤの1つ又は複数は、階層のない単一レベルを有するフラット・レベルを含む。特徴値は、レイヤのフラット・レベルに基づいて抽出することができる。本明細書で説明されるシステム及び/又は方法は、文内に現れない他の単語を除外しながら、異なる文における単語を表す、階層の最も適切なレベルを識別することができる。訓練文のセットが深紅色、スミレ色、及びラベンダー色を含むとき、第2のレベルから紫の色を選択することができる。色が大まかすぎ、訓練文内に含まれない第2のレベル上の他の色を含むことがあるので、必ずしも、第1のレベルからの特徴値の色を選択することができるとは限らない。黄色を含む新しい訓練文が分析されると、特徴値の色を選択することができる。
例示的なレイヤは、意味的知識、統語的知識、ドメイン知識、タスク・エキスパートによる知識の注入、単語の上位語、単語により表される固有エンティティ、単語により表される感情、所定の辞書内に現れる単語を含む。
108において、各訓練文について識別及び/又は抽出された特徴値を統計的に分析し(例えば、処理ユニット202により実行されるプログラム・ストア206内に格納されたコードによって)、訓練文のセット(例えば、受け取った全て)に対して共通のクロス・レイヤ・パターンを識別する。クロス・レイヤ・パターンは、各々が異なるレイヤを表す各文の少なくとも2つの単語から抽出された複数の特徴値を含む。クロス・レイヤ・パターンは、ターゲット意味的現象を表す文の単語から抽出された特徴値のセットの間の共通性の一般化を表す。受け取った訓練文のセット内のターゲット意味的現象と相関するクロス・レイヤ・パターンは、例えば、統計的確率閾値及び/又は範囲などの相関要件によって定めることができる。新しい文内の抽出された特徴値に基づいたクロス・レイヤ・パターンの識別は、ターゲット意味的現象を表す新しい文を示す。
クロス・レイヤ・パターンは、ターゲット意味的現象を表す文の共通の一般的構造を表す。クロス・レイヤ・パターンは、異なる文の間の共通性を最もよく表す単語を識別することに基づく。異なるレイヤにわたる一般化を識別し、文の間の一般的な共通性を捕える。
随意的に、クロス・レイヤ・パターンは、ターゲット意味的現象を表すものとして指定された文内に現れない1つ又は複数の負の特徴値を含む。負の特徴値は、ターゲット意味的現象を表さない文内に現れ得る。例えば、クロス・レイヤ・パターン、[数字なし(no digit][動詞(verb)][感情]は、数字を含まず、動詞の単語を有し、その後に感情の単語が続く(随意的に単語の間にギャップを有した状態で)文を識別する。
随意的に、クロス・レイヤ・パターンは、複数の異なるレイヤを有して識別される文内に1つ又は複数の単語を含む。各レイヤは、同じ単語から抽出された異なる特徴値に基づき得る。
随意的に、クロス・レイヤ・パターンは、異なるレイヤを有して識別された文内に2又はそれより多い異なる単語を含む。異なる特徴値は、異なる単語から抽出することができる。
随意的に、クロス・レイヤ・パターンは、2つ又はそれより多いレイヤの定められた組み合わせ及び/又は順序を含む。組み合わせは、同時に同じ単語内に現れる2つ又はそれより多い特徴値(異なるレイヤからの)に基づく。順序は、同時に同じ文の異なる単語内に現れる2つ又はそれより多い特徴値(異なるレイヤからの)に基づく。順序は、文内の単語の順序により定めることができる。順序は、例えば、特徴値1の後に特徴値2が続く、又は特徴値2の後に特徴値1が続くといった、異なる順序の順列などの複数の選択肢を含むことができる。
随意的に、クロス・レイヤ・パターンは、2つ又はそれより多いレイヤの間のギャップのような特徴値の間の1つ又は複数の定められたギャップを含む。ギャップは、特徴値が抽出されない単語などの、隣接する単語から抽出された特徴値の間に生じるものとして定めることができる。ギャップは、組み合わせ及び/又は順序として定めることができる。
ここで、クロス・レイヤ・パターンの例が提供される。以下の3つの文は、主張(すなわち、特定のトピックについての、人、組織、又はパーティのようなエンティティによるアサーション)を含むものとして指定される。各文の各主張は、異なるトピックと関連する。
(1)反対者は、開放予備選挙が違憲であると論ずる。
(2)リチャードは、プロプライエタリ・ソフトウェア(proprietary software)が一般的に悪意のある特徴を含むと言う。
(3)大多数は、修正第1項が他に違反する権利を保証しないと述べる。
上記の3つの文について識別されるクロス・レイヤ・パターンは、以下のように表すことができる3つの文が共有する共通の構造に基づいている。:
[誰かが(someone)][論ずる(argue)/言う(say)/述べる(state)][that][トピックに関連する何か(something-related-to-the-topic)]
新しい文における主張の存在を識別するために用いることができる、上記の3つの文について識別されるクロス・レイヤ・パターンは、以下の特徴値の組み合わせのセットにより形式的に表すことができる。:
[名詞][動詞表現の上位語][that接続詞][名詞&トピックの辞書からの単語]
ここで、本発明の幾つかの実施形態による、特徴値を結合して、ターゲット意味的現象を表すそれぞれの文を示す統計的に重要なクロス・レイヤ・パターンを生成する例示的なコンピュータ実施方法のフローチャートである、図3を参照する。方法の動作は、処理ユニット202により実行される、コンピューティング・ユニット204のプログラム・ストア206内に格納されたコードにより実行することができる。方法は、クロス・レイヤ・パターンを効率的及び自動的に構築することにより、コンピューティング・リソースの利用を改善することができる(例えば、プロセッサ及び/又はメモリ要件及び/又は利用の低減)。
図1を参照して説明されたように、図3の方法(例えば、方法を実装したプログラム・ストア206内に格納されたコード)は、ターゲット意味的現象を表すものとして指定された訓練文、及び随意的にターゲット意味的現象を表さないものとして指定された訓練文を入力として受け取る。
302において、各文から複数の特徴値が抽出される。随意的に、各文の各単語について、複数の特徴値が抽出される(幾つかの単語はスキップされ得る)。抽出される特徴値は、例えば、抽出のための自動化した特徴値のセット(例えば、全ての可能な特徴を抽出する力ずくの方法(brute force method))に基づくことができ、(例えば、スクリプト又は他の命令としてファイル内にユーザにより定められた)特徴値のセットを手動で定めることができ、及び/又はデータベース、コード、スクリプト、ファイル、又は他の実装により定めることができる。
304において、例えば、約0.1%、又は0.5%、又は1%未満、又は他の値のような、所定の百分率を下回る訓練文内に現れる特徴値など、頻繁でない特徴値をフィルタリングにより取り除くことができる。頻繁でない特徴値のフィルタリングにより、処理からまれな(rare)特徴値を排除することができ、そのことにより、クロス・レイヤ・パターンのメモリ・ストレージ・サイズが低減し、及び/又はまれな特徴値を抽出しようと試みることを防止することにより、プロセッサの利用が改善され得る。
306において、抽出した特徴値がランク付けされる。ランク付けは、それぞれの特徴値により提供される情報利得に基づくことができる。それぞれの特徴値を用いて及び用いずにエントロピーを計算することにより、情報利得を計算することができる。情報利得は、文におけるターゲット意味的現象の存在を正しく識別する能力(例えば、確率)へのそれぞれの特徴値の寄与を表すことができる。
308において、上位の特徴値が選択される。上位特徴値は、所定数の上位特徴値、情報利得閾値より上の全ての特徴値、又は他の方法に基づいて選択することができる。
特徴値は、他の以前に選択されたより高いランクの特徴値と相関されること(又は、所定の相関要件を下回る相関)に基づいて選択することができる。相関は、例えば、シード特徴値などの属性間の正規化された相互情報によって測定することができる。負の特徴値について、各々のシード特徴は、その負により二倍にすることができる。
310において、各々の単一特徴値パターンが、複数特徴値パターンに成長される。個々の特徴値(例えば、[名詞])は、他の特徴値の付加により成長されるシードを表す。
随意的に、個々の特徴値を別の単語の別の特徴値に付加し、特徴値の組み合わせを生成することができる。特徴値の順序は、特徴値の組み合わせの部分として定めることができる。特徴値は、特徴値の単語の前の単語及び/又特徴値の単語の後の単語を考慮することにより、左及び/又は右に成長させることができる。([名詞]、[感情])
代替的に又は付加的に、特定の単語の個々の特徴値を、同じ単語の別の特徴値と組み合わせる。他の特徴値は、異なる分類カテゴリのもの、及び/又は同じ分類カテゴリの異なるレイヤのものとすることができる。例えば、([名詞、dobj])。
312において、上位の(例えば、所定数の)クロス・レイヤ・パターンを識別するために、随意的に貪欲分析(greedy analysis)を用いて、生成された特徴パターン(すなわち、同じくクロス・レイヤ・パターンと呼ばれる特徴値の組み合わせ)が分析される。クロス・レイヤ・パターンは、情報利得及び/又は正確な予測の確率(例えば、ブロック306を参照して説明されるような)に従ってランク付けされる。
314において、上位の(例えば、所定数の)クロス・レイヤ・パターンが選択される。例えばブロック308を参照して説明されたように、パターンは、他の以前に選択されたより高いランク付けの特徴値との相関要件に基づいて選択することができる。
316において、付加的な特徴値(同じ単語及び/又は他の単語の)を繰り返し組み合わせてより長いクロス・レイヤ・パターンを生成することにより、各々のクロス・レイヤ・パターンが成長される。クロス・レイヤ・パターンは、例えば、パターンの最大ストレージ・サイズ、パターンにおける特徴値の最大数、パターンを用いた新しい文の最大推定処理時間、又は他の停止条件方法などの停止条件が満たされるまで、成長される。
318において、生成されたクロス・レイヤ・パターンは、別の位置(例えば、遠隔サーバ、クラウドサーバ)内に格納された、及び/又は伝送された(ネットワーク上でサーバ及び/又はクライアント端末へ)データ・リポジトリ210のクロス・レイヤ・パターン・リポジトリ210C内に格納される。
ここで再び図1の110を参照すると、コンピューティング・ユニット204の処理ユニット202により実行されるプログラム・ストア206内に格納されたコードは、1つ又は複数の新しい文を含む次のテキスト内のターゲット意味的現象を識別するように、統計的分類器を訓練する。統計的分類器は、ターゲット意味的現象を表す新しい文を示す新しいテキストの新しい文におけるクロス・レイヤ・パターンを識別するように、新しいテキストから抽出された特徴値を処理する。
統計的分類器は、それぞれの訓練文の識別されたクロス・レイヤ・パターン(抽出された特徴値を定めることができる)及びターゲット意味的現象(又はターゲット意味的現象の不存在)を入力として用いて訓練することができる。統計的分類器は、クロス・レイヤ・パターンとターゲット意味的現象との間の相関を識別し、新しい文について抽出された特徴値をターゲット意味的現象と相関させることができる。
単一クラス分類器、及び/又は複数の単一クラス分類器、及び/又はマルチクラス分類器、及び/又は複数のマルチクラス分類器を訓練することができる。例えば、分類器の組み合わせを、例えば、分類器のカスケード、分類器のブースティング・トポロジ、又は平行分類スキームなどの異なるターゲット意味的現象を識別するように訓練することができる。
随意的に、分類器は、教師あり学習(supervised learning)に基づいて訓練される。分類器を訓練するためのコード命令の例として、ニューラル・ネットワーク(Neural Networks)、サポート・ベクター・マシン(Support Vector Machines)、決定木(Decision Trees)、ハード/ソフト・スレショルディング(Hard/Soft Thresholding)、単純ベイズ分類器(Naive Bayes Classifiers)、又はいずれかの他の適切な分類システム及び/又は方法が挙げられる。代替的に又は付加的に、分類器は、例えば、k近傍法(k-Nearest Neighbors、KNN)クラスタリング、混合ガウス・モデル(Gaussian Mixture Model、GMM)パラメータ化などの教師なし学習(unsupervised leaning)、又は他の適切な教師なし方法に基づいて訓練される(及び/又は機械学習が行われる)。
訓練された統計的分類器は、ターゲット意味的現象を正しく識別する精度を示す確率を出力することができる。
随意的に、複数の訓練された統計的分類器が訓練される。各々の分類器は、1つのタイプのターゲット意味的現象を識別することができる。
112において、訓練された統計的分類器が、格納される(例えば、データ・リポジトリ210の分類器リポジトリ210B内に)、又はデータ・インターフェース208を介して(例えば、ネットワーク上で)クライアント端末によるローカル使用のため及び/又は遠隔ストレージのために遠隔サーバに伝送される。訓練された統計的分類器は、新しいテキストを分析して、ターゲット意味的現象を表す1つ又は複数の新しい文を識別するために用いられる。代替的に又は付加的に、識別されたクロス・レイヤ・パターンが格納される及び/又は伝送される。クロス・レイヤ・パターンを用いて、文内のターゲット意味的現象を識別すること(例えば、文から抽出された特徴値を照合する又は相関させることによって)、及び/又は、統計的分類器を訓練するために、別のプロセス(例えば、クライアント端末又はサーバのような外部コンピューティング・ユニット)により、クロス・レイヤ・パターンを用いることができる。
ここで、本発明の幾つかの実施形態による、クロス・レイヤ・パターン(随意的に、訓練された統計的分類器)を新しい人間可読テキスト(例えば、少なくとも1つの文又は句を含む)に適用して、ターゲット意味的現象の存在を識別するためのコンピュータ実施方法のフローチャートである、図4を参照する。方法は、プログラム・ストア206内に格納されるコード命令を実行するコンピューティング・ユニット204の処理ユニット202により実施することができる。
402において、ターゲット意味的現象を表すものとしてテキスト内の文を識別するように訓練された統計的分類器として、随意的に実装される1つ又は複数のクロス・レイヤ・パターンが提供される。複数の統計的分類器及び/又は複数のクロス・レイヤ・パターンを適用できることが留意される。各々の統計的分類器を、1つのタイプのターゲット意味的現象を識別するように訓練することができる。代替的に又は付加的に、同じ統計的分類器を、複数のタイプのターゲット意味的現象を識別するように訓練することもできる。訓練される統計的分類器は、例えば分類器リポジトリ210Bなどのストレージ・ユニットから取得することができる。
404において、1つ又は複数の文又は句を含む新しいテキストを、コンピューティング・ユニット204により受け取る。新しいテキストは、例えば、ユーザがテキストを手動で入力することによって(例えば、キーボードを用いて)、テキストを格納するテキスト・ファイルを介して、テキストを有するウェブページをホストするウェブサーバへのリンク又は他の方法を用いて、受け取ることができる。
406において、コードは、各文(例えば、全ての単語)内の少なくとも幾つかの単語から特徴値を抽出する。各々の抽出された特徴値は、それぞれのレイヤを表す。特徴値は、訓練された統計的分類器により定められるクロス・レイヤ・パターンに基づいて抽出することができる。随意的に、異なるクロス・レイヤ・パターン内に含まれる特徴値の全て(又はそのサブセット)が抽出される。
408において、随意的に各文について、抽出された特徴値を集めることができる。集められた特徴値を特徴値ベクトルとして編成することができる。
410において、訓練された統計的分類器を、各々の集められた特徴セットに(例えば、特徴値ベクトルに)適用する。訓練された統計的分類器は、集められた特徴値を1つ又は複数の所定のクロス・レイヤ・パターンに照合し又は相関させ、ターゲット意味的現象の存在を識別することができる。
随意的に、訓練された統計的分類器は、集められた特徴値が所定のクロス・レイヤ・パターンの1つ又は複数と相関するが、パターンと100%合致しない場合、ターゲット意味的現象の存在を識別する精度の確率を出力する。代替的に、集められた特徴値がクロス・レイヤ・パターンの1つに合致する場合、ターゲット意味的現象の存在の識別のみが行われる。
412において、ターゲット意味的現象の存在(又は、その不存在)の表示の出力が提供される。出力は、例えばGUI内のディスプレイ214上に提示することができ、この出力は、ターゲット意味的現象を表すテキストの文をマーク付けすること(例えば、強調表示で、下線で、太字で、又は他の方法で)ができる。別の例において、ターゲット意味的現象を表す文を含むファイルを作成し、メモリに保存することができる。
文においてなされた主張の存在を識別するために、訓練文から学習したクロス・レイヤ・パターンの例が、図5〜図11に提供される。訓練文に基づいて訓練された統計的分類器は、複数のクロス・レイヤ・パターンを含み、クロス・レイヤ・パターンの1つを新しい文から抽出された特徴値と照合する(又は、相関させる)とき、主張含むものとして新しい文を識別する。新しい文から抽出された特徴値は、クロス・レイヤ・パターン内に表される特徴値のタイプの全て(又は、選択されたサブセット)を含むことができる。
Figure 0006781760
本発明の種々の実施形態の説明は、例証目的のために提示されたが、これらは、網羅的であること、又は開示された実施形態に制限することを意図するものではない。当業者には、説明される実施形態の範囲の趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で用いられる用語は、実施形態の原理、実際の適用、又は市場に見られる技術に優る技術的改善を最もよく説明するため、又は、当業者が、本明細書で開示される実施形態を理解するのを可能にするために選択された。
本出願から特許が満期になるまでの期間中、多くの関連する統計的分類器及びコンピューティング・ユニットが開発されることが予想され、統計的分類器及びコンピューティング・ユニットという用語の範囲は、先天的に全てのこのような新技術を含むことを意図する。
本明細書で用いられる場合、「約」という用語は、±10%を指す。
「備える(comprises)」、「備えている(comprising)」、「含む(include)」、「含んでいる(including)」、「有している(having)」という用語、及びそれらの活用形は、「含むが、それらに限定されない」を意味する。この用語は、「からなる(consisting of)」及び「から本質的になる(consisting essentially of)」という用語を包含する。
「から本質的になる」という句は、組成物又は方法が、追加の成分若しくはステップが特許請求された組成物又は方法の基本的及び新規な特性を実質的に変更しない場合に限り、その追加の成分及び/又はステップを含み得ることを意味する。
本明細書で用いられる場合、単数形「a」、「an」及び「the」は、文脈により特に明記されない限り、複数の言及を含む。例えば、「化合物」又は「少なくとも1つの化合物」という用語は、複数の化合物を(これらの混合物を含めて)含み得る。
「例示的(exemplary)」という用語は、本明細書においては、「例、実例、又は例示として役立つこと」ことを意味するために使用される。「例示的」であるものとして記載されたいずれの実施形態も、必ずしも他の実施形態よりも好ましいもの又は有利であるもの、又は他の実施形態の特徴を取り入れることを除外するものと解釈されるべきではない。
「随意的に(optionally)」という用語は、本明細書においては、「幾つかの実施形態において提供され、他の実施形態において提供されない」ことを意味するために使用される。本発明のいずれの特定の実施形態も、複数の「随意的な」特徴を、このような特徴が矛盾しない限り、含むことができる。
本出願の全体を通して、本発明の様々な実施形態が範囲の形式で提示されることがある。範囲の形式での記載は、簡便及び簡潔のためにすぎず、本発明の範囲に対する柔軟性のない限定として解釈されてならないことを理解されたい。従って、範囲の記載は、その範囲内の個々の数値だけでなく、全ての可能な部分範囲を特に開示していると考えるべきである。例えば、1〜6の範囲の記載は、例えば1、2、3、4、5及び6など、その範囲内の個々の数だけでなく、1〜3、1〜4、1〜5、2〜4、2〜6、3〜6等の部分範囲を特に開示しているものと解釈されなければならない。これは、範囲の幅に関係なく当てはまる。
本明細書において数値の範囲が指示されるときは常に、指示された範囲内の任意の引用された数字(分数又は整数)を含むことを意味する。第1の指示数「と」第2の指示数「との間に範囲が及んでいる/及ぶ」及び第1の指示数「から」第2の指示数「までに範囲が及んでいる/及ぶ」という句は、本明細書において交換可能に用いられ、第1及び第2の指示数並びにその間の全ての分数及び整数を含むことを意味する。
明確にするために別個の実施形態の文脈で記載されている本発明の幾つかの特徴は、単一の実施形態において組み合わせて提供されてもよいことを理解されたい。反対に、簡潔にするために単一の実施形態の文脈で記載されている本発明の様々な特徴は、個別に、又は任意の適切な部分的組み合わせにおいて、又は本発明の他の任意の記載された実施形態において適切であるように提供されてもよい。様々な実施形態の文脈で記載された幾つかの特徴は、それらの要素なしでは実施形態が実施不能でない限り、それらの実施形態の必須の特徴と考えるべきではない。
本発明はその具体的実施形態と共に記載されているが、多くの代替、修正及び変形が当業者に明らかとなることが明白である。従って、本発明は、添付の特許請求の範囲の趣旨及び精神及び広い範囲に含まれるこのような代替、修正及び変形を包含することが意図される。
本出願におけるいかなる参照文献の引用又は特定も、このような参考文献が本発明に対する先行技術として利用可能であることの承認として解釈されるべきではない。セクション見出しが使用される限りにおいて、それらは必ずしも限定と解釈されるべきではない。
200:システム
202:処理ユニット
204:コンピューティング・ユニット
206:プログラム・ストア
208:データ・インターフェース
210:データ・リポジトリ
210A:訓練テキスト・リポジトリ
210B:分類器リポジトリ
210C:クロス・レイヤ・パターン・リポジトリ
210D:特徴値リポジトリ
212:ユーザ・インターフェース
214:ディスプレイ

Claims (18)

  1. テキストにおけるターゲット意味的現象を識別する少なくとも1つのクロス・レイヤ・パターンを出力するためのコンピュータ実施方法であって、
    前記ターゲット意味的現象を表すものとして指定された複数の訓練テキスト断片の各訓練テキスト断片の少なくとも幾つかの単語の各単語について、それぞれのレイヤにより定められる複数の特徴値を抽出することと、
    前記複数の訓練テキスト断片について識別された前記複数の特徴値を統計的に分析して、前記複数の訓練テキスト断片についての共通のパターンを表す複数のレイヤを含む少なくとも1つのクロス・レイヤ・パターンを識別することであって、前記共通のクロス・レイヤ・パターンは、少なくとも1つの単語のそれぞれのレイヤの少なくとも1つの特徴値及び別の単語の別のそれぞれのレイヤの少なくとも別の特徴値を定める、分析することと、
    前記ターゲット意味的現象を表すテキスト断片を識別するために、前記識別された少なくとも1つのクロス・レイヤ・パターンを出力することと、
    を含む、方法。
  2. 新しいテキスト断片から抽出された特徴値を前記少なくとも1つのクロス・レイヤ・パターンの少なくとも1つと照合する又は相関させることによって、前記ターゲット意味的現象を識別するように統計的分類器を訓練することと、
    新しいテキストを分析して前記ターゲット意味的現象を表す少なくとも1つの新しいテキスト断片を識別するために、前記訓練された統計的分類器を格納又は伝送することと、をさらに含む、請求項1に記載の方法。
  3. 前記それぞれのレイヤにより定められる前記複数の特徴値を抽出することは、前記ターゲット意味的現象を表さないものとして指定された訓練テキスト断片に対して実行され、前記統計的分類器は、前記ターゲット意味的現象を表さないものとして指定された前記訓練テキスト断片から抽出した前記特徴値に基づいて訓練される、請求項2に記載の方法。
  4. 前記クロス・レイヤ・パターンは、前記ターゲット意味的現象を含むテキスト断片内に現れない少なくとも1つの負の特徴値を含む、請求項1に記載のコンピュータ実施方法。
  5. 前記少なくとも1つのクロス・レイヤ・パターンの前記複数のレイヤの各レイヤは、意味的知識、統語的知識、ドメイン知識、タスク・エキスパートによる知識の注入、前記単語の品詞(POS)タグ、前記単語の上位語、前記単語により表される固有エンティティ、前記単語により表される感情、所定の辞書に現れる単語からなる群から選択されるメンバーである、請求項1に記載のコンピュータ実施方法。
  6. 前記クロス・レイヤ・パターンは、複数の異なるレイヤと関連した前記テキスト断片内の少なくとも1つの単語を含む、請求項1に記載のコンピュータ実施方法。
  7. 前記複数の異なるレイヤは、前記少なくとも1つの単語に対して組み合わされる、請求項1に記載のコンピュータ実施方法。
  8. 前記クロス・レイヤ・パターンは、各々異なるレイヤと関連した前記テキスト断片内の少なくとも2つの異なる単語を含む、請求項1に記載のコンピュータ実施方法。
  9. 前記少なくとも2つの異なる単語と関連した前記異なるレイヤは、前記クロス・レイヤ・パターン内の順序により定められる、請求項1に記載のコンピュータ実施方法。
  10. 前記ターゲット意味的現象は、定義、トピックの又はトピックに反する証拠を提供するステートメント、証拠なしにトピックについて何かが事実であるという、エンティティによりなされるステートメント、及びトピックについてエンティティにより表現される感情からなる群から選択されるメンバーである、請求項1に記載のコンピュータ実施方法。
  11. 前記クロス・レイヤ・パターンは、各々異なる単語からの少なくとも2つのレイヤの間の少なくとも1つの定められたギャップを含む、請求項1に記載のコンピュータ実施方法。
  12. 前記クロス・レイヤ・パターンは、特徴を繰り返し組み合わせてより長いクロス・レイヤ・パターンを生成することによって生成される、請求項1に記載のコンピュータ実施方法。
  13. 各々の繰り返しの終わりに貪欲分析を適用して正確な予測の確率に従ってランク付けされた上位の所定数のクロス・レイヤ・パターンを識別することをさらに含む、請求項12に記載のコンピュータ実施方法。
  14. 前記上位の所定数のクロス・レイヤ・パターンは、他の以前に選択されたより高いランクの特徴を有する相関要件に基づいて選択される、請求項13に記載のコンピュータ実施方法。
  15. 前記特徴を組み合わせることは、別の単語の別の特徴を組み合わせて及び順番に付加することによって実行される、請求項12に記載のコンピュータ実施方法。
  16. 前記特徴を組み合わせることは、同じ単語の別の特徴を組み合わせて付加することによって実行される、請求項12に記載のコンピュータ実施方法。
  17. 方法の請求項1から16のいずれか一項に記載の前記方法の全てのステップを実行するように適合された手段を含むシステム。
  18. コンピュータ・プログラムであって、前記コンピュータ・プログラムがコンピュータ・システム上で実行されるとき、方法の請求項1から16のいずれか一項に記載の前記方法の全てのステップを実行するための命令を含む、コンピュータ・プログラム。
JP2018541179A 2016-02-09 2017-01-19 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法 Active JP6781760B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/018,877 2016-02-09
US15/018,877 US10073834B2 (en) 2016-02-09 2016-02-09 Systems and methods for language feature generation over multi-layered word representation
PCT/IB2017/050276 WO2017137859A1 (en) 2016-02-09 2017-01-19 Systems and methods for language feature generation over multi-layered word representation

Publications (2)

Publication Number Publication Date
JP2019511036A JP2019511036A (ja) 2019-04-18
JP6781760B2 true JP6781760B2 (ja) 2020-11-04

Family

ID=59497694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018541179A Active JP6781760B2 (ja) 2016-02-09 2017-01-19 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法

Country Status (5)

Country Link
US (1) US10073834B2 (ja)
JP (1) JP6781760B2 (ja)
CN (1) CN108604228B (ja)
GB (1) GB2562983A (ja)
WO (1) WO2017137859A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10719661B2 (en) * 2018-05-16 2020-07-21 United States Of America As Represented By Secretary Of The Navy Method, device, and system for computer-based cyber-secure natural language learning
CN110716852B (zh) * 2018-07-12 2023-06-23 伊姆西Ip控股有限责任公司 用于生成自动化测试脚本的系统、方法和介质
DE102018213021A1 (de) 2018-08-03 2020-02-06 Robert Bosch Gmbh Computerimplementiertes Verfahren und Vorrichtung für Textanalyse
CN110874408B (zh) * 2018-08-29 2023-05-26 阿里巴巴集团控股有限公司 模型训练方法、文本识别方法、装置及计算设备
CN111291561B (zh) * 2018-12-07 2023-04-18 阿里巴巴集团控股有限公司 文本识别方法、装置和系统
CN109697291B (zh) * 2018-12-29 2023-04-18 北京百度网讯科技有限公司 文本的语义段落识别方法和装置
CN110175233B (zh) * 2019-03-07 2022-03-11 平安科技(深圳)有限公司 目标主体画像分析的方法、装置、计算机装置及存储介质
CN110069781B (zh) * 2019-04-24 2022-11-18 北京奇艺世纪科技有限公司 一种实体标签的识别方法及相关设备
US11544461B2 (en) * 2019-05-14 2023-01-03 Intel Corporation Early exit for natural language processing models
CN110413749B (zh) * 2019-07-03 2023-06-20 创新先进技术有限公司 确定标准问题的方法及装置
CN110969015B (zh) * 2019-11-28 2023-05-16 国网上海市电力公司 一种基于运维脚本的标签自动化识别方法和设备
CN111274790B (zh) * 2020-02-13 2023-05-16 东南大学 基于句法依存图的篇章级事件嵌入方法及装置
CN111597810B (zh) * 2020-04-13 2024-01-05 广东工业大学 一种半监督解耦的命名实体识别方法
CN111695117B (zh) * 2020-06-12 2023-10-03 国网浙江省电力有限公司信息通信分公司 一种webshell脚本检测方法及装置
CN111753498B (zh) * 2020-08-10 2024-01-26 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
US20220207235A1 (en) * 2020-12-30 2022-06-30 Baidu Usa Llc Method, apparatus and storage medium for determining destination on map
KR102435035B1 (ko) * 2021-02-19 2022-08-22 성균관대학교산학협력단 가짜 뉴스 동영상 탐지 시스템 및 그의 방법
CN114781400B (zh) * 2022-06-17 2022-09-09 之江实验室 一种跨媒体知识语义表达方法和装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725493B2 (en) * 2004-01-06 2014-05-13 Neuric Llc Natural language parsing method to provide conceptual flow
JP3372532B2 (ja) * 2000-10-11 2003-02-04 日本電信電話株式会社 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2003150186A (ja) * 2001-11-16 2003-05-23 Nippon Telegr & Teleph Corp <Ntt> ロボットシステム、ロボット制御方法、ロボット制御装置及びロボット制御プログラム
US20060009966A1 (en) 2004-07-12 2006-01-12 International Business Machines Corporation Method and system for extracting information from unstructured text using symbolic machine learning
JP4047885B2 (ja) * 2005-10-27 2008-02-13 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US8423348B2 (en) * 2006-03-08 2013-04-16 Trigent Software Ltd. Pattern generation
CN101446942A (zh) * 2008-12-10 2009-06-03 苏州大学 一种自然语言句子的语义角色标注方法
CN102439590A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的系统和方法
CN102023986B (zh) * 2009-09-22 2015-09-30 日电(中国)有限公司 参考外部知识构建文本分类器的方法和设备
US8533208B2 (en) * 2009-09-28 2013-09-10 Ebay Inc. System and method for topic extraction and opinion mining
JP2011118689A (ja) * 2009-12-03 2011-06-16 Univ Of Tokyo 検索方法及びシステム
JP5388038B2 (ja) * 2009-12-28 2014-01-15 独立行政法人情報通信研究機構 文書要約装置、文書処理装置、及びプログラム
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
DK2639749T3 (en) * 2012-03-15 2017-02-27 Cortical Io Gmbh Methods, apparatus and products for semantic processing of text
US20140156264A1 (en) 2012-11-19 2014-06-05 University of Washington through it Center for Commercialization Open language learning for information extraction
KR101448228B1 (ko) * 2013-02-12 2014-10-10 이주양 소셜 데이터 분석 장치 및 방법
US9292490B2 (en) * 2013-08-16 2016-03-22 International Business Machines Corporation Unsupervised learning of deep patterns for semantic parsing
CN104699695B (zh) * 2013-12-05 2018-06-19 中国科学院软件研究所 一种基于多特征语义树核的关系抽取方法和信息检索方法
US20150310862A1 (en) * 2014-04-24 2015-10-29 Microsoft Corporation Deep learning for semantic parsing including semantic utterance classification
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
US9582495B2 (en) * 2014-06-17 2017-02-28 Business Objects Software Ltd. Domain knowledge driven semantic extraction system
CN104281566A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种语义化文本描述方法及系统
CN104298658B (zh) * 2014-10-29 2017-11-17 百度在线网络技术(北京)有限公司 获取搜索结果的方法和装置
CN104462066B (zh) * 2014-12-24 2017-10-03 北京百度网讯科技有限公司 语义角色标注方法及装置
JP2015215626A (ja) * 2015-07-03 2015-12-03 株式会社東芝 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム

Also Published As

Publication number Publication date
GB2562983A (en) 2018-11-28
US20170228365A1 (en) 2017-08-10
GB201814449D0 (en) 2018-10-17
CN108604228B (zh) 2022-12-02
US10073834B2 (en) 2018-09-11
CN108604228A (zh) 2018-09-28
JP2019511036A (ja) 2019-04-18
WO2017137859A1 (en) 2017-08-17

Similar Documents

Publication Publication Date Title
JP6781760B2 (ja) 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法
US10789552B2 (en) Question answering system-based generation of distractors using machine learning
Lowe et al. Training end-to-end dialogue systems with the ubuntu dialogue corpus
Nouh et al. Understanding the radical mind: Identifying signals to detect extremist content on twitter
US11734329B2 (en) System and method for text categorization and sentiment analysis
US11159459B2 (en) Managing content in a collaboration environment
Schick et al. True few-shot learning with Prompts—A real-world perspective
EP2664997A2 (en) System and method for resolving named entity coreference
US11106687B2 (en) Sentiment normalization using personality characteristics
US11573995B2 (en) Analyzing the tone of textual data
US9633008B1 (en) Cognitive presentation advisor
US20200160231A1 (en) Method and System for Using a Multi-Factorial Analysis to Identify Optimal Annotators for Building a Supervised Machine Learning Model
CN109359290B (zh) 试题文本的知识点确定方法、电子设备及存储介质
US20170169355A1 (en) Ground Truth Improvement Via Machine Learned Similar Passage Detection
KR20210023452A (ko) 속성 단위 리뷰 분석 장치 및 방법
US20170344625A1 (en) Obtaining of candidates for a relationship type and its label
JP2022541444A (ja) 機械支援型エージェントにおける自然言語応答
Chen et al. Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network
Nasr et al. Building sentiment analysis model using Graphlab
CN115269827A (zh) 改进消息接发对话管理系统中的意图确定
US20150370887A1 (en) Semantic merge of arguments
Villatoro-Tello et al. UAM's Participation at CLEF eRisk 2017 task: Towards Modelling Depressed Blogers.
Theophilo et al. Explainable artificial intelligence for authorship attribution on social media
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
US10002450B2 (en) Analyzing a document that includes a text-based visual representation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201016

R150 Certificate of patent or registration of utility model

Ref document number: 6781760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150