JP6927300B2 - 情報処理装置、情報処理システム、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP6927300B2
JP6927300B2 JP2019524760A JP2019524760A JP6927300B2 JP 6927300 B2 JP6927300 B2 JP 6927300B2 JP 2019524760 A JP2019524760 A JP 2019524760A JP 2019524760 A JP2019524760 A JP 2019524760A JP 6927300 B2 JP6927300 B2 JP 6927300B2
Authority
JP
Japan
Prior art keywords
occurrence
data
predicate
tensor
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019524760A
Other languages
English (en)
Other versions
JPWO2018235177A1 (ja
Inventor
翔平 東山
翔平 東山
穣 岡嶋
穣 岡嶋
定政 邦彦
邦彦 定政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2018235177A1 publication Critical patent/JPWO2018235177A1/ja
Application granted granted Critical
Publication of JP6927300B2 publication Critical patent/JP6927300B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Description

本発明は、情報の処理、特に、言語に関連する情報を処理する情報処理装置などに関する。
所定の言語における意味を理解する処理、又は、所定の言語における推論を実現する処理のためには、予め、ある程度の大量かつ所定の範囲における知識(事前知識)が必要である。このような知識の一つとして、イベント間の含意関係知識がある。
イベントとは、何らかの出来事を表す言語における表現である。言語解析のための文法理論の一つである格文法では、イベント(出来事)は、述語(predicate)、及び、0個以上の項(argument)を含む述語項構造(predicate argument structure)を用いて表される。
述語とは、イベントの成り行きを記述する言葉であり、一般的に、動詞である。ただし、述語として、動詞に加え、形容詞又は名詞などを含む理論もある。以下の説明に用いる例では、述語として動詞を用いる。ただし、これは、本発明を動詞に限定するものではない。
また、項とは、イベントの記述に必要不可欠な要素である。項の分類としては、一般的に「格(case)」が用いられる。例えば、格には、述語の動作主体である動作主格(Agent)、述語の対象である対象格(Object)、述語の目標である目標格(Goal)、及び、述語に関連する手段である道具格(Instrument)などがある。
また、含意関係知識とは、2つのイベント間における含意関係に関連する知識である。イベント間の含意関係とは、片方のイベント(一般的に、次のイベントに対して前に表現されるため、以下「前件」と呼ぶ)が成立した際、必ず又は高い確率で、他方のイベント(以下、「後件」とも呼ぶ)が成立する関係である。例えば、イベントP(前件)が成立した際に、必ず又は高い確率でイベントQ(後件)が成立する場合、イベントP及びQからなるイベント対(event pair)は、含意関係にある。なお、上記のようなイベント対の含意関係は、一般的に「P→Q」と表される。含意関係知識とは、このような含意関係にあるイベント対を含む知識である。
コンピュータにおいて処理可能な言語データ又は文字データの集合(以下、「テキスト」とも呼ぶ)から、含意関係を取得する技術が研究されている(例えば、特許文献1及び2、並びに、非特許文献1を参照)。
特許文献1に開示されている技術(以下、「第1の関連技術」と呼ぶ)は、2つのテキストにおける述語項構造のベクトルを比較して、述語項構造の組合せを同定する。そして、第1の関連技術は、組合せの特徴量に基づいてテキスト間の含意関係を判定する。
特許文献2に開示されている技術(以下、「第2の関連技術」と呼ぶ)は、標本データにおける画像と画像以外のメディアとのトピックの分類の精度を向上するための技術である。第2の関連技術は、まず、トピックの特徴量ベクトルを要素とするトピック共起確率行列を、潜在トピック共起確率行列と潜在トピック重み行列とに分解する。そして、第2の関連技術は、潜在トピック共起確率行列から、画像及び画像以外のメディアそれぞれに対応する潜在トピック共起確率を算出する。
非特許文献1に開示されている技術(以下、「第3の関連技術」と呼ぶ)は、述語対に共有される項(共有項)の情報に基づき、テキストから含意関係知識を抽出する。
具体的には、第3の関連技術は、入力されたテキストから述語項構造を抽出し、抽出した述語項構造を述語と一つの項との組に分解する。そして、第3の関連技術は、各組が出現した頻度(その組に含まれる述語と項との共起頻度)をカウントし、「述語、項、及び共起頻度」からなる共起頻度データベースを構築する。次に、第3の関連技術は、共起頻度データベースを基に、同一の項を共有する「述語項構造の対」を選択する。同一の項を共有する述語項構造の対とは、例えば、述語項構造(述語v1,項a1)と述語項構造(述語v2,項a2)とにおいて、「v1≠v2 ∧ a1=a2」である述語項構造の対である。
そして、第3の関連技術は、その述語項構造の対における含意関係知識としての関連の強さを示すスコア(以下、第3の関連技術の説明において、「スコア1」と呼ぶ)を計算する。続いて、第3の関連技術は、同一の「述語の対」を含む全ての述語項構造の対のスコア1を統合したスコア(以下、第3の関連技術の説明において「スコア2」と呼ぶ)を計算する。スコア2は、述語対における含意関係知識としての関連の強さを示す値である。第3の関連技術は、スコア2が所定の条件(例えば、スコア2が閾値より大きい)を満たす述語の対を選択する。そして、第3の関連技術は、選択した述語の対を、含意関係知識の集合に追加する。
国際公開第2013/058118号 特開2011−108192号公報
橋本 力、鳥澤 健太郎、黒田 航、デサーガ ステイン、村田 真樹、風間 淳一 著、「WWWからの大規模動詞含意知識の獲得」情報処理学会論文誌、52巻、1号、2011年1月15日、293から307ページ
項を共有しないイベント対が、含意関係となる場合もある。
しかし、第3の関連技術は、対象となるテキスト中で、同一の項を共有しないイベント対については、関連の強さを判定できない。つまり、第3の関連技術は、含意関係知識として、項を共有しないが含意関係を有しているイベント対を抽出できないという問題点があった。
イベントに含まれる項を増やすと、イベント間において、少なくとも一部の項を共有する可能性が高くなる。第3の関連技術は、項の共有として、複数の項を含むイベント対における項の共有についても処理することができる。
しかし、イベントに含まれる項を多くすると、テキストにおいて、そのイベントが発生することが、まれとなる。そのため、イベントに含まれる項を多くすることは、必ずしも上記問題点を解決するものではない。
また、第1及び第2の関連技術は、項を共有しないイベント対の処理に関連する技術ではない。
このように、特許文献1並びに2、及び、非特許文献1には、言語データにおいて共起が観測されないが共起する可能性がある述語項構造の対、つまり共起が潜在している述語項構造の対を選択できないという問題点があった。
本発明の目的は、上記問題点を解決し、言語データにおいて潜在的な共起の関係となっている述語項構造の対を選択する情報処理装置など提供することにある。
本発明の一形態である情報処理装置は、言語データを基に述語と述語の対象となる項とを含む述語項構造を生成する構造生成手段と、述語項構造における述語と項との共起を示す第1のデータを生成する共起生成手段と、第1のデータを第1のデータに含まれる要素より少ない要素を含む複数の第2のデータに分解し、第2のデータを基に述語と項との潜在的共起を含む第3のデータを生成する潜在生成手段と、第1のデータ及び第3のデータを用いて述語項構造を選択し、選択した述語項構造を含む述語項構造の対におけるスコアを第3のデータを用いて計算するスコア計算手段と、スコアを基に対を選択する対選択手段と含む。
本発明の一形態である情報処理システムは、上記情報処理装置と、言語データを取得して、情報処理装置に送信する送信装置と、選択された対を情報処理装置から受信して保存する受信装置とを含む。
本発明の一形態である情報処理方法は、言語データを基に述語と述語の対象となる項とを含む述語項構造を生成し、述語項構造における述語と項との共起を示す第1のデータを生成し、第1のデータを第1のデータに含まれる要素より少ない要素を含む複数の第2のデータに分解し、第2のデータを基に述語と項との潜在的共起を含む第3のデータを生成し、第1のデータ及び第3のデータを用いて述語項構造を選択し、選択した述語項構造を含む述語項構造の対におけるスコアを第3のデータを用いて計算し、スコアを基に対を選択する。
本発明の一形態であるプログラムは、言語データを基に述語と述語の対象となる項とを含む述語項構造を生成する処理と、述語項構造における述語と項との共起を示す第1のデータを生成する処理と、第1のデータを第1のデータに含まれる要素より少ない要素を含む複数の第2のデータに分解する処理と、第2のデータを基に述語と項との潜在的共起を含む第3のデータを生成する処理と、第1のデータ及び第3のデータを用いて述語項構造を選択する処理と、選択した述語項構造を含む述語項構造の対におけるスコアを第3のデータを用いて計算する処理と、スコアを基に対を選択する処理とをコンピュータに実行させる

本発明によれば、言語データにおいて潜在的な共起の関係となっている述語項構造の対を選択できるとの効果を奏する。
図1は、本発明における第1の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図2は、述語項構造の対の一例を示す図である。 図3は、原共起テンソルの一例を示す図である。 図4は、別の原共起テンソルの一例を示す図である。 図5は、潜在生成部の説明に用いる原共起テンソルの一例を示す図である。 図6は、因子テンソルの一例を示す図である。 図7は、図6の因子テンソルの積である復元テンソルを示す図である。 図8は、原共起テンソルと復元テンソルとを示す図である。 図9は、第1の実施形態に係る情報処理装置の動作の一例を示すフロー図である。 図10は、第2の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図11は、3階のテンソルの場合におけるテンソルの分解と積との一例を示す図である。 図12は、第3の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図13は、対象となる格が2つの場合における行列の分解と積との一例を示す図である。 図14は、図13に対応する関連度に用いるベクトルの一例を示す図である。 図15は、情報処理装置のハードウェアの構成の一例を示すブロック図である。 図16は、本発明のおける各実施形態に係る情報処理システムの構成の一例を示す図である。
次に、本発明における実施形態について図面を参照して説明する。
各図面は、本発明における実施形態を説明するためのものである。ただし、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明を、省略する場合がある。また、以下の説明に用いる図面において、本発明の説明に関係しない部分の構成については、記載を省略し、図示しない場合もある。
本発明における実施形態は、言語に関連するデータ(以下、「言語データ」と呼ぶ)を処理する。
処理対象となる言語におけるデータの形式は、任意である。例えば、データの形式は、テキスト形式、又は、バイナリ形式でもよい。あるいは、言語データは、Hyper−Text Markup Languageのように、言語データ内にメタデータ又は言語階層に関連するデータを含むデータでもよい。
さらに、処理に用いる言語の構造は、構造に含まれ要素間及び構造間の共起を定義できる限り、任意である。以下では、構造の一例として、述語項構造を用いて説明する。
さらに、処理の対象となる言語における共起における意味的内容は、任意である。例えば、意味的内容の一例は、イベント対における含意関係である。イベント対における含意関係とは、イベント対(例えば、「P→Q」)における前のイベント(前件P)が成立時に後のイベント(後件Q)が成立することである。
さらに、具体的な処理に用いられるデータ構成は、任意である。例えば、処理に用いるデータ構成は、行列(matrix)でもよく、行列の拡張でもあるテンソル(tensor)でもよい。以下では、データ構成として、適宜、テンソル及び/又は行列を用いて説明する。ただし、これは、本発明におけるデータ構成を、テンソルなどに限定するものではない。
本発明は、以下の説明に用いられるデータ、その形式、及び、その構成などに限定されない。
<第1の実施形態>
以下、図面を参照して、第1の実施形態について説明する。
(概要)
第1の実施形態に係る情報処理装置100は、言語データを基に、その言語データにおける述語項構造における述語と項との共起(co−occurrence)を示すデータ(以下、「第1のデータ」と呼ぶ)を生成する。
そして、情報処理装置100は、第1のデータを所定のデータ(以下、「第2のデータ」と呼ぶ)に変換し、第2のデータを基に、述語項構造における述語と項との潜在的な共起を含むデータ(以下、「第3のデータ」と呼ぶ)を生成する。
ここで、潜在的な共起とは、言語データにおいて明示的には共起となっていない(つまり、言語データにおいて観測されなかった)述語項構造における述語と項との共起である。第1のデータと第3のデータとの差が、潜在的共起となる。
そして、情報処理装置100は、潜在的共起の値が所定の閾値より大きい「述語項構造を含む「述語項構造の対」における評価値(以下、「スコア」と呼ぶ)を計算する。
そして、情報処理装置100は、スコアが所定の条件を満たす述語項構造の対を選択する。
選択された述語項構造の対が、言語データにおいて潜在されていた含意関係知識の候補となる。
述語項構造の対のスコアは、例えば、述語項構造の対において、前件の成立時に後件が成立する(つまり、前件が後件を含意する)程度(例えば、確率)を示す値である。スコアの値は、上記の程度が高くなるほど高い値となってもよく、程度が高くなるほど低い値となってもよい。ただし、以下の説明では、スコアの値は、上記の程度が高くなるほど、高い値となるとする。つまり、以下の説明では、スコアは、前件が成立時に後件が成立する程度が高いほど高い値となる。ただし、本実施形態のスコアは、上記に限定されない。
[構成の説明]
まず、図面を参照して、本発明における第1の実施形態に係る情報処理装置100の構成について説明する。
図1は、本発明における第1の実施形態に係る情報処理装置100の構成の一例を示すブロック図である。
情報処理装置100は、構造生成部120と、共起生成部130と、潜在生成部140と、スコア計算部150と、対選択部160とを含む。
各構成は、処理の結果を他の構成に送信してもよい。あるいは、情報処理装置100が図示しない記憶部を含む場合、各構成は、処理結果をその記憶部に保存し、必要な情報をその記憶部から読み出してもよい。そのため、以下の説明において、構成間の情報の送信及び受信の説明を省略する。
構造生成部120は、言語データに含まれる述語項構造を生成する。例えば、構造生成部120は、所定の解析手法(例えば、形態素解析、依存構造解析、又は、述語項構造解析)を用いて言語データにおける構造を解析する。そして、構造生成部120は、解析結果を基に、言語データから述語項構造を生成する。
構造生成部120における言語データの提供元は、任意である。例えば、構造生成部120は、図示しない外部の装置から言語データを取得してもよい。あるいは、構造生成部120は、図示しない記憶部から言語データを取得してもよい。あるいは、構造生成部120は、図示しない情報処理装置100に含まれる構成(例えば、図示しない処理部又はデータ取得部)から言語データを取得してもよい。
さらに、構造生成部120は、言語データに加え、述語項構造を生成するために用いる情報(以下、「言語解析情報」と呼ぶ)を取得してもよい。言語解析情報とは、言語データにおける、形態素解析の結果、依存構造解析の結果、及び/又は、述語項構造解析の結果等である。この場合、構造生成部120は、言語解析情報を用いて、述語項構造を生成する。
共起生成部130は、言語データ及び述語項構造を基に、述語項構造における述語と項との共起を示すデータ(第1のデータ)を生成する。
例えば、共起生成部130は、共起を示すデータとして、言語データにおける述語項構造の出現頻度を算出してもよい。あるいは、共起生成部130は、出現頻度を、所定の手法を用いて正規化してもよい。
以下、このデータの一例としてテンソルを用いて説明する。共起生成部130は、述語項構造間における共起の関係を示す値を保持するようにテンソルを生成する。
なお、後ほど説明するように、情報処理装置100は、他のテンソルを生成する。そのため、共起生成部130が生成するテンソルを、以下、「原共起テンソル(original co−occurrence tensor)」と呼ぶ。なお、詳細については後ほど説明するが、生成される原共起テンソルの数は、1つでもよく、複数でもよい。
図面を参照して、原共起テンソルについて説明する。
原共起テンソルは、述語項構造に対応するテンソルである。そのため、原共起テンソルは、述語についてのモード(軸)と、予め処理対象として設定されている格の項についてのモードとを有する。
図2は、述語項構造の対の一例を示す図である。図2において、丸括弧が、それぞれの述語項構造である。丸括弧内の最も左の要素が、述語である。その他の項が、格に対応する項である。角括弧は、述語項構造内の要素の種類(述語、又は、格)を示す。矢印の前(図2では上)の述語項構造が、前件である。矢印の後(図2では下)の述語項構造が、後件である。
図2は、“述語項構造(焼く[述語],魚[対象格],グリル[道具格])、ならば、述語項構造(調理する[述語],魚[対象格],グリル[道具格])”との述語項構造の対における含意関係を示す。
図3は、図2に示されている述語項構造を含む原共起テンソルの一例を模式的に示す図である。図3に示されている原共起テンソルは、述語と、全ての項を含むテンソルの一例である。具体的には、図3に示されている原共起テンソルは、述語のモード(v)と、道具格の項のモード(a)と、対象格の項のモード(a)との三つのモードを含む。
図4は、図2に示されている述語項構造を含む別の原共起テンソルの一例を示す図である。図4に示されている原共起テンソルは、それぞれ、述語と1つの格とを含むテンソルである。この場合、各原共起テンソルに含まれるモードは、2つとなる。そのため、原共起テンソルのデータの形式は、行列となる。図4の左側のテンソルは、述語(v)と対象格の項(a)とのモードを含むテンソル(行列)である。また、図4の右側のテンソルは、述語(v)と道具格(a)とのモードを含むテンソル(行列)である。
共起生成部130は、図3に示されているような全ての述語項構造を含む原共起テンソルを生成してもよい。
あるいは、共起生成部130は、図4に示されているような述語と一部の項とを含む原共起テンソルを生成してもよい。ただし、この場合、共起生成部130は、全ての項が含まれるように、複数の原共起テンソルを生成する。
図1を参照した説明に戻る。
潜在生成部140は、潜在的共起を含むデータ(第3のデータ)を生成するため、原共起テンソル(第1のデータ)を所定のデータ(第2のデータ)に分解し、分解したデータを基に潜在的共起を含むデータ(第3のデータ)を生成する。
具体的には、潜在生成部140は、原共起テンソルを基に潜在的共起を含むテンソルを生成する。より詳細には、潜在生成部140は、原共起テンソルを、原共起テンソルより低いランク(階数)のテンソルに分解し、分解したテンソルの積となるテンソルを生成する。生成されたテンソルは、所定の分解手法を用いた場合、原共起テンソルの近似となる。
以下、原共起テンソルを分解したテンソル(原共起テンソルより低ランクのテンソル)を、「因子テンソル(factor tensor)」と呼ぶ。さらに、因子テンソルの積であるテンソルを復元テンソル(restore tensor)と呼ぶ。復元テンソルは、原共起テンソルの近似であり、原共起テンソルと同じモードのテンソルである。
なお、因子テンソルは、原共起テンソルよりランクが低い。そのため、因子テンソルに含まれる要素の数は、原共起テンソルに含まれる要素の数より少ない。
原共起テンソル、因子テンソル、及び復元テンソルが、それぞれ、第1のデータ、第2のデータ、及び第3のデータの一例である。
図面を参照して、因子テンソル、及び、復元テンソルについて説明する。
図5は、潜在生成部140の説明に用いる原共起テンソルXの一例を示す図である。図5に示されている原共起テンソルXは、述語(v)と対象格の項(a)とを含むテンソルである。図5の原共起テンソルXは、モードが2つのため、行列となっている。
なお、図5を含め各図において、空欄は、その値が0に等しい、又は、その値の絶対値が十分小さい(例えば、10−10以下)欄である。以下、各図における空欄は、このように、その値が0、又は、その値の絶対値が所定の値より小さい欄を示す。
また、各図における数値は、有効数字を3けたとした。
潜在生成部140は、原共起テンソルを、因子テンソルに分解する。そして、潜在生成部140は、因子テンソルの積として復元テンソルを生成する。
潜在生成部140がテンソルの分解に用いる手法は、対象となるテンソルを基に決定される。より詳細には、その方法は、過去の知見などを参照して、原共起テンソルのランク、許容する近似精度(原共起テンソルと復元テンソルとの差の大きさ)、及び、処理時間等に基づき、適切な方法が決定される。例えば、潜在生成部140は、テンソル(行列)分解手法の一種である非負値行列因子分解を用いてもよい。
また、潜在生成部140は、因子テンソル及び復元テンソルを、次のような最適化問題の解として求めてもよい。
最適化問題:原共起テンソルと復元テンソルの差(この差は、「距離」とも呼ばれる)を最小化する。
制約:因子テンソルは、非負のテンソル(全ての成分が0以上であるテンソル)である。
上記のような最適化問題の解法の手法として、いろいろな手法が提案されている。そこで、潜在生成部140が用いる手法は、具体的な最適化問題に合わせて選択されればよい。
図6は、因子テンソルの一例を示す図である。図6において、述語(v)のモードと対象格の項(a)のモードとを含む原共起テンソルXが、因子テンソルF及びGに分解されている。因子テンソルFは、対象格の項(a)と行列分解のために導入されたモード(以下、「モードk」と呼ぶ)とを含むテンソルである。因子テンソルGは、述語(v)のモードとモードkとを含むテンソルである。
なお、因子テンソルF及びGにおけるモードkは、述語及び項の共起に基づいて表される抽象的な概念に相当する。そこで、モードkは、「潜在意味」と呼ばれている。
例えば、図6において、潜在意味k1は、述語“飲む”、並びに、項“お茶”、“コーヒー”、及び“コーラ”において、その値が他の成分に比べ相対的に大きい。そのため、モードk1の潜在意味としては、上記の述語及び項の集合を基に想起される概念、例えば、“何らかの飲物について飲む行為を実行する”との潜在的な意味が、想定可能である。
そして、因子テンソルFとGとの積は、復元テンソルとなる。
図7は、図6の因子テンソルF及びGの積である復元テンソルX’を示す図である。
図8は、比較のため、原共起テンソルXと復元テンソルX’と並べて示す図である。
図8を参照すると、原共起テンソルXにおいて空欄となっている成分(述語項構造)の中で、復元テンソルにおいて値を含む成分がある。例えば、述語項構造(切る[述語],ニンジン[対象格])は、原共起テンソルXにおいて空欄である。一方、述語項構造(切る[述語],ニンジン[対象格])は、復元テンソルX’において、「1.90」との値となっている。
本実施形態では、復元テンソルと原共起テンソルとの差を、原共起テンソルにおいて潜在している述語項構造における述語と項との潜在的共起の推定とみなす。
例えば、本実施形態は、言語データで観測されなかった共起の補完(潜在的共起)として、原共起テンソルXにおいて空欄であり、かつ、復元テンソルX’において非負の値となっている述語項構造における述語と項との値を用いてもよい。
あるいは、本実施形態は、言語データで観測されなかった共起の補完として、復元テンソルにおける値が原共起テンソルにおける値より所定の値大きい述語項構造における値の差(距離)を用いてもよい。
上記のように、共起が補完された述語項構造が、潜在的共起となる述語項構造である。
なお、述語項構造が複数の項を含む場合、一部の項において潜在的共起が補完される場合がある。この場合、その項が、述語に対する潜在的共起となる。
図1を参照した説明に戻る。
スコア計算部150は、潜在的共起となる述語項構造を用いて、述語項構造の対のスコアを計算する。
例えば、スコア計算部150は、スコアを計算する述語項構造の対として、原共起テンソルにおいて空欄であり、復元テンソルにおいて空欄ではなくなった述語項構造を含む述語項構造の対を、スコアを計算する述語項構造の対として選択してもよい。
あるいは、スコア計算部150は、スコアを計算する述語項構造の対として、対に含まれる述語項構造のどちらかの一つの述語項構造に含まれる少なくとも一つの項が潜在的共起となっている述語項構造の対を選択してもよい。
あるいは、スコア計算部150は、対に含まれる両方の述語項構造のそれぞれの項において、少なくとも一つの項が潜在的共起となっている述語項構造の対を選択してもよい。
例えば、スコア計算部150は、図8に示されている原共起テンソルXが空欄であり、復元テンソルX’において値を含む、述語項構造を選択する。具体的には、例えば、スコア計算部150は、述語項構造(調理する[述語],ピーマン[対象格])を選択する。
そして、スコア計算部150は、その述語項構造を含む述語項構造の対を選択する。例えば、スコア計算部150は、最初に選択した述語項構造と同じ項を含む述語項構造を選択し、述語項構造の対とする。例えば、上記に場合、スコア計算部150は、述語項構造(調理する[述語],ピーマン[対象格])と同じ対象格(ピーマン[対象格])を含む述語項構造(切る[述語],ピーマン[対象格])を選択して、述語項構造の対とする。この場合の述語項構造の対は、“(切る[述語],ピーマン[対象格])→(調理する[述語],ピーマン[対象格])”となる。なお、スコア計算部150は、前件と後件とを入れ替えた述語項構造を選択してもよい。
スコア計算部150が述語項構造の対を選択する方法は、任意である。例えば、スコア計算部150は、同一の項を共有する述語項構造の対の中で、復元テンソルにおける両方の成分の値が所定の閾値以上である対を選択してもよい。ここで、同一の項を共有する述語項構造の対とは、片方の述語項構造が(V1[述語],A1[第1の格],A2[第2の格],…)であり、他方の述語項が(V2[述語],A1[第1の格],A2[第2の格],…)である述語項構造の対である。なお、スコア計算部150は、全ての項を共有する述語項構造の対だけではなく、一部の項を共有する述語項構造の対を選択してもよい。
そして、スコア計算部150は、復元テンソルを基に、述語項構造の対のスコアを計算する。スコア計算部150は、スコアの計算において、復元テンソルに加え原共起テンソルを用いてもよい。あるいは、スコア計算部150は、復元テンソルに替えて、原共起テンソルを用いてもよい。
対選択部160は、スコアが所定の条件を満たす述語項構造の対を選択する。例えば、対選択部160は、スコアが閾値以上の述語項構造の対を選択してもよい。あるいは、対選択部160は、スコア値の上位から所定数の述語項構造の対を選択してもよい。
さらに、対選択部160は、選択した述語項構造の対を所定の出力先に出力してもよい。例えば、対選択部160は、図示しない外部の装置に、選択した述語項構造の対を出力してもよい。あるいは、対選択部160は、図示しない記憶部に、述語項構造の対を保存してもよい。あるいは、対選択部160は、図示しない情報処理装置100の構成に述語項構造の対を出力してもよい。あるいは、対選択部160は、言語データの送信元に、述語項構造の対を送信してもよい。
[動作の説明]
次に、図面を参照して、第1の実施形態に係る情報処理装置100の動作について説明する。
図9は、第1の実施形態に係る情報処理装置100の動作の一例を示すフロー図である。
まず、構造生成部120は、処理の対象となる言語データ取得する(ステップS101)。
そして、構造生成部120は、言語データにおける述語項構造を生成する(ステップS102)。
共起生成部130は、言語データ及び述語項構造を基に、述語と項との間の共起に対応したデータ(原共起テンソル)を生成する(ステップS103)。
潜在生成部140は、原共起テンソルを基に、潜在的な共起を含むデータ(復元テンソル)を生成する(ステップS104)。詳細には、潜在生成部140は、原共起テンソルを分解して、原共起テンソルよりランクの低いデータ(因子テンソル)を生成する。そして、潜在生成部140は、因子テンソルの積であるデータ(復元テンソル)を生成する。
スコア計算部150は、述語項構造の対のスコアを計算する。
詳細には、まず、スコア計算部150は、スコアを計算する述語項構造を選択する(ステップS105)。
そして、スコア計算部150は、復元テンソルを基に選択された述語項構造を含む述語項構造の対についてのスコアを計算する(ステップS106)。
スコア計算部150は、潜在的共起となる全ての述語項構造に対して上記動作を繰り返す。
対選択部160は、スコアが所定の条件を満たす述語項構造の対を選択する(ステップS107)。
対選択部160は、選択した述語項構造の対を所定の出力先に出力する(ステップS108)。
[効果の説明]
次に、第1の実施形態の効果について説明する。
第1の実施形態に係る情報処理装置100は、処理の対象となる言語データにおいて潜在的共起の関係となっている述語項構造の対を選択するとの効果を奏する。
その理由は、次のとおりである。
構造生成部120が、言語データを基に述語と述語の対象となる項とを含む述語項構造を生成する。そして、共起生成部130が、述語項構造における述語と項との共起を示す第1のデータ(原共起テンソル)を生成する。そして、潜在生成部140が、第1のデータ(原共起テンソル)を第1のデータ(原共起テンソル)に含まれる要素より少ない要素を含む複数の第2のデータ(因子テンソル)に分解する。そして、潜在生成部140が、第2のデータ(因子テンソル)を基に述語と項との潜在的共起を含む第3のデータ(復元テンソル)を生成する。そして、スコア計算部150が、第1のデータ(原共起テンソル)及び第3のデータ(復元テンソル)を用いて述語項構造を選択し、選択した述語項構造の対におけるスコアを第3のデータ(復元テンソル)を用いて計算する。そして、対選択部160がスコアを基に述語項構造の対を選択する。
より詳細には、構造生成部120が、言語データに共起の対象となる構成(述語及び項)の構造を示す述語項構造を生成する。
そして、共起生成部130が、生成された述語項構造における共起に関する情報を含む原共起テンソル生成する。
そして、潜在生成部140が、原共起テンソルを低ランクの因子テンソルに分解し、因子テンソルの積である復元テンソルを生成する。本実施形態において、復元テンソルと原共起テンソルとの差は、述語項構造における述語と項との潜在的な共起に対応する。
そして、スコア計算部150が、潜在的な共起に対応する述語項構造を含む述語項構造の対に対するスコアを計算する。このスコアは、潜在的な共起における含意関係の程度を示す。つまり、このスコアが高い述語項構造の対は、言語データにおいて潜在しているが、共起の可能性が高い。
そして、対選択部160が、スコアを基に、述語項構造の対を選択する。
このように、第1の実施形態に係る情報処理装置100は、言語データにおいて明示的には含まれていない潜在的な共起となる述語項構造を含む述語項構造の対を選択して、そのスコアを計算できる。このスコアは、潜在的な共起関係にある述語項構造の対において、高い値となる。そのため、第1の実施形態に係る情報処理装置100は、言語データに含まれる潜在的な共起関係にある述語項構造の対を選択することができる。
ここで選択された述語項構造の対は、例えば、含意関係知識の候補となる。
<第2の実施形態>
次に、第2の実施形態として、全ての項を含む原共起テンソルを用いる場合について説明する。なお、項が一つの場合、第2の実施形態の動作は、第1の実施形態及び次に説明する第3の実施形態と、同じになる。そのため、本実施形態の説明では、項は、複数とする。ただし、これは、第2の実施形態において項が一つの場合を除外するものではない。
[構成の説明]
図面を参照して、第2の実施形態に係る情報処理装置101の構成について説明する。
図10は、第2の実施形態に係る情報処理装置101の構成の一例を示すブロック図である。情報処理装置101は、第1の実施形態に係る情報処理装置100と比べると、共起生成部130、潜在生成部140、及び、スコア計算部150に替えて、共起生成部131、潜在生成部141、及び、スコア計算部151を含む点で異なる。
共起生成部131、潜在生成部141、及び、スコア計算部151は、対象となる原共起テンソルが、全ての項を含むテンソルである点を除き、共起生成部130、潜在生成部140、及び、スコア計算部150と同様に動作する。また、その他の構成は、第1の実施形態と同様である。
そこで、第2の実施形態に特有の構成を中心に説明し、第1の実施形態の同様の構成及び動作の説明を省略する。
共起生成部131は、構造生成部120が生成した述語項構造及び言語データを基に、原共起テンソルとして、述語及び対象となる全ての格の項のモードを含む一つの共起テンソルを生成する。例えば、対象となる格の項が、項a及びbの場合、共起生成部131は、述語(v)、第1の格の項(a)、及び、第2の格の項(b)の3つのモードを含む3階の原共起テンソルを生成する。
潜在生成部141は、原共起テンソルを原共起テンソルより低いランクの因子テンソルに分解し、因子テンソルの積である復元テンソルを生成する。
図11は、3階のテンソルの場合におけるテンソルの分解と積との一例を示す図である。図11は、テンソル分解の一例であるTucker分解を模式的に示している図である。図11において、英小文字は、各モード(軸)を示す。
潜在生成部141は、Tucker分解を用いて、述語v、項a、及び項bのモードを有する3階の原共起テンソルXを、コアテンソルC、及び、コアテンソルCの各モードに対応する因子テンソルF、G、及びHに分解する。コアテンソルCは、予め、モード及びモードのサイズが設定されているテンソルである。
さらに、潜在生成部141は、分解されたコアテンソルC、及び、因子テンソルF、G、及びHの間の積の結果として、復元テンソルX’を算出する。なお、テンソルと行列との積を、特に「モード積」と呼ぶ場合もある。図11において、因子テンソルF、G、及びHは行列となっている。そのため、図11におけるテンソルの積は、モード積でもある。ただし、以下の説明は、モード積を特に区別せず、全ての積として説明する。
この関係は、式を用いて表すと、次の数式1のようになる。
[数式1]
ABV ≒ CRST × FAR × GBS × HVT = X’ABV
数式1において、英大文字V、A、及びBは、それぞれ、原共起テンソルにおける英小文字で示されているモード、v、a、及びbの大きさ(サイズ又は次元数)である。
サイズ(次元数)は、対応する述語又は項における種類の数(例えば、述語の数)である。図5を参照して説明すると、モードvのサイズVは、4である。
英文字R、S、及びTは、コアテンソルCにおける英小文字で示されているモードr、s、及びtのサイズ(次元数)である。コアテンソルCのサイズは、予め設定されている。つまり、R、S及びTは、予め、モードr、s、及びtに対して設定されたサイズである。
“×”は、テンソルにおける積を示す。
コアテンソルCは、潜在意味に相当する。つまり、モードr、s、及びtは、潜在意味のモードに相当する。
数式1に示されているとおり、復元テンソルX’のサイズは、原共起テンソルXのサイズと同じである。
スコア計算部151は、原共起テンソルと復元テンソルとを基に(具体的には、原共起テンソルと復元テンソルとの差を基に)スコアを計算する述語項構造の対を選択する。
そして、スコア計算部151は、述語項構造の対のスコアを計算する。
詳細には、スコア計算部151は、次のようにスコアを計算する。
まず、スコア計算部151は、復元テンソルにおける述語及び項の共起の値を基に、述語及び項についての出現確率を計算する。
出現確率とは、述語及び項に関する事後確率である。例えば、項の出現確率とは、ある述語が出現した場合におけるその項が出現する事後確率である。また、述語の出現確率とは、ある項が出現した場合における、その述語が出現する事後確率である。
スコア計算部151は、出現確率に基づいて、述語項構造の対のスコアを計算する。例えば、後ほど説明する詳細例1において、第2の実施形態におけるスコアは、前件の述語項構造が成立した場合における後件の述語項構造が成立する程度をモデル化した尺度となる。このスコアは、前件の述語項構造が後件の述語項構造を含意する程度を示す。
[効果の説明]
次に、第2の実施形態の効果について説明する。
第2の実施形態に係る情報処理装置101は、第1の実施形態と同様の効果を実現できる。その理由は、情報処理装置101の各構成が、情報処理装置100の構成と同様に動作するためである。
さらに、第2の実施形態に係る情報処理装置101は、述語と全ての項を含む原共起テンソルを用いて動作する。つまり、情報処理装置101は、述語及び考慮の対象となる全ての項について、同時かつ直接的に共起した情報を用いる。そのため、情報処理装置101は、個別に項を処理する場合に比べ、二つ以上の項を有する述語項構造の対についての含意関係を処理する場合において、関連性を有する述語項構造の対をより正確に処理できる。
[詳細例1]
次に、詳細例1として、情報処理装置101の具体的な動作例を説明する。詳細例1における説明では、情報処理装置101は、述語、道具格の項、及び、目標格の項を有する述語項構造を対象として動作する。ただし、これは、情報処理装置101における格を制限するものではない。情報処理装置101は、他の格の項を対象としてもよく、一つ又は三つ以上の格の項を有する述語項構造を対象としてもよい。
まず、構造生成部120は、言語データに出現する述語項構造を生成する。
例えば、構造生成部120は、次に示されている言語データとして、テキストT1と、テキストT1についての言語解析情報A1とを受信したとする。
T1=子供が自転車で学校に通っている。
A1=(述語=通う,動作主格=子供,目標格=学校,道具格=自転車)
言語解析情報A1は、テキストT1の述語項構造の解析の結果である。具体的には、言語解析情報A1は、テキストT1の中に、述語“通う”、動作主格の項“子供”、目標格の項“学校”、道具格の項“自転車”からなる述語項構造が存在することを示す。例えば、テキストT1の述語項構造は、“(通う[述語],子供[動作主格],学校[目標格],自転車[道具格])”である。
ただし、動作例1において、情報処理装置101は、動作主格及び目標格の項を対象とする。そのため、構造生成部120は、テキストT1及び言語解析情報A1を基に、述語項構造“(通う[述語],子供[動作主格],学校[目標格])”を生成する。
次に、共起生成部131は、言語データ及び述語項構造を基に原共起テンソルを生成する。以下の説明おいて、このテンソルは、図11に示されている原共起テンソルXとする。具体的には、原共起テンソルXは、述語のモードv、動作主格の項のモードa、及び目標格の項のモードbを有する3階のテンソルとする。また、以下の説明では、適宜、数式1及びその変数を用いる。
共起生成部131は、述語のモードv、動作主格の項のモードa、及び目標格の項のモードbを有する3階の原共起テンソルX(数式1では、XABV)を生成する。
共起生成部131は、言語データにおいて、構造生成部120が生成した述語項構造の頻度をカウントし、頻度を原共起テンソルXの成分に設定する。
例えば、言語データが、7つの述語項構造“(通う[述語],子供[動作主格],学校[目標格])”を含む場合、共起生成部131は、原共起テンソルXにおける上記述語項構造に対応する成分の値を、「7」と設定する。
なお、構造生成部120及び共起生成部131は、順番に動作してもよく、少なくとも一部において並行に動作してもよい。例えば、構造生成部120が言語データから述語項構造が生成するたびに、共起生成部131が原共起テンソルXにおける対応する成分の値を修正してもよい。
続いて、潜在生成部141は、原共起テンソルXにテンソル分解を適用して、因子テンソルを生成し、さらに復元テンソルを生成する。以下の説明では、潜在生成部141は、テンソル分解の一例として、Tucker分解を用いる。ただし、潜在生成部141は、他のテンソル分解手法を用いてもよい。
Tucker分解を用いる場合、因子テンソルの次元数R、S、及びTは、予め設定された値である。潜在生成部141は、原共起テンソルX、並びに、因子テンソルの次元数R、S、及びTを用いて、コアテンソルC、並びに、因子テンソルF、G、及びHを生成する。そして、潜在生成部141は、数式1に示されているように、コアテンソルC、並びに、因子テンソルF、G、及びHの積である、復元テンソルX’(X’ABV)を生成する。
なお、復元テンソルX’を求める問題は、最適化問題に定式化できる。そこで、潜在生成部141における上記処理は、次の数式2に示されるような、原共起テンソルXと復元テンソルX’との距離D(X,X’)を最小化する因子テンソルC、F、G及びHを求める最適化問題に定式化できる。
[数式2]
Figure 0006927300
数式2において、「argmin」は、関数D(X,X’)を最小とするコアテンソルC、並びに、因子テンソルF、G及びGを求めることである。関数D(X,X’)は、原共起テンソルXと、復元テンソルX’の距離(誤差)を出力する関数である。
距離は、任意である。例えば、潜在生成部141は、距離として、原共起テンソルXと復元テンソルX’との対応する要素間のユークリッド距離(dEU)に基づく距離(DEU)を用いてもよい。
あるいは、潜在生成部141は、距離として、一般化したカルバック・ライブラーダイバージェンス(Kullback−Leibler divergence)を利用した距離を用いてもよい。この場合の距離(DEU(X−X’))は、次の数式3となる。
[数式3]
Figure 0006927300
数式3において、xv,a,bは、原共起テンソルXにおける[v,a,b]成分である。x’v,a,bは、復元テンソルX’における[v,a,b]成分である。以下、テンソル及び行列の成分を示す場合にも角括弧([])を用いる。dEU(xv,a,b、x’v,a,b)は、要素間の距離を示し、具体的には左辺の{(xv,a,b−x’ v,a,b}/2である。
次に、スコア計算部151は、以下に示す手順に沿って述語項構造の対のスコアを計算する。
スコア計算部151は、所定の条件を基に、スコアを計算する述語項構造の対を選択する。
例えば、スコア計算部151は、述語項構造の対における2つの成分(例えば、X’[v1,a,b]及びX’[v2,a,b])の値が共に非負である述語項構造の対を選択してもよい。
あるいは、スコア計算部151は、共起頻度に閾値を設定し、述語項構造の対における2つの成分の頻度が共に閾値以上の場合にスコアを計算してもよい。
あるいは、スコア計算部151は、共起テンソルXにおける成分の値が0であるが、復元テンソルX’における成分の値が非負である述語項構造の対を用いてもよい。この場合、スコア計算部151は、潜在的な共起が推定された述語項構造の対のスコアを計算することができる。
なお、スコア計算部151は、類似する項をまとめた項の集合(項のクラスタ)を有する述語項構造を生成し、生成した述語項構造の対におけるスコアを計算してもよい。この場合の述語項構造は、例えば、(行く[述語]、{子供,生徒,児童,…}[動作主格])、又は、(行く[述語],{学校,小学校,…}[目標格])である。
以下の説明では、対象となる述語項構造の対として、述語項構造の対“(e1,e2)=((v1,a,b),(v2,a,b))”を用いて説明する。e1及びe2は、述語項構造を示す。例えば、述語項構造e1は、述語項構造(v1,a,b)である。
また、スコア計算部151は、スコアとして、次に示す数式4に示されるスコア(scoreSLSA)を用いる。
[数式4]
scoreSLSA(v1,v2;a,b)=p(v2|a,b)×p(a,b|v1)
ここで、p(v|a,b)は、項a及びbが出現した下での述語vが出現する事後確率である。また、p(a,b|v)は、述語vが出現した下での項a及びbが出現する事後確率である。スコアscoreSLSAは、述語項構造e1及びe2における述語の対(v1、v2)が、項a及びbを共有する場合において、述語項構造e1の述語(v1)が成立した下で、述語項構造e2の述語(v2)が成立する程度をモデル化したスコアである。スコアscoreSLSAは、述語項構造e1が述語項構造e2を含意する程度を示す。
以下、述語項構造の対のスコアを計算する手順の詳細を説明する。
まず、スコア計算部151は、潜在生成部141が生成した復元テンソルX’における述語及び項についての出現確率を計算する。
具体的には、スコア計算部151は、出現確率として、述語の事後確率(数式5)、及び、項の事後確率(数式6)を計算する。
[数式5]
Figure 0006927300
[数式6]
Figure 0006927300
そして、スコア計算部151は、算出した事後確率を用いて上記のスコアscoreSLSAを計算する。
ただし、スコア計算部151におけるスコアは、上記に限られない。例えば、スコア計算部151は、次の数式7のように、述語の対の値として、スコアを求めてもよい。
[数式7]
Figure 0006927300
対選択部160は、スコアに基づいて、所定の条件を満たす述語項構造の対を選択する。
<第3の実施形態>
次に、第3の実施形態として、原共起テンソルが、複数のテンソルとなる場合について、説明する。つまり、少なくとも、一部の項が、それぞれ異なるテンソルに含まれる場合を説明する。
[構成の説明]
図面を参照して、第3の実施形態に係る情報処理装置102の構成について説明する。
図12は、第3の実施形態に係る情報処理装置102の構成の一例を示すブロック図である。情報処理装置102は、第1の実施形態に係る情報処理装置100と比べると、共起生成部130、潜在生成部140、及び、スコア計算部150に替えて、共起生成部132、潜在生成部142、及び、スコア計算部152を含む点で異なる。
共起生成部132、潜在生成部142、及び、スコア計算部152は、対象となる原共起テンソルが、複数のテンソルとなる点を除き、共起生成部130、潜在生成部140、及び、スコア計算部150と同様に動作する。また、その他の構成は、第1の実施形態と同様である。
そこで、第3の実施形態に特有の構成を中心に説明し、第1の実施形態の同様の構成及び動作の説明を省略する。
共起生成部132は、構造生成部120が生成した述語項構造及び言語データを基に、原共起テンソルとして、述語と一つの項とを含む原共起テンソルを生成する。つまり、共起生成部132は、対象となる格の数の原共起テンソルを生成する。
各原共起テンソルは、述語のモードと、いずれか一つの格の項のモードとを含む。つまり、各原共起テンソルは、2階テンソル(行列)となる。そこで、以下の第3の実施形態では、説明を明確にするため、テンソルに替えて行列を用いて説明する。例えば、原共起テンソルは、原共起行列と呼ぶ。
図13は、対象となる格が2つの場合における行列の分解と積との一例を示す図である。図13におけるモードkは、潜在意味である。
格が2つの場合、共起生成部132は、述語(v)と第1の項(a)とのモードに対応する第1の原共起行列(X)と、述語(v)と第2の項(b)とのモードに対応する第2の原共起行列(Y)とを生成する。
潜在生成部142は、生成された複数の原共起行列を分解する。そのため、潜在生成部142は、複合行列分解を実行する。複合行列分解とは、一部の因子行列を共有するという制約の下で、複数の行列をそれぞれ因子行列に分解する行列分解の手法である。潜在生成部142は、述語のモードを有する因子行列を共有するとの制約の下、原共起行列を、因子行列に分解する。以下、共有される因子行列は、共有因子行列と呼ぶ。また、共有因子行列を共有する行列は、「共有因子行列を持つ行列」とも呼ばれる。
図13は、共有因子行列に、斜線を付している。つまり、因子行列Gが、共有因子行列である。
そして、潜在生成部142は、原共起行列に対応した復元行列を生成する。
図13に示されている原共起行列の処理は、次に示されている数式8のように示される。
[数式8]
AV ≒FAK × GKV = X’AV
BV ≒HBK × GKV = Y’BV
数式8において、上付き文字は、数式1と同じである。原共起行列Xは、因子行列F及びGに分解される。原共起行列Yは、因子行列H及びGに分解される。原共起行列X及びYは、共有因子行列Gを持つ行列である。そして、行列F及びGの積の結果が、原共起行列Xの近似である復元行列X’となる。行列H及びGの積の結果が、原共起行列Yの近似である復元行列Y’となる。
項の数が三つ以上の場合も、潜在生成部142は、同様に所定の因子行列を共有するとの制約の下で、複合行列分解を実行すればよい。
スコア計算部152は、原共起行列、因子行列、及び復元行列を基に、述語項構造の対のスコアを計算する。
より詳細には、スコア計算部152は、次のように動作する。
スコア計算部152は、原共起行列と復元行列との差を基に、スコアを計算する述語項構造の対を選択する。そして、スコア計算部152は、復元行列に含まれる述語項構造における共起頻度を基に、述語及び項についての出現確率を計算する。出現確率は、第2の実施形態の同様である。
さらに、スコア計算部152は、因子行列を基に、異なる格の項の間の関連度を計算する。関連度は、任意である。
図面を参照して、関連度の一例を説明する。
図14は、図13に対応する関連度に用いるベクトルの一例を示す図である。
スコア計算部152は、第1の格の項(a)における所定の項(a)と、第2の格の項(b)における所定の項(b)との関連度を、次のように算出する。
因子行列Fにおける項(a)に一つである項(a)についての行ベクトルは、項(a)の意味(潜在意味(k))に対応するベクトルである。以下、潜在意味(k)に対応するベクトルを、「意味ベクトル」と呼ぶ。
同様に、因子行列Hにおける項(b)の一つである項(b)についての行ベクトルは、項(b)の意味ベクトルである。
全ての原共起行列が、共有因子行列と、その因子行列を持つ因子行列とに分解される。そのため、全ての因子行列の項の意味ベクトルの要素数は、同じ数(モードkのランクK)となる。つまり、項(a)意味ベクトルと項(b)の意味ベクトルとの項の数は、同じである。
そして、スコア計算部152は、関連度して、項(a)の意味ベクトルと、項(b)の意味ベクトルとの内積を用いる。
三つ以上の項の関連度の場合も、スコア計算部152は、三つ以上の項の意味ベクトルの内積を計算すればよい。
そして、スコア計算部152は、出現確率及び関連度に基づき、述語項構造の対のスコアを計算する。例えば、スコア計算部152は、出現確率と内積との積をスコアとする。
[効果の説明]
次に、第3の実施形態の効果について説明する。
第3の実施形態に係る情報処理装置102は、第1の実施形態と同様の効果を実現できる。その理由は、情報処理装置102の各構成が、情報処理装置100の構成と同様に動作するためである。
さらに、第3の実施形態に係る情報処理装置102は、次のような効果を実現できる。
情報処理装置102は、二つ以上の項に関連する含意関係を処理する場合でも、述語と複数の項との共起がまれになる問題を緩和する。つまり、情報処理装置102は、述語と複数の項との間の関連の強さをより適切に判定できる。
その理由は、次のとおりである。
共起生成部132が、それぞれの格の項に対応した原共起行列を生成する。
さらに、潜在生成部142は、複合行列分解において、因子行列における潜在意味のモードが共有となる制約(同じ共有因子行列を用いる制約)を用いている。そのため、全ての格の項の意味ベクトルの要素数が、同じ数となる。そのため、スコア計算部152は、意味ベクトルの内積など、異なる格の項の関連度を計算できる。
また、情報処理装置102は、述語と少なくとも一部の項についての共起に関する共有した情報(共有因子行列)を考慮して、述語項構造の対を生成している。そのため、情報処理装置102は、二つ以上の項に関連する含意関係を処理する場合に対応することができる。
[詳細例2]
次に、詳細例2として、情報処理装置102の具体的な動作例を説明する。詳細例2では、情報処理装置102は、述語、動作主格の項、及び目標格の項を有する述語項構造を対象として動作する。
構造生成部120の動作は、実施例1と同様のため、詳細な説明を省略する。
共起生成部132は、2つの原共起行列を生成する(図13を参照)。第1の原共起行列Xは、述語のモード(v)と動作主格の項のモード(a)を有する(XAV)。第2の原共起行列Yは、述語のモード(v)と目標格の項のモード(b)を有する(YBV)。
共起生成部132は、言語データにおける述語項構造の頻度をカウントし、原共起行列X及びYにおける対応する成分にカウント値を代入する。
例えば、言語データが、6つの述語項構造(通う[述語],子供[動作主格],学校[目標格])を含む場合、共起生成部132は、次のように原共起行列X及びYにおける対応する成分に6を設定する。
(1)共起生成部132は、原共起行列Xの成分[通う[述語],子供[動作主格]]に6を設定する。
(2)共起生成部132は、原共起行列Yの成分[通う[述語],学校[目標格]]に6を設定する。
あるいは、言語データが、3つの述語項構造(通う[述語],子供[動作主格])を含む場合、共起生成部132は、次のように原共起行列Xにおける対応する成分に3を設定する。
(1)共起生成部132は、原共起行列Xの成分[通う[述語],子供[動作主格]]に3を設定する。
詳細例1と同様に、構造生成部120及び共起生成部132は、順番に動作してもよく、並行に動作してもよい。
続いて、潜在生成部142は、復号行列分解を用いて、原共起行列X及びYから、因子行列FないしG、及び、復元行列X’及びY’を生成する。
詳細例2では、潜在生成部142は、原共起行列X及びYを、それぞれ二つの非負の因子行列に分解する。つまり、潜在生成部142は、非負の因子行列F、G、及びHを生成する。ただし、因子行列で共有される潜在意味のモードkの次元数Kは、予め、潜在生成部142に設定されている。
そして、潜在生成部142は、原共起行列Xに対応する復元行列X’、及び、原共起行列Yに対応する復元行列Y’を生成する。
復元行列X’及びY’は、それぞれ、次の数式9及び数式10に示されているように、因子行列F、G、及びHの積である。
[数式9]
X’AV=FAK×GKV
[数式10]
Y’BV=HBK×GKV
潜在生成部142における上記処理は、次の数式11に示されるような、原共起行列(X及びY)と、復元行列(X’及びY’)との距離Dの和を最小化することで、因子テンソルF、G及びHを求める最適化問題に定式化できる。
[数式11]
Figure 0006927300
数式11において、「argmin」は、関数の和「D(X,X’)+D(Y,Y’)」を最小とする因子テンソルF、G及びHを求めることである。
詳細例2における距離は、詳細例1と同様である。
次に、スコア計算部152は、以下に示す手順に沿って、述語項構造の対のスコアを計算する。
以下の説明では、述語項構造の対として、述語項構造の対“(e1,e2)=((v1,a,b),(v2,a,b))”を用いて説明する。
スコア計算部152は、スコアとして、数式12に示されているscoreCLSAを用いる。
[数式12]
scoreCLSA(v1,v2;a,b)=r(a,b)×scorepart(v1,v2;a)×scorepart(v1,v2;b)
r(a,b)は、項a及びbの関連度(項間関連度)である。scorepart(v1,v2;n)は、次の示されている数式13である(ここで、項nは、項a又はb)。
[数式13]
scorepart(v1,v2;n)=p(v2|n)×p(n|v1)
確率p(v|n)は、項nが出現した下での述語vが出現する事後確率である。確率p(n|v)は、述語vが出現した下で項nが出現する事後確率である。scorepart(v1,v2;n)は、一つの項nを共有する述語の対(v1及びv2)に関してv1からv2への含意関係が成立する程度を表す尺度となる。scorepart(v1,v2;n)は、述語項構造の対における部分(項)ごとに個別に計算されたスコア(部分構造間の関連度)である。
スコア計算部152は、述語項構造の対における部分構造間のスコア(scorepart)と、項間関連度(r(a,b))とに基づいて、述語項構造の対のスコアscoreCLSAを計算する。
なお、述語項構造の対のスコアの計算方法は、述語項構造の対における項間関連度に関するスコアと、項に対応した部分構造間のスコアとを用いる方法であれば、上記に限られず、他の方法でもよい。例えば、スコア計算部152は、次に示す数式14のような、述語項構造の対の部分構造のスコアの最小値と項間関連度とを掛け合わせたスコア(scoreCLSA(v1,v2;a,b))を用いてもよい。
[数式14]
scoreCLSA(v1,v2;a,b)=r(a,b)×minn∈{a,b}{scorepart(v1,v2;n)}
項間関連度の一例を説明する。スコア計算部152は、まず、潜在生成部142が生成した復元行列X’及びY’における述語及び項についての出現確率を計算する。具体的には、スコア計算部152は、次の[数式15]及び[数式16]を用いて、事後確率p(v|n)及びp(n|v)(項nは、項a又はb)を計算する。
[数式15]
Figure 0006927300
[数式16]
Figure 0006927300
数式15及び16において、Z’は次のとおりである。項nが項aの場合、行列Z’は、復元行列X’である。項nが項bの場合、行列Z’は復元行列Y’である。
そして、スコア計算部152は、因子行列F及びHを基に、項間関連度を計算する。詳細例2では、スコア計算部152は、異なる格の項a及びbの間の関連度として、次に数式17として示す項aの意味ベクトルと項bの意味ベクトルとの内積を用いる。この内積は、因子行列Fの項aについての行ベクトル(項aの意味ベクトル)と、因子行列Hの項bについての行ベクトル(項bの意味ベクトル)の内積となる。
[数式17]
Figure 0006927300
F[m,k]は、因子行列Fのm行k列の要素である。H[n,k]は、因子行列Hのn行k列の要素である。
スコア計算部152は、上記の項間関連度と、数式13に示される部分構造間の関連度とを基に、述語項構造の対のスコアを計算する。
なお、スコア計算部152は、所定の条件を基に、スコアを計算する述語項構造の対を選択する。
例えば、スコア計算部152は、述語項構造の対に含まれる述語項構造の成分の値がすべて非負である述語項構造の対を選択してもよい。
あるいは、スコア計算部152は、述語項構造の対に含まれる全ての成分(詳細例2では4個)の共起頻度が閾値以上となる述語項構造の対を選択してもよい。
スコア計算部152の動作を、より具体的な例を用いて説明する。
例えば、言語データが、述語項構造(入学する[述語],子供[動作主格],学校[目標格])を含まなかったとする。
ただし、言語データは、述語項構造(入学する[述語],子供[動作主格])、及び述語項構造(入学する[述語],学校[目標格])を含むとする。
さらに、言語データは、述語項構造(行く[述語],子供[動作主格],学校[目標格])、述語項構造(行く[述語],子供[動作主格])、及び述語項構造(行く[述語],学校[目標格])を含むとする。
この場合、項間関連度(r(子供[動作主格],学校[目標格]))は、ある程度高い値となる。また、部分構造間の関連度(scorepart(入学する[述語]、行く[述語];子供[動作主格])及びscorepart(入学する[述語]、行く[述語];学校[目標格]))も、ある程度高い値となる。
その結果、スコア計算部152は、scoreCLSA(入学する[述語],行く[述語];子供[動作主格],学校[目標格])として、高いスコアを算出する。
そのため、対選択部160は、例えば、述語項構造の対“(入学する[述語],子供[動作主格],学校[目標格])→(行く[述語],子供[動作主格],学校[目標格])”を選択できる。
このように、スコア計算部152は、言語データにおいて共起を観測されない述語項構造を含む対(潜在的共起となる述語項構造の対)において、項間関連度及び部分構造の関連度を基に、高いスコアを算出できる。
詳細例1と同様に、スコア計算部152は、類似する項をまとめた述語項構造(項をクラスタ化し述語項構造)の対を生成し、述語項構造の対としてその述語項構造の対を用いてもよい。
あるいは、スコア計算部152は、詳細例1と同様に、スコアとして、述語の対のスコアを計算してもよい。
そして、対選択部160は、スコアに基づいて、述語項構造の対のうち所定の条件を満たす述語項構造の対を選択する。
<ハードウェア構成>
以上の説明した情報処理装置100ないし102のハードウェア構成について、情報処理装置100を用いて説明する。
情報処理装置100は、次のように構成される。
例えば、情報処理装置100の各構成部は、ハードウェア回路で構成されてもよい。また、情報処理装置100において、各構成部は、ネットワークを介して接続した複数の装置を用いて、構成されてもよい。あるいは、情報処理装置100において、複数の構成部は、1つのハードウェアで構成されてもよい。あるいは、情報処理装置100は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含むコンピュータ装置として実現されてもよい。情報処理装置100は、上記構成に加え、さらに、入出力接続回路(IOC:Input and Output Circuit)を含むコンピュータ装置として実現されてもよい。情報処理装置100は、上記構成に加え、さらに、ネットワークインターフェース回路(NIC:Network Interface Circuit)を含むコンピュータ装置として実現されてもよい。
図15は、情報処理装置100ないし102のハードウェアの構成の一例である情報処理装置600の構成を示すブロック図である。
情報処理装置600は、CPU610と、ROM620と、RAM630と、内部記憶装置640と、IOC650と、NIC680とを含み、コンピュータ装置を構成している。
CPU610は、ROM620からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、RAM630と、内部記憶装置640と、IOC650と、NIC680とを制御する。そして、CPU610を含むコンピュータは、これらの構成を制御し、図1に示されている、構造生成部120、共起生成部130、潜在生成部140、スコア計算部150、及び対選択部160としての各機能を実現する。あるいは、CPU610を含むコンピュータは、これらの構成を制御し、図10に示されている、構造生成部120、共起生成部131、潜在生成部141、スコア計算部151、及び対選択部160としての各機能を実現する。あるいは、CPU610を含むコンピュータは、これらの構成を制御し、図12に示されている、構造生成部120、共起生成部132、潜在生成部142、スコア計算部152、及び対選択部160としての各機能を実現する。
CPU610は、各機能を実現する際に、RAM630又は内部記憶装置640を、プログラムの一時記憶媒体として使用してもよい。
また、CPU610は、コンピュータで読み取り可能にプログラムを記憶した記録媒体700が含むプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。あるいは、CPU610は、NIC680を介して、図示しない外部の装置からプログラムを受け取り、RAM630に保存して、保存したプログラムを基に動作してもよい。
ROM620は、CPU610が実行するプログラム及び固定的なデータを記憶する。ROM620は、例えば、P−ROM(Programmable−ROM)又はフラッシュROMである。
RAM630は、CPU610が実行するプログラム及びデータを一時的に記憶する。RAM630は、例えば、D−RAM(Dynamic−RAM)である。
内部記憶装置640は、情報処理装置600が長期的に保存するデータ及びプログラムを記憶する。また、内部記憶装置640は、CPU610の一時記憶装置として動作してもよい。内部記憶装置640は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)又はディスクアレイ装置である。
ここで、ROM620と内部記憶装置640は、不揮発性(non−transitory)の記憶媒体である。一方、RAM630は、揮発性(transitory)の記憶媒体である。そして、CPU610は、ROM620、内部記憶装置640、又は、RAM630に記憶されているプログラムを基に動作可能である。つまり、CPU610は、不揮発性記憶媒体又は揮発性記憶媒体を用いて動作可能である。
IOC650は、CPU610と、入力機器660及び表示機器670とのデータを仲介する。IOC650は、例えば、IOインターフェースカード又はUSB(Universal Serial Bus)カードである。さらに、IOC650は、USBのような有線に限らず、無線を用いてもよい。
入力機器660は、情報処理装置600の操作者からの入力指示を受け取る機器である。入力機器660は、例えば、キーボード、マウス又はタッチパネルである。
表示機器670は、情報処理装置600の操作者に情報を表示する機器である。表示機器670は、例えば、液晶ディスプレイである。
NIC680は、ネットワークを介した図示しない外部の装置とのデータのやり取りを中継する。NIC680は、例えば、LAN(Local Area Network)カードである。さらに、NIC680は、有線に限らず、無線を用いてもよい。
このように構成された情報処理装置600は、情報処理装置100ないし102と同様の効果を得ることができる。
その理由は、情報処理装置600のCPU610が、プログラムに基づいて情報処理装置100ないし102と同様の機能を実現できるためである。
<システムの説明>
次に、図面を参照して、本実施形態の情報処理装置100ないし102を含む情報処理システム10について説明する。
図16は、本発明のおける各実施形態に係る情報処理システム10の構成の一例を示す図である。情報処理システム10は、第1の実施形態に係る情報処理装置100と、送信装置200と、受信装置300とを含む。ただし、情報処理システム10は、情報処理装置100に替えて、情報処理装置101又は102を用いてもよい。つまり、情報処理システム10は、第1の実施形態に係る情報処理装置100ないし第3の実施形態に係る情報処理装置102のいずれか一つと、送信装置200と、受信装置300とを含む。
送信装置200は、情報処理装置100における処理対象である言語データの提供元である。
送信装置200は、言語データを取得する。例えば、送信装置200は、所定の装置から言語データを取得又は受信してもよい。あるいは、送信装置200は、所定の音声取得装置(例えば、マイクロフォン)からの信号を変換して言語データを生成しもよい。あるいは、送信装置200は、所定の画像取得装置(例えば、スキャナ)を用いて取得した画像データにおける文字データを変換して、言語データを生成してもよい。
そして、送信装置200は、言語データを情報処理装置100に送信する。
送信装置200の構成は、任意である。例えば、送信装置200は、スキャナ、記憶装置、データベースサーバ、又は、サーチサーバなどである。
情報処理装置100は、送信装置200から言語データを受信する。そして、情報処理装置100は、上記の動作を基に、述語項構造の対を選択する。そして、情報処理装置100は、述語項構造の対を受信装置300に送信する。
受信装置300は、受信した述語項構造の対を保存する。例えば、受信装置300は、所定の推論を実行する推論装置に含まれる記憶装置であり、受信した述語項構造の対を推論に用いる所定の知識ベースに保存する。
なお、受信装置300は、受信した述語項構造の対を出力(例えば、表示)してもよい。
なお、送信装置200及び/又は受信装置300は、情報処理装置100の外部の装置に限られず、情報処理装置100に含まれていてもよい。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成及び詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
10 情報処理システム
100 情報処理装置
101 情報処理装置
102 情報処理装置
120 構造生成部
130 共起生成部
131 共起生成部
132 共起生成部
140 潜在生成部
141 潜在生成部
142 潜在生成部
150 スコア計算部
151 スコア計算部
152 スコア計算部
160 対選択部
200 送信装置
300 受信装置
600 情報処理装置
610 CPU
620 ROM
630 RAM
640 内部記憶装置
650 IOC
660 入力機器
670 表示機器
680 NIC
700 記録媒体

Claims (7)

  1. 言語データを基に述語と前記述語の対象となる項とを含む述語項構造を生成する構造生成手段と、
    前記述語項構造における前記述語と前記項との共起を示す第1のデータを生成する共起生成手段と、
    前記第1のデータに非負地行列因子分解、Tucker分解、又は、復号行列分解を適用して、前記第1のデータを前記第1のデータに含まれる要素より少ない要素を含む複数の第2のデータに分解し、前記第2のデータの積の結果として前記述語と前記項との潜在的共起を含む第3のデータを生成する、又は、前記第1のデータ、前記第2のデータ、及び前記第3のデータを含む最適化問題を解いて前記第3のデータを生成する潜在生成手段と、
    前記第1のデータ及び前記第3のデータにおいて所定の条件を満足する前記述語項構造を選択し、選択した前記述語項構造を含む前記述語項構造の対における前記述語と前記項との共起の値を基に前記述語と前記項との出現確率を算出し、算出した前記出現確率を用いてスコアを計算するスコア計算手段と、
    前記スコアを基に前記対を選択する対選択手段と
    を含む情報処理装置。
  2. 前記共起生成手段が、
    前記第1のデータとして、前記述語と前記項とをモードとする原共起テンソルを算出し、
    前記潜在生成手段が、
    前記第2のデータとして、前記原共起テンソルを、前記原共起テンソルのランクより低いランクの因子テンソルに分解し、
    前記第3のデータとして、前記因子テンソルの積である復元テンソルを生成する
    請求項1に記載の情報処理装置。
  3. 前記共起生成手段が、
    前記原共起テンソルとして、全ての前記述語と、全ての前記項とをモードとする前記原共起テンソルを生成し、
    前記スコア計算手段が、
    前記復元テンソルにおける前記述語及び前記項それぞれについての前記出現確率を用いて前記スコアを計算する
    請求項2に記載の情報処理装置。
  4. 前記共起生成手段が、
    前記原共起テンソルとして、前記述語といずれか一つの前記項とをモードとする複数の前記原共起テンソルを生成し、
    前記潜在生成手段が、
    全ての前記原共起テンソルにおいて、少なくとも一部の前記因子テンソルが同じテンソルとなるように、前記原共起テンソルを前記因子テンソルに分解し、
    前記スコア計算手段が、
    前記復元テンソルに基づいて前記述語及び前記項それぞれについての前記出現確率を計算し、
    前記因子テンソルを用いて複数の項の間における関連度を計算し、
    前記出現確率及び前記関連度を用いて前記スコアを計算する
    請求項2に記載の情報処理装置。
  5. 情報処理装置が、
    言語データを基に述語と前記述語の対象となる項とを含む述語項構造を生成し、
    前記述語項構造における前記述語と前記項との共起を示す第1のデータを生成し、
    前記第1のデータに非負地行列因子分解、Tucker分解、又は、復号行列分解を適用して、前記第1のデータを前記第1のデータに含まれる要素より少ない要素を含む複数の第2のデータに分解し、
    前記第2のデータの積の結果として前記述語と前記項との潜在的共起を含む第3のデータを生成し、
    前記第1のデータ及び前記第3のデータにおいて所定の条件を満足する前記述語項構造を選択し、
    選択した前記述語項構造を含む前記述語項構造の対における前記述語と前記項との共起の値を基に前記述語と前記項との出現確率を算出し、算出した前記出現確率を用いてスコアを計算し
    前記スコアを基に前記対を選択する
    情報処理方法。
  6. 言語データを基に述語と前記述語の対象となる項とを含む述語項構造を生成する処理と、
    前記述語項構造における前記述語と前記項との共起を示す第1のデータを生成する処理と、
    前記第1のデータに非負地行列因子分解、Tucker分解、又は、復号行列分解を適用して、前記第1のデータを前記第1のデータに含まれる要素より少ない要素を含む複数の第2のデータに分解する処理と、
    前記第2のデータの積の結果として前記述語と前記項との潜在的共起を含む第3のデータを生成する処理と、
    前記第1のデータ及び前記第3のデータにおいて所定の条件を満足する前記述語項構造を選択する処理と、
    選択した前記述語項構造を含む前記述語項構造の対における前記述語と前記項との共起の値を基に前記述語と前記項との出現確率を算出し、算出した前記出現確率を用いてスコアを計算する処理と、
    前記スコアを基に前記対を選択する処理と
    をコンピュータに実行させるプログラム。
  7. 請求項1ないし4のいずれか1項に記載の前記情報処理装置と、
    前記言語データを取得して、前記情報処理装置に送信する送信装置と、
    選択された前記対を前記情報処理装置から受信して保存する受信装置と
    を含む情報処理システム。
JP2019524760A 2017-06-21 2017-06-21 情報処理装置、情報処理システム、情報処理方法、及び、プログラム Active JP6927300B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/022782 WO2018235177A1 (ja) 2017-06-21 2017-06-21 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体

Publications (2)

Publication Number Publication Date
JPWO2018235177A1 JPWO2018235177A1 (ja) 2020-03-26
JP6927300B2 true JP6927300B2 (ja) 2021-08-25

Family

ID=64736890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019524760A Active JP6927300B2 (ja) 2017-06-21 2017-06-21 情報処理装置、情報処理システム、情報処理方法、及び、プログラム

Country Status (3)

Country Link
US (1) US11544455B2 (ja)
JP (1) JP6927300B2 (ja)
WO (1) WO2018235177A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001265B (zh) * 2020-07-29 2024-01-23 北京百度网讯科技有限公司 视频事件识别方法、装置、电子设备及存储介质
CN113468433B (zh) * 2021-09-02 2021-12-07 中科雨辰科技有限公司 目标事件抽取数据处理系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2321117A (en) * 1997-01-09 1998-07-15 Sharp Kk Disambiguating syntactic word multiples
JP2006139708A (ja) * 2004-11-15 2006-06-01 Ricoh Co Ltd テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム
JP4982542B2 (ja) * 2009-09-16 2012-07-25 日本電信電話株式会社 共起行列生成装置、共起行列生成方法、共起行列生成プログラムおよびそのプログラムを記録した記録媒体
JP5463873B2 (ja) 2009-11-20 2014-04-09 株式会社デンソーアイティーラボラトリ マルチメディア分類システム及びマルチメディア検索システム
US8762132B2 (en) 2011-10-20 2014-06-24 Nec Corporation Textual entailment recognition apparatus, textual entailment recognition method, and computer-readable recording medium

Also Published As

Publication number Publication date
US20210150143A1 (en) 2021-05-20
JPWO2018235177A1 (ja) 2020-03-26
WO2018235177A1 (ja) 2018-12-27
US11544455B2 (en) 2023-01-03

Similar Documents

Publication Publication Date Title
Kenyon-Dean et al. Resolving event coreference with supervised representation learning and clustering-oriented regularization
Zhao et al. Missing value imputation for mixed data via gaussian copula
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
US20120323825A1 (en) System and methods for finding hidden topics of documents and preference ranking documents
CN109165382B (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
US11080480B2 (en) Matrix generation program, matrix generation apparatus, and plagiarism detection program
EP1597682A2 (en) Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
US9734234B2 (en) System and method for rectifying a typographical error in a text file
JP6535858B2 (ja) 文書解析装置、プログラム
Varela et al. Selecting syntactic attributes for authorship attribution
JP2019197366A (ja) コンテンツ評価装置、コンテンツ評価方法、プログラム、および記録媒体
CN104536979A (zh) 主题模型的生成方法及装置、主题分布的获取方法及装置
JP6927300B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及び、プログラム
Isa et al. Sentiment classification of Malay newspaper using immune network (SCIN)
Soliman et al. Utilizing support vector machines in mining online customer reviews
Khan et al. A Roman Urdu Corpus for sentiment analysis
JP5366179B2 (ja) 情報の重要度推定システム及び方法及びプログラム
JP5284761B2 (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体
Thant et al. Preprocessing of YouTube Myanmar music comments for sentiment analysis
Simonson et al. Narrative schema stability in news text
JP6809119B2 (ja) 文書比較プログラム、文書比較方法、及び文書比較装置
Yamada et al. Onomatopoeia Search System Focused on Attributes Based on Sensibility and Various Sounds
JP5178357B2 (ja) 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム
Dangol et al. Automated news classification using n-gram model and key features of nepali language
Xu et al. Contextualized latent semantic indexing: A new approach to automated Chinese essay scoring

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191120

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210719

R150 Certificate of patent or registration of utility model

Ref document number: 6927300

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150