JP6927300B2 - 情報処理装置、情報処理システム、情報処理方法、及び、プログラム - Google Patents
情報処理装置、情報処理システム、情報処理方法、及び、プログラム Download PDFInfo
- Publication number
- JP6927300B2 JP6927300B2 JP2019524760A JP2019524760A JP6927300B2 JP 6927300 B2 JP6927300 B2 JP 6927300B2 JP 2019524760 A JP2019524760 A JP 2019524760A JP 2019524760 A JP2019524760 A JP 2019524760A JP 6927300 B2 JP6927300 B2 JP 6927300B2
- Authority
- JP
- Japan
- Prior art keywords
- occurrence
- data
- predicate
- tensor
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 116
- 238000003672 processing method Methods 0.000 title claims description 3
- 239000011159 matrix material Substances 0.000 claims description 95
- 238000004364 calculation method Methods 0.000 claims description 88
- 238000000034 method Methods 0.000 claims description 58
- 238000002910 structure generation Methods 0.000 claims description 29
- 238000000354 decomposition reaction Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 31
- 239000013598 vector Substances 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 235000002566 Capsicum Nutrition 0.000 description 4
- 241000758706 Piperaceae Species 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 235000008534 Capsicum annuum var annuum Nutrition 0.000 description 2
- 240000008384 Capsicum annuum var. annuum Species 0.000 description 2
- 244000000626 Daucus carota Species 0.000 description 2
- 235000002767 Daucus carota Nutrition 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000035622 drinking Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 244000269722 Thea sinensis Species 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/042—Backward inferencing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Description
以下、図面を参照して、第1の実施形態について説明する。
第1の実施形態に係る情報処理装置100は、言語データを基に、その言語データにおける述語項構造における述語と項との共起(co−occurrence)を示すデータ(以下、「第1のデータ」と呼ぶ)を生成する。
まず、図面を参照して、本発明における第1の実施形態に係る情報処理装置100の構成について説明する。
最適化問題:原共起テンソルと復元テンソルの差(この差は、「距離」とも呼ばれる)を最小化する。
制約:因子テンソルは、非負のテンソル(全ての成分が0以上であるテンソル)である。
次に、図面を参照して、第1の実施形態に係る情報処理装置100の動作について説明する。
次に、第1の実施形態の効果について説明する。
次に、第2の実施形態として、全ての項を含む原共起テンソルを用いる場合について説明する。なお、項が一つの場合、第2の実施形態の動作は、第1の実施形態及び次に説明する第3の実施形態と、同じになる。そのため、本実施形態の説明では、項は、複数とする。ただし、これは、第2の実施形態において項が一つの場合を除外するものではない。
図面を参照して、第2の実施形態に係る情報処理装置101の構成について説明する。
XABV ≒ CRST × FAR × GBS × HVT = X’ABV
数式1において、英大文字V、A、及びBは、それぞれ、原共起テンソルにおける英小文字で示されているモード、v、a、及びbの大きさ(サイズ又は次元数)である。
次に、第2の実施形態の効果について説明する。
次に、詳細例1として、情報処理装置101の具体的な動作例を説明する。詳細例1における説明では、情報処理装置101は、述語、道具格の項、及び、目標格の項を有する述語項構造を対象として動作する。ただし、これは、情報処理装置101における格を制限するものではない。情報処理装置101は、他の格の項を対象としてもよく、一つ又は三つ以上の格の項を有する述語項構造を対象としてもよい。
T1=子供が自転車で学校に通っている。
A1=(述語=通う,動作主格=子供,目標格=学校,道具格=自転車)
言語解析情報A1は、テキストT1の述語項構造の解析の結果である。具体的には、言語解析情報A1は、テキストT1の中に、述語“通う”、動作主格の項“子供”、目標格の項“学校”、道具格の項“自転車”からなる述語項構造が存在することを示す。例えば、テキストT1の述語項構造は、“(通う[述語],子供が[動作主格],学校に[目標格],自転車で[道具格])”である。
scoreSLSA(v1,v2;a,b)=p(v2|a,b)×p(a,b|v1)
ここで、p(v|a,b)は、項a及びbが出現した下での述語vが出現する事後確率である。また、p(a,b|v)は、述語vが出現した下での項a及びbが出現する事後確率である。スコアscoreSLSAは、述語項構造e1及びe2における述語の対(v1、v2)が、項a及びbを共有する場合において、述語項構造e1の述語(v1)が成立した下で、述語項構造e2の述語(v2)が成立する程度をモデル化したスコアである。スコアscoreSLSAは、述語項構造e1が述語項構造e2を含意する程度を示す。
次に、第3の実施形態として、原共起テンソルが、複数のテンソルとなる場合について、説明する。つまり、少なくとも、一部の項が、それぞれ異なるテンソルに含まれる場合を説明する。
図面を参照して、第3の実施形態に係る情報処理装置102の構成について説明する。
XAV ≒FAK × GKV = X’AV
YBV ≒HBK × GKV = Y’BV
数式8において、上付き文字は、数式1と同じである。原共起行列Xは、因子行列F及びGに分解される。原共起行列Yは、因子行列H及びGに分解される。原共起行列X及びYは、共有因子行列Gを持つ行列である。そして、行列F及びGの積の結果が、原共起行列Xの近似である復元行列X’となる。行列H及びGの積の結果が、原共起行列Yの近似である復元行列Y’となる。
スコア計算部152は、第1の格の項(a)における所定の項(am)と、第2の格の項(b)における所定の項(bn)との関連度を、次のように算出する。
次に、第3の実施形態の効果について説明する。
次に、詳細例2として、情報処理装置102の具体的な動作例を説明する。詳細例2では、情報処理装置102は、述語、動作主格の項、及び目標格の項を有する述語項構造を対象として動作する。
(1)共起生成部132は、原共起行列Xの成分[通う[述語],子供が[動作主格]]に6を設定する。
(2)共起生成部132は、原共起行列Yの成分[通う[述語],学校に[目標格]]に6を設定する。
(1)共起生成部132は、原共起行列Xの成分[通う[述語],子供が[動作主格]]に3を設定する。
[数式9]
X’AV=FAK×GKV
[数式10]
Y’BV=HBK×GKV
潜在生成部142における上記処理は、次の数式11に示されるような、原共起行列(X及びY)と、復元行列(X’及びY’)との距離Dの和を最小化することで、因子テンソルF、G及びHを求める最適化問題に定式化できる。
scoreCLSA(v1,v2;a,b)=r(a,b)×scorepart(v1,v2;a)×scorepart(v1,v2;b)
r(a,b)は、項a及びbの関連度(項間関連度)である。scorepart(v1,v2;n)は、次の示されている数式13である(ここで、項nは、項a又はb)。
scorepart(v1,v2;n)=p(v2|n)×p(n|v1)
確率p(v|n)は、項nが出現した下での述語vが出現する事後確率である。確率p(n|v)は、述語vが出現した下で項nが出現する事後確率である。scorepart(v1,v2;n)は、一つの項nを共有する述語の対(v1及びv2)に関してv1からv2への含意関係が成立する程度を表す尺度となる。scorepart(v1,v2;n)は、述語項構造の対における部分(項)ごとに個別に計算されたスコア(部分構造間の関連度)である。
scoreCLSA(v1,v2;a,b)=r(a,b)×minn∈{a,b}{scorepart(v1,v2;n)}
項間関連度の一例を説明する。スコア計算部152は、まず、潜在生成部142が生成した復元行列X’及びY’における述語及び項についての出現確率を計算する。具体的には、スコア計算部152は、次の[数式15]及び[数式16]を用いて、事後確率p(v|n)及びp(n|v)(項nは、項a又はb)を計算する。
以上の説明した情報処理装置100ないし102のハードウェア構成について、情報処理装置100を用いて説明する。
次に、図面を参照して、本実施形態の情報処理装置100ないし102を含む情報処理システム10について説明する。
100 情報処理装置
101 情報処理装置
102 情報処理装置
120 構造生成部
130 共起生成部
131 共起生成部
132 共起生成部
140 潜在生成部
141 潜在生成部
142 潜在生成部
150 スコア計算部
151 スコア計算部
152 スコア計算部
160 対選択部
200 送信装置
300 受信装置
600 情報処理装置
610 CPU
620 ROM
630 RAM
640 内部記憶装置
650 IOC
660 入力機器
670 表示機器
680 NIC
700 記録媒体
Claims (7)
- 言語データを基に述語と前記述語の対象となる項とを含む述語項構造を生成する構造生成手段と、
前記述語項構造における前記述語と前記項との共起を示す第1のデータを生成する共起生成手段と、
前記第1のデータに非負地行列因子分解、Tucker分解、又は、復号行列分解を適用して、前記第1のデータを前記第1のデータに含まれる要素より少ない要素を含む複数の第2のデータに分解し、前記第2のデータの積の結果として前記述語と前記項との潜在的共起を含む第3のデータを生成する、又は、前記第1のデータ、前記第2のデータ、及び前記第3のデータを含む最適化問題を解いて前記第3のデータを生成する潜在生成手段と、
前記第1のデータ及び前記第3のデータにおいて所定の条件を満足する前記述語項構造を選択し、選択した前記述語項構造を含む前記述語項構造の対における前記述語と前記項との共起の値を基に前記述語と前記項との出現確率を算出し、算出した前記出現確率を用いてスコアを計算するスコア計算手段と、
前記スコアを基に前記対を選択する対選択手段と
を含む情報処理装置。 - 前記共起生成手段が、
前記第1のデータとして、前記述語と前記項とをモードとする原共起テンソルを算出し、
前記潜在生成手段が、
前記第2のデータとして、前記原共起テンソルを、前記原共起テンソルのランクより低いランクの因子テンソルに分解し、
前記第3のデータとして、前記因子テンソルの積である復元テンソルを生成する
請求項1に記載の情報処理装置。 - 前記共起生成手段が、
前記原共起テンソルとして、全ての前記述語と、全ての前記項とをモードとする前記原共起テンソルを生成し、
前記スコア計算手段が、
前記復元テンソルにおける前記述語及び前記項それぞれについての前記出現確率を用いて前記スコアを計算する
請求項2に記載の情報処理装置。 - 前記共起生成手段が、
前記原共起テンソルとして、前記述語といずれか一つの前記項とをモードとする複数の前記原共起テンソルを生成し、
前記潜在生成手段が、
全ての前記原共起テンソルにおいて、少なくとも一部の前記因子テンソルが同じテンソルとなるように、前記原共起テンソルを前記因子テンソルに分解し、
前記スコア計算手段が、
前記復元テンソルに基づいて前記述語及び前記項それぞれについての前記出現確率を計算し、
前記因子テンソルを用いて複数の項の間における関連度を計算し、
前記出現確率及び前記関連度を用いて前記スコアを計算する
請求項2に記載の情報処理装置。 - 情報処理装置が、
言語データを基に述語と前記述語の対象となる項とを含む述語項構造を生成し、
前記述語項構造における前記述語と前記項との共起を示す第1のデータを生成し、
前記第1のデータに非負地行列因子分解、Tucker分解、又は、復号行列分解を適用して、前記第1のデータを前記第1のデータに含まれる要素より少ない要素を含む複数の第2のデータに分解し、
前記第2のデータの積の結果として前記述語と前記項との潜在的共起を含む第3のデータを生成し、
前記第1のデータ及び前記第3のデータにおいて所定の条件を満足する前記述語項構造を選択し、
選択した前記述語項構造を含む前記述語項構造の対における前記述語と前記項との共起の値を基に前記述語と前記項との出現確率を算出し、算出した前記出現確率を用いてスコアを計算し、
前記スコアを基に前記対を選択する
情報処理方法。 - 言語データを基に述語と前記述語の対象となる項とを含む述語項構造を生成する処理と、
前記述語項構造における前記述語と前記項との共起を示す第1のデータを生成する処理と、
前記第1のデータに非負地行列因子分解、Tucker分解、又は、復号行列分解を適用して、前記第1のデータを前記第1のデータに含まれる要素より少ない要素を含む複数の第2のデータに分解する処理と、
前記第2のデータの積の結果として前記述語と前記項との潜在的共起を含む第3のデータを生成する処理と、
前記第1のデータ及び前記第3のデータにおいて所定の条件を満足する前記述語項構造を選択する処理と、
選択した前記述語項構造を含む前記述語項構造の対における前記述語と前記項との共起の値を基に前記述語と前記項との出現確率を算出し、算出した前記出現確率を用いてスコアを計算する処理と、
前記スコアを基に前記対を選択する処理と
をコンピュータに実行させるプログラム。 - 請求項1ないし4のいずれか1項に記載の前記情報処理装置と、
前記言語データを取得して、前記情報処理装置に送信する送信装置と、
選択された前記対を前記情報処理装置から受信して保存する受信装置と
を含む情報処理システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/022782 WO2018235177A1 (ja) | 2017-06-21 | 2017-06-21 | 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018235177A1 JPWO2018235177A1 (ja) | 2020-03-26 |
JP6927300B2 true JP6927300B2 (ja) | 2021-08-25 |
Family
ID=64736890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019524760A Active JP6927300B2 (ja) | 2017-06-21 | 2017-06-21 | 情報処理装置、情報処理システム、情報処理方法、及び、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11544455B2 (ja) |
JP (1) | JP6927300B2 (ja) |
WO (1) | WO2018235177A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001265B (zh) * | 2020-07-29 | 2024-01-23 | 北京百度网讯科技有限公司 | 视频事件识别方法、装置、电子设备及存储介质 |
CN113468433B (zh) * | 2021-09-02 | 2021-12-07 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2321117A (en) * | 1997-01-09 | 1998-07-15 | Sharp Kk | Disambiguating syntactic word multiples |
JP2006139708A (ja) * | 2004-11-15 | 2006-06-01 | Ricoh Co Ltd | テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム |
JP4982542B2 (ja) * | 2009-09-16 | 2012-07-25 | 日本電信電話株式会社 | 共起行列生成装置、共起行列生成方法、共起行列生成プログラムおよびそのプログラムを記録した記録媒体 |
JP5463873B2 (ja) | 2009-11-20 | 2014-04-09 | 株式会社デンソーアイティーラボラトリ | マルチメディア分類システム及びマルチメディア検索システム |
US8762132B2 (en) | 2011-10-20 | 2014-06-24 | Nec Corporation | Textual entailment recognition apparatus, textual entailment recognition method, and computer-readable recording medium |
-
2017
- 2017-06-21 US US16/623,033 patent/US11544455B2/en active Active
- 2017-06-21 WO PCT/JP2017/022782 patent/WO2018235177A1/ja active Application Filing
- 2017-06-21 JP JP2019524760A patent/JP6927300B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20210150143A1 (en) | 2021-05-20 |
JPWO2018235177A1 (ja) | 2020-03-26 |
WO2018235177A1 (ja) | 2018-12-27 |
US11544455B2 (en) | 2023-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kenyon-Dean et al. | Resolving event coreference with supervised representation learning and clustering-oriented regularization | |
Zhao et al. | Missing value imputation for mixed data via gaussian copula | |
KR20130056207A (ko) | 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램 | |
US20120323825A1 (en) | System and methods for finding hidden topics of documents and preference ranking documents | |
CN109165382B (zh) | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 | |
US11080480B2 (en) | Matrix generation program, matrix generation apparatus, and plagiarism detection program | |
EP1597682A2 (en) | Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently | |
US9734234B2 (en) | System and method for rectifying a typographical error in a text file | |
JP6535858B2 (ja) | 文書解析装置、プログラム | |
Varela et al. | Selecting syntactic attributes for authorship attribution | |
JP2019197366A (ja) | コンテンツ評価装置、コンテンツ評価方法、プログラム、および記録媒体 | |
CN104536979A (zh) | 主题模型的生成方法及装置、主题分布的获取方法及装置 | |
JP6927300B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、及び、プログラム | |
Isa et al. | Sentiment classification of Malay newspaper using immune network (SCIN) | |
Soliman et al. | Utilizing support vector machines in mining online customer reviews | |
Khan et al. | A Roman Urdu Corpus for sentiment analysis | |
JP5366179B2 (ja) | 情報の重要度推定システム及び方法及びプログラム | |
JP5284761B2 (ja) | 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体 | |
Thant et al. | Preprocessing of YouTube Myanmar music comments for sentiment analysis | |
Simonson et al. | Narrative schema stability in news text | |
JP6809119B2 (ja) | 文書比較プログラム、文書比較方法、及び文書比較装置 | |
Yamada et al. | Onomatopoeia Search System Focused on Attributes Based on Sensibility and Various Sounds | |
JP5178357B2 (ja) | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム | |
Dangol et al. | Automated news classification using n-gram model and key features of nepali language | |
Xu et al. | Contextualized latent semantic indexing: A new approach to automated Chinese essay scoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191120 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6927300 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |