JP5829471B2 - 意味分析装置およびそのプログラム - Google Patents
意味分析装置およびそのプログラム Download PDFInfo
- Publication number
- JP5829471B2 JP5829471B2 JP2011223832A JP2011223832A JP5829471B2 JP 5829471 B2 JP5829471 B2 JP 5829471B2 JP 2011223832 A JP2011223832 A JP 2011223832A JP 2011223832 A JP2011223832 A JP 2011223832A JP 5829471 B2 JP5829471 B2 JP 5829471B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- model
- sentence
- storage unit
- dependency analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
言語、画像、映像等による表現の意味を分析する際に、それらの特徴を抽出し、特徴に基づいて意味を決定するという技術が考えられる。そのとき、言語、画像、映像等の表層だけではなく、潜在変数を用いることも考えられる。
また、特許文献2には、ビデオを要約するシステムにおいて、映像クラスタリングのために潜在変数を用いる技術が開示されている。
また、特許文献3には、画像認識によって人体の姿勢を推定するシステムにおいて、画像から抽出される画像特徴量と、出力すべき姿勢との間に、比較的低次元の潜在変数を置いたモデリング手法が開示されている。
また、非特許文献1には、文の評価極性を分類する際に、隠れ変数を持つ条件付確率場を用いる手法が開示されている。
また、本発明の一態様による意味分析装置は、上記の意味分析装置において、入力される入力文データの係り受け解析処理を行い、前記入力文データに対応する単語ベクトルと前記単語間の依存構造を表すデータとを含む係り受け解析結果データを出力する入力文係り受け解析部と、前記モデル記憶部から読み出した前記モデル情報であって前記モデル生成部によって求められた前記パラメータの値を含むモデル情報を用いて、前記入力文データに対応する前記係り受け解析結果データを前記モデルに適用することによって、前記入力文データの意味を表す値を算出する判別部と、をさらに具備する。
従って、本発明によれば、より少量の学習用データで、より精度の良い意味分析のためのモデルを生成することができる。また、そのようなモデルを用いて、意味が未知である入力文の意味分析を高精度に行うことができる。
図1は、本発明の一実施形態による意味分析装置の機能構成を示すブロック図である。図示するように、意味分析装置1は、学習データ記憶部10と、係り受け解析部20(解析部)と、係り受け解析木記憶部30と、モデル生成部40と、正解データ記憶部50と、拘束条件記憶部60と、モデル記憶部100と、入力部120と、係り受け解析部130(入力文係り受け解析部)と、判別部140と、出力部150とを含んで構成される。
係り受け解析部20は、学習データ記憶部10から学習用データを読み込み、この学習用データを解析して得られる解析結果データを出力する。具体的には、係り受け解析部20は、学習用の文データを読み込み文データの係り受け解析処理を行い係り受け解析木データを出力する。係り受け解析部20は、係り受け解析処理の結果得られる係り受け解析木データを係り受け解析木記憶部30に書き込む。
係り受け解析木記憶部30は、係り受け解析木データを記憶する。
拘束条件記憶部60は、学習用データに関する潜在変数間の条件を拘束条件データとして記憶する。具体的には、拘束条件データは、言語の表現間の類似関係を表わすデータである。
モデル記憶部100は、分析のためのモデル情報を記憶する。具体的には、モデル記憶部100は、文データの意味判別のためのモデル情報を記憶する。
係り受け解析部130は、入力部120において入力された入力文データの係り受け解析処理を行い係り受け解析木データを出力する。
判別部140は、係り受け解析部130から出力された係り受け解析木データと、モデル記憶部100から読み出したモデル情報とを用いて、入力文データの意味を判別する。
出力部150は、判別部140によって判別された意味を出力する。
図6は、意味分析装置1が、学習データを用いた機械学習を行い、モデルを生成する処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップS1において、係り受け解析部20は、学習データ記憶部10が記憶するL個の文の各々について係り受け解析処理を行い、その結果を係り受け解析木記憶部30に書き込む。具体的には、係り受け解析部20は、各文について、文節のチャンキング(chunking)を行い、チャンク間の係り受け関係を解析する。係り受け解析処理自体は、既存の技術を用いて行うことができる。例えば、サポートベクターマシン(SVM)に基づく日本語係り受け解析器として、CaboCha(Yet Another Japanese Dependency Structure Analyzer)を用いることができる。係り受け解析部20は、係り受け解析処理の結果を、係り受け解析木記憶部30に書き込む。
まずステップS21において、入力部120が入力文のデータを読み込む。
(1)単純な文字列置換
なお、モデルを構築するにあたり、類似表現を置換してしまう方法を取ることも考えられるが、本実施形態による意味分析装置1の構成では、置換してしまう場合よりも豊富な表現を維持したままで、より良い精度のモデルを構築することができる。
さらに別の技術として、処理すべき入力データに対して推論を施した後に、文字列置換を行うという方法を取ることも考えられる。
しかし、この場合には、例えば、「○○はおかしくも面白くもない。」という文は、文字列置換により、「○○は、おかしくもつまらない。」という文に変換される。このように文字列置換された結果の表現は、「おかしい」という肯定的表現と「つまらない」という否定的表現の両面をもつ意見文として分析されてしまうことになり、正確な分類につながらない。この現象はスコープの問題と呼ばれ、単純な文字列置換では否定表現「〜ない」のスコープを正しく扱えないことによって、文字列置換後に意味が変わる部分が生じてしまうことによる。この「〜ない」という表現において起こる問題と同様の問題は、「〜すぎる」や「〜足りない」や「〜がち」といった表現においても起こる。
上記のように、文字列置換を行う方法では情報の欠落や意味の改変といった副作用が起こり得る。これに対して、本実施形態による技術は、入力される文を改変することなくそのまま、潜在変数の結合を行うこと、即ち、部分木間の拘束条件を用いることによる処理を行う。一文中で複数の事項を述べている場合に、どの部分が全体の意味に重要な影響を与えるかを判定する処理を、局所的判断で行うのではなく、最後に総合的判断で行うことが望ましい。このため、部分的・局所的判断だけで処理をしてしまう文字列置換の手法よりも、元文の情報を全部残したまま学習済のモデルによる処理を行う本実施形態の手法のほうが有利な結果を得られる。
例えば、係り受け解析木記憶部30が記憶する係り受け解析結果データの構成例を図示したが、データ構造としては別の形で、文節間の依存関係(木構造)を表現するようにしても良い。
また例えば、図6に示した処理手順のうち、ステップS2とS3とS4の順序は任意であり、順序を変えて処理しても良い。
また、モデルを生成するための装置(学習データ記憶部10と、係り受け解析部20と、係り受け解析木記憶部30と、モデル生成部40と、正解データ記憶部50と、拘束条件記憶部60と、モデル記憶部100)と、生成されたモデルを用いた文判別のための装置構成(モデル記憶部100と、入力部120と、係り受け解析部130と、判別部140と、出力部150)とを、それぞれ別装置として実現しても良い。
10 学習データ記憶部
20 係り受け解析部(解析部)
30 係り受け解析木記憶部
40 モデル生成部
50 正解データ記憶部
60 拘束条件記憶部
100 モデル記憶部
120 入力部
130 係り受け解析部(入力文係り受け解析部)
140 判別部
150 出力部
Claims (4)
- 学習用の文データに対応する意味を表す値を正解データとして記憶する正解データ記憶部と、
言語の表現間の類似関係を拘束条件データとして記憶する拘束条件記憶部と、
文データに対応する単語ベクトル、および前記文データに対応する係り受け解析木データが表す単語間の依存構造を表すデータと、前記文データの意味を表す値との確率的関係を表すモデルについてのモデル情報を記憶するモデル記憶部と、
前記学習用の文データを読み込み前記文データの係り受け解析処理を行い、前記学習用の文データに対応する単語ベクトルと前記単語間の依存構造を表すデータとを含む係り受け解析結果データを出力する係り受け解析部と、
前記係り受け解析結果データが表す係り受け解析木のノードに当該ノードをルートとする部分木の意味を表す潜在変数を対応させて、前記拘束条件記憶部から読み出した前記拘束条件データに基づいて前記ノードをルートとする部分木に対応する表現間の類似関係をノード間の前記潜在変数同士の拘束条件とするとともに、前記学習用の文データの文全体の意味に対応する前記潜在変数を前記正解データ記憶部から読み出した前記正解データが表す当該文データの意味に対応する値に拘束して、学習処理により前記モデルの尤度を最大化する方向に前記モデルに含まれるパラメータを推定し、得られた前記パラメータの値を生成された前記モデル情報として前記モデル記憶部に書き込むモデル生成部と、
を具備することを特徴とする意味分析装置。 - 前記モデル生成部は、前記潜在変数同士の拘束条件に基づいて前記モデルを拘束する際に、前記係り受け解析木データにおけるルートに近い順から行い、潜在変数同士の結合を試みてループを生じるような場合には、当該潜在変数同士の拘束条件を除外する、
ことを特徴とする請求項1に記載の意味分析装置。 - 入力される入力文データの係り受け解析処理を行い、前記入力文データに対応する単語ベクトルと前記単語間の依存構造を表すデータとを含む係り受け解析結果データを出力する入力文係り受け解析部と、
前記モデル記憶部から読み出した前記モデル情報であって前記モデル生成部によって求められた前記パラメータの値を含むモデル情報を用いて、前記入力文データに対応する前記係り受け解析結果データを前記モデルに適用することによって、前記入力文データの意味を表す値を算出する判別部と、
をさらに具備することを特徴とする請求項1または2に記載の意味分析装置。 - コンピューターを、請求項1から3までのいずれか一項に記載の意味分析装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011223832A JP5829471B2 (ja) | 2011-10-11 | 2011-10-11 | 意味分析装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011223832A JP5829471B2 (ja) | 2011-10-11 | 2011-10-11 | 意味分析装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013084136A JP2013084136A (ja) | 2013-05-09 |
JP5829471B2 true JP5829471B2 (ja) | 2015-12-09 |
Family
ID=48529265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011223832A Expired - Fee Related JP5829471B2 (ja) | 2011-10-11 | 2011-10-11 | 意味分析装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5829471B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612213B (zh) * | 2020-04-10 | 2023-10-10 | 中国南方电网有限责任公司 | 基于深度学习的断面约束智能化预警方法及系统 |
CN113157875A (zh) * | 2021-03-12 | 2021-07-23 | 北京智通云联科技有限公司 | 知识图谱问答系统、方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4860265B2 (ja) * | 2004-01-16 | 2012-01-25 | 日本電気株式会社 | テキスト処理方法/プログラム/プログラム記録媒体/装置 |
JP5264649B2 (ja) * | 2009-08-18 | 2013-08-14 | 日本電信電話株式会社 | 情報圧縮型モデルパラメータ推定装置、方法及びプログラム |
JP5426292B2 (ja) * | 2009-09-16 | 2014-02-26 | 日本放送協会 | 意見分類装置およびプログラム |
-
2011
- 2011-10-11 JP JP2011223832A patent/JP5829471B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013084136A (ja) | 2013-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6799800B2 (ja) | 意味情報生成方法、意味情報生成装置、およびプログラム | |
US20170069310A1 (en) | Clustering user utterance intents with semantic parsing | |
CN108197111A (zh) | 一种基于融合语义聚类的文本自动摘要方法 | |
US10009466B2 (en) | System and method for a cognitive system plug-in answering subject matter expert questions | |
US10104232B2 (en) | System and method for a cognitive system plug-in answering subject matter expert questions | |
CN109062902B (zh) | 一种文本语义表达方法及装置 | |
JP6729095B2 (ja) | 情報処理装置及びプログラム | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
Ali et al. | Automatic text‐to‐gesture rule generation for embodied conversational agents | |
JP2007157058A (ja) | 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN110909174B (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
Yuan et al. | Perceiving more truth: A dilated-block-based convolutional network for rumor identification | |
CN110889505A (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
Girsang et al. | Extractive text summarization for indonesian news article using ant system algorithm | |
Peiris et al. | Synthesis and evaluation of a domain-specific large data set for dungeons & dragons | |
Chen et al. | Using deep belief nets for Chinese named entity categorization | |
JP5829471B2 (ja) | 意味分析装置およびそのプログラム | |
Lyu et al. | Deep learning for textual entailment recognition | |
Chamansingh et al. | Efficient sentiment classification of Twitter feeds | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
Moraes et al. | Polarity detection of foursquare tips | |
Fernandes et al. | Entropy-guided feature generation for structured learning of Portuguese dependency parsing | |
Sajinika et al. | Twitter Sentiment Analysis and Topic Modeling for Online Learning | |
Praveena et al. | Chunking based malayalam paraphrase identification using unfolding recursive autoencoders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151022 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5829471 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |