JP2022070523A

JP2022070523A - 意味表現解析システム及び意味表現解析方法

Info

Publication number: JP2022070523A
Application number: JP2020179627A
Authority: JP
Inventors: 太亮尾崎; Hiroaki Ozaki; 学森尾; Manabu Morio
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-05-13
Also published as: WO2022091536A1; US20230351112A1

Abstract

【課題】種々の意味表現を統一的に精度よく解析する。【解決手段】意味表現解析システム１００は、テキストまたはグラフによる入力データ２１０を受け付ける入力部１１０と、入力データ２１０に対応するグラフ構造を表すトークン列（直列化グラフ２２０）を生成する直列化グラフ生成部１２０と、を備える。さらに、直列化グラフ生成部１２０が生成するトークン列は、入力データ２１０に対応するグラフ構造におけるノードを示す第１トークンと、ノード間の関係を表す辺を示す第２トークンと、を少なくとも含んで構成される。【選択図】図１

Description

本発明は、意味表現解析システム及び意味表現解析方法に関し、入力されたデータの意味を解析し、意味を示すグラフ構造を構成する意味表現解析システム及び意味表現解析方法に適用して好適なものである。

従来、与えられたテキストに対する意味をグラフ構造を用いて表すことを意味表現解析と呼ぶ。意味表現解析は、文中の語の関係を解析する、所謂、構文解析や係り受け解析を広義に含み、また、必ずしも文中の語と対応しない抽象的な意味表現グラフを構成する技術や、数学などにおける文章題から計算式を表すグラフを構成する技術も含む。

意味表現解析を実現する手法としては、入力情報であるテキストを語（トークン）などに分割し、その列（入力トークン列）に対して操作（アクション）を施すことによって意味表現グラフを構成する「遷移による解析手法」と、入力トークン列に対して入力トークン間の関係を表す隣接行列を直接的に推定する「隣接行列による解析手法」とが存在する。

上記のような意味表現解析の実現には機械学習を用いることができる。遷移による解析手法の場合、スタックを有し、スタックと入力トークン列、及び実施したアクション等から素性を抽出したうえで、実施すべきアクションを識別することによって実現することができる。一方、隣接行列による解析手法の場合は、入力トークン列を用いて入力トークン間の接続性を表す実数値などを計算することで実現することができる。この実数値は、深層学習においては、所謂、注意機構を用いて計算することができる。

そして昨今の深層学習の進展により、より複雑、または抽象的な意味表現解析が可能となっている。例えば、ＡＭＲ（Abstract Meaning Representation）という意味表現は、グラフ中のノードと文中の語に明確な対応関係が存在しないが、深層学習のエンコーダ・デコーダ機構を用いることで、文中に対応がないノードを生成することにより、遷移ないし隣接行列による手法で解析することができる。

また、意味表現グラフの種類は、それぞれの目的や用途の違いから多岐にわたり、種類ごとに精度の高い解析手法が異なることが知られている。

以上の背景技術に関連する従来技術として例えば、非特許文献１には、種々の意味表現グラフを遷移によって精度よく解析する手段が開示されている。また、非特許文献２には、遷移による解析手段が開示されており、種々の意味表現グラフを同一のアクションの集合を用いて解析することができる。

Wanxiang Che et.al.，HIT-SCIR at MRP 2019，A Unified Pipeline for Meaning Representation Parsing via Efficient Trainingand Effective Encoding Daniel Hershcovich et.al.，Multitask ParsingAcross Semantic Representation

しかし、上述した非特許文献１の技術は、種々の意味表現グラフを遷移による解析手法によって精度良く解析できる点で有用であるが、意味表現グラフの種類によってアクションを定義しなおす必要があり、種々の意味表現グラフを統一的に精度よく解析することはできないという問題があった。また非特許文献２の技術は、種々の意味表現グラフを同一のアクションの集合を用いて解析することができる点で有用であるが、解析対象とする意味表現グラフを全て解析可能とするアクションの集合は、意味表現グラフごとに最適化されたアクションの集合と比べると余分なアクションの実施が必要となってしまうため、同一の意味表現グラフを対象とした場合、非特許文献１の技術を用いた場合よりも解析精度が大幅に低下するという問題があった。

本発明は以上の点を考慮してなされたもので、種々の意味表現を統一的に精度よく解析することが可能な意味表現解析システム及び意味表現解析方法を提案しようとするものである。

かかる課題を解決するため本発明においては、入力データの意味表現を解析する意味表現解析システムであって、テキストまたはグラフによる前記入力データを受け付ける入力部と、前記入力データに対応するグラフ構造を表すトークン列を生成する直列化グラフ生成部と、を備え、前記トークン列は、前記入力データに対応するグラフ構造におけるノードを示す第１トークンと、前記ノード間の関係を表す辺を示す第２トークンと、を少なくとも含んで構成される、意味表現解析システムが提供される。

また、かかる課題を解決するため本発明においては、入力データの意味表現を解析する意味表現解析システムによる意味表現解析方法であって、テキストまたはグラフによる前記入力データを受け付ける入力ステップと、前記入力ステップで受け付けた前記入力データに基づいて、当該入力データに対応するグラフ構造を表すトークン列を生成する直列化グラフ生成ステップと、を備え、前記トークン列は、前記入力データに対応するグラフ構造におけるノードを示す第１トークンと、前記ノード間の関係を表す辺を示す第２トークンと、を少なくとも含んで構成される、意味表現解析方法が提供される。

本発明によれば、種々の意味表現を統一的に精度よく解析することができる。

実施例１に係る意味表現解析システム１００の機能構成例を示すブロック図である。意味表現解析システム１００を実現するコンピュータ装置１０のハードウェア構成例を示すブロック図である。直列化グラフ生成部１２０の内部構成例を示すブロック図である。意味表現グラフの一例を示す図である。直列化グラフの一例を示す図である。直列化グラフ変換部１３０の内部構成例を示すブロック図である。トークン処理部１３１による処理の概要を示すフローチャートである。実施例１における直列化グラフの変換手順を具体例で説明するための図である。実施例１においてグラフの入力データから等価な直列化グラフを生成する処理の処理手順例を示すフローチャートである。実施例２における直列化グラフの変換手順を具体例で説明するための図である。実施例２においてグラフの入力データから等価な直列化グラフを生成する処理の処理手順例を示すフローチャートである。

以下、図面を参照して、本発明の実施例を詳述する。以下において、同一または類似する要素及び処理に対しては、同一の符号を付して差分を説明し、重複する説明を省略する。また、後出の実施例については、既出の実施例との差分を説明し、重複する説明を省略する。また、それぞれの実施例やその変形例は、本発明の趣旨と整合する範囲内で、一部または全部を組み合わせることができる。

図１は、実施例１に係る意味表現解析システム１００の機能構成例を示すブロック図である。意味表現解析システム１００は、テキストまたはグラフによる入力データ２１０を入力として、入力部１１０を介して直列化グラフ生成部１２０において直列化グラフ２２０を生成し、さらに直列化グラフ変換部１３０において直列化グラフ２２０を所望の形式に変換した後、出力部１４０において所定のグラフの形式に可視化した出力グラフ２３０を出力する。

ここで、意味表現解析システム１００のハードウェア構成について先に説明する。意味表現解析システム１００は、コンピュータ装置によって実現することができる。

図２は、意味表現解析システム１００を実現するコンピュータ装置１０のハードウェア構成例を示すブロック図である。

図２に示したように、コンピュータ装置１０は、プロセッサ１１、記憶デバイス１２、入力デバイス１３、出力デバイス１４、及び通信インタフェース１５を備えて構成され、各構成要素がバス１６によって互いに接続される。

プロセッサ１１は、コンピュータ装置１０を制御する機能を有する。記憶デバイス１２は、プログラム及びデータを記憶する不揮発性記憶装置または揮発性記憶装置を有する記憶媒体であって、プロセッサ１１の作業領域となる。記憶デバイス１２の具体的な記憶媒体は限定されるものではなく、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、またはＳＳＤ（Solid State Drive）といったフラッシュメモリ等を用いることができる。また、プロセッサ１１及び記憶デバイス１２は、ＧＰＵ（Graphical Processing Unit）を用いたデバイスであってもよい。

具体的には、例えば、図１に示した意味表現解析システム１００の各処理部（入力部１１０、直列化グラフ生成部１２０、直列化グラフ変換部１３０、出力部１４０）は、記憶デバイス１２に記憶された一時的または非一時的なプログラムをプロセッサ１１が実行することによって実現される。また、意味表現解析システム１００で取り扱う入力データ２１０、直列化グラフ２２０、及び出力グラフ２３０等の各種データは、例えば記憶デバイス１２に記憶される。この他にも例えば、後述する図６のノード・辺情報１３３で保持される各種データも、例えば記憶デバイス１２に記憶される。

プロセッサ１１は、単一または複数の処理ユニットで構成される。また、プロセッサ１１は、単一または複数の演算ユニットと、複数の処理コアを含むことができる。プロセッサ１１は、単一または複数の中央処理装置、マイクロプロセッサ、デジタル信号プロセッサ、マイクロコントローラ、マイクロ計算機、ステートマシン、ロジック回路、グラフィック処理装置、チップオンシステム、または制御指示等によって信号操作を行う任意の装置として実装される。

意味表現解析システム１００を実現するコンピュータ装置１０において、プロセッサ１１によって実行されるプログラムには、ＯＳ（Operating System）を含むことができる。さらに、プロセッサ１１によって実行されるプログラムには、意味表現解析システム１００の各処理部の機能を実現するためのプログラム（例えば、入力部１１０のための入力プログラム、直列化グラフ生成部１２０のための直列化グラフ生成プログラム、直列化グラフ変換部１３０のための直列化グラフ変換プログラム、出力部１４０のための出力プログラム）等の各種プログラムを含むことができる。プロセッサ１１、は上述したこれらのプログラムを実行し、動作することにより、入力部１１０、直列化グラフ生成部１２０、直列化グラフ変換部１３０、及び出力部１４０として機能することができる。

図２に示したコンピュータ装置１０において、ＯＳや各種プログラム等のソフトウェア要素は、記憶デバイス１２のなかの何れかの記憶領域に格納される。ＯＳや各種プログラムは、予め可搬型記録媒体に記録されていてもよく、その場合は、媒体読取装置によってプログラムを可搬型記録媒体から読み取り、記憶デバイス１２に格納する。また、通信媒体を介してＯＳや各種プログラムを取得するようにしてもよい。

入力デバイス１３は、ユーザによる意味表現解析システム１００に対する命令及びデータ入力を実行する装置であって、具体的には例えば、マウス、キーボード、タッチパネル、マイク、またはスキャナ等で実現される。

出力デバイス１４は、意味表現解析システム１００からのデータ出力を実行する装置であって、具体的には例えば、ディスプレイ、プリンタ、またはスピーカ等で実現される。

通信インタフェース１５は、コンピュータ装置１０の外部ネットワークと接続して、意味表現解析システム１００で扱う各種データの送受信を行う装置であって、具体的には例えば、ＮＩＣ（Network Interface Card）等で実現される。意味表現解析システム１００が通信インタフェース１５を備えるコンピュータ装置１０で実現されるとき、意味表現解析システム１００は、外部ネットワークを介して別の端末からデータを送受信するように構成することができる。

なお、意味表現解析システム１００は、図２に示したコンピュータ装置１０のように単一の計算機（コンピュータ装置）で実装される構成に限定されるものではなく、複数の計算機（コンピュータ装置）からなる計算機システムによって実装されてもよい。その場合、計算機同士はネットワークを介して通信可能とされ、例えば言語モデル処理装置による複数の機能が複数の計算機に分けて実装される等してもよい。

意味表現解析システム１００のハードウェア構成についての説明は以上であり、以下、図１に示した意味表現解析システム１００の機能構成の説明に戻る。

まず、入力データ２１０及び入力部１１０について説明する。

前述したように、入力データ２１０はテキストまたはグラフの形式をとる。入力データ２１０がテキストである場合、当該テキストは、一般的には単文であるが、複数文であってもよいし、発話や非文などの文としての体裁をなさないテキストであってもよい。また、何らかのグラフ構造をなす記号列であってもよい。一方、入力データ２１０がグラフである場合は、当該グラフは、グラフ構造を持つ、意味を成す単位であればよい。以上を踏まえ、本実施例では、テキストによる入力データ２１０からの意味表現グラフの解析を事例として説明する。

入力部１１０は、ユーザが処理を行いたい入力データ２１０（上述したように、本例ではテキスト）を受け取り、入力データ２１０のテキストまたはグラフを、直列化グラフ生成部１２０による処理が可能な形態に変換する。具体的には例えば、意味表現解析システム１００がキャラクタユーザインタフェース（ＣＵＩ）を用いて入力データ２１０の入力を受け付ける場合、入力部１１０は、ＣＵＩを用いて入力されたテキストを適切な所定の文字コードのテキストデータ（例えばプレインテキスト等）に変換する。

なお、入力データ２１０がグラフである場合は、入力部１１０は、入力されたグラフ（入力グラフ）を直列化グラフに変換する。この段階で生成される直列化グラフは、入力グラフを等価な直列化グラフに変換したものであり、後述する直列化グラフ生成部１２０によって生成される直列化グラフとは異なるグラフであるが、既述形式としては同一であることが望ましい。以下の説明では、区別のために、前者の入力部１１０によって生成される直列化グラフを「入力グラフから変換された直列化グラフ」、後者の直列化グラフ生成部１２０によって生成される直列化グラフを「第１の直列化グラフ」と称することがある。但し、本発明は、入力グラフから変換された直列化グラフが第１の直列化グラフと同一の既述形式でなくても適用することが可能である。入力データ２１０がグラフ（入力グラフ）である場合に、入力部１１０が入力グラフと等価な入力グラフから変換された直列化グラフを生成する方法については、図９を参照しながら後述する。

次に、直列化グラフ生成部１２０及び直列化グラフ２２０について説明する。

直列化グラフ生成部１２０は、入力部１１０によってテキストの入力データ２１０から変換されたテキストデータをもとに、直列化グラフ２２０を生成し、直列化グラフ変換部１３０に出力する。直列化グラフ生成部１２０が生成する直列化グラフ２２０は、入力データ２１０であるテキストに対応する意味表現グラフを直列化したグラフである。なお、ここでいう直列化とは、意味表現グラフの辺がなす構造を表現することができる形式のうち、トークン列とみなすことができる形式に変換することを意味する。一般的に、テキストデータにそのまま出力可能な形式への変換は、直列化とみなすことができる。

図３は、直列化グラフ生成部１２０の内部構成例を示すブロック図である。図３に示したように、直列化グラフ生成部１２０は、トークン分割部１２１、系列生成部１２２、及び同一性判定部１２３を備える。

トークン分割部１２１は、入力部１１０から受信したテキストデータを適当なトークン単位に分割し、入力トークン列を生成し、生成した入力トークン列を系列生成部１２２に出力する。トークン分割部１２１による分割では、所謂、形態素解析を用いた語への分割や、文字単位への分割や、統計的な手法を用いた分割が行われ、あるいは、サブワード分割と呼ばれる、一般的な語よりも詳細で文字よりも粗い単位への分割が行われてもよい。トークン分割部１２１は、上記の分割手法のうち、系列生成部１２２にとって好適な分割手法を選択することができる。

系列生成部１２２は、トークン分割部１２１において生成された入力トークン列から、出力トークン列を生成し、生成した出力トークン列を同一性判定部１２３に出力する。系列生成部１２２は、一般的にエンコーダ・デコーダと呼ばれるニューラルネットワークで構成することが好適であるが、トークン列を入力にトークン列を出力できる手段であれば他の手段を利用してもよい。

系列生成部１２２にエンコーダ・デコーダのニューラルネットワークを用いる場合は、リカレントニューラルネットワークやＴｒａｎｓｆｏｒｍｅｒを用いることが好適である。系列生成部１２２にこれらのニューラルネットワークを用いる際は、所謂、ビームサーチ等を利用する場合でも、出力トークンを１トークンずつ生成すると見なすことができる。

また、Ｔｒａｎｓｆｏｒｍｅｒを用いる場合には、系列生成部１２２は、入力トークン列を数値化し、数値化した各トークンにｏｎｅ－ｈｏｔベクトルを割り当て、エンコーダとなるＴｒａｎｓｆｏｒｍｅｒ（第１のＴｒａｎｓｆｏｒｍｅｒ）へと入力する。第１のＴｒａｎｓｆｏｒｍｅｒは、上記ｏｎｅ－ｈｏｔベクトルに対して注意機構を用いた演算を適用し、各トークンに対する隠れ表現を取得する。そしてデコーダとなるＴｒａｎｓｆｏｒｍｅｒ（第２のＴｒａｎｓｆｏｒｍｅｒ）は、第１のＴｒａｎｓｆｏｒｍｅｒから受け付けた隠れ表現と、デコーダ自身の隠れ表現とを用いて、注意機構を用いた演算を適用することにより、出力トークン列を取得する。

なお、本実施例において、ニューラルネットワークへの入力は、トークン列だけに限定されず、どのような情報を用いてもよい。その場合、例えば、品詞及び固有表現をトークン列と同時に入力する、等といった処理が考えられる。

また、エンコーダ・デコーダのニューラルネットワークに対して、エンコード時またはデコード時に追加情報を付与することもできる。このとき、例えば、出力中の系列（トークン列）のスタックにおける深さや親のノード等の情報を特徴ベクトルとして付与することが考えられる。

系列生成部１２２による出力トークン列の生成において、最初の出力トークンを生成する際は、一般的には、全入力トークンと開始を示す特殊トークンとを入力として生成を行う。また、出力トークン列の生成を終了する際は、終了を示す特殊トークンが生成されるか、ある所定数のトークン出力をもって終了とする。

また、系列生成部１２２は、各出力トークンの生成時には、全入力トークンとこれまでに生成した出力トークンとを入力とするが、当該出力トークンに代えて、出力トークンの隠れ表現や、隠れ表現から算出された種々の値や表現を用いるようにしてもよい。さらには、出力トークンから推定可能な情報を入力に含めることができる。例えば、出力トークンがノードを表すトークン（詳細は後述する）である場合、根ノードからの距離（すなわち、いくつの辺を通れば該ノードから根ノードに到達できるか）を入力に加えることができる。

同一性判定部１２３は、系列生成部１２２が生成した系列（出力トークン列）のうちから、意味表現グラフ上において同一のノードを表すトークンを判定し（同一性判定）、該当するトークンに同一性を示す情報を付与する。この同一性判定には、エンコーダ・デコーダのニューラルネットワークが生成する、所謂、隠れ表現などを利用することができる。より詳しくは、同一性判定部１２３がノードの同一性判定において隠れ表現を利用する場合、任意の２つのノードに対応するトークンの隠れ表現を入力とした識別器や、ノードに対応するトークンの隠れ表現間の関係を推定する注意機構などを利用することができる。直列化グラフ生成部１２０は、このような同一性判定部１２３を備えることにより、異なる構造の意味表現グラフであっても直列化グラフを生成する処理が可能となる。

以下、上述した直列化グラフ生成部１２０によって生成される直列化グラフ２２０について、具体例を挙げる。

図４は、意味表現グラフの一例を示す図である。図４に示した意味表現グラフ３１０は、「Ｉｔｄｉｄｎ’ｔｔａｋｅｌｏｎｇ．」という英文のテキストに対応する意味表現グラフである。また、図５は、直列化グラフの一例を示す図である。図５に示した直列化グラフ３２０は、図４に示した意味表現グラフ３１０に対応する直列化グラフの一例であり、入力データ２１０として上記の英文テキストが入力された場合に直列化グラフ生成部１２０が生成する直列化グラフ２２０の一例に相当する。

図５に示した直列化グラフ３２０は、意味表現グラフ３１０で「辺（エッジ）」がなす構造に対して等価の記述を与える。なお、図５では、見易さ向上のために、改行と空白（スペース）の挿入とを行って直列化グラフ３２０を表示しているが、実際の直列化グラフ３２０では改行は必ずしも必要ではなく、空白文字で区切られる各文字列を１つのトークンとして、系列（トークン列）をなす構造となっていればよい。

図５の直列化グラフ３２０において、スラッシュ記号「／」を含むトークンはノードを示すトークンであり、「ＡＲＧ０」、「ＡＲＧ１」は辺のラベルを示すトークンであり、「［ＥＯＤ］」は辺の構造を示す特殊トークンである。スラッシュ記号よりも前に記載されている数字がノードのＩＤ（ノードＩＤ）を表し、スラッシュ記号に続く文字列がノードのラベル（ノードラベル）を表す。

また、図５の直列化グラフ３２０において、行頭が字下げされた位置から表記されているノードを示すトークンは、意味表現グラフ３１０上では子ノードに相当する。例えば、図５において、１行目の「ｔａｋｅ－１０」に対して２行目の「ｉｔ」と３行目の「ｌｏｎｇ－０３」は、字下げの関係になっており、これらのノードについて図４の意味表現グラフ３１０を見ると、「ｉｔ」及び「ｌｏｎｇ－０３」が「ｔａｋｅ－１０」の子ノードであることが分かる。

ここで、ノード「ｉｔ」に着目すると、図４の意味表現グラフ３１０では１つのノードである一方、図５の直列化グラフ３２０では、２行目と４行目の２度に亘り「２／ｉｔ」が出現している。同一性判定部１２３は、これらの「ｉｔ」のように直列化グラフにおいて複数回出現する同一名称のノードの生成において、それらが同一のノードであれば同一のＩＤを付与する等の動作を行う。具体的には、図５の直列化グラフ３２０では、２行目の「ｉｔ」と４行目の「ｉｔ」には共にＩＤ「２」が付与されていることから、これらは同一のノードであることが明確にされる。

意味表現グラフ上のノードラベルは、グラフ中において唯一であることが必ずしも保証されていない。そのため、直列化グラフでは、同一のノードラベルであっても、唯一性を保証するために、上記のＩＤ情報等を付加する必要がある。

次に、直列化グラフ変換部１３０について説明する。

直列化グラフ変換部１３０は、直列化グラフ生成部１２０で生成された直列化グラフ２２０を、適切な形式に変換して、出力部１４０に送信する。

直列化グラフ生成部１２０は、ニューラルネットワーク等の機械学習方法などを用いて実現されるため、直列化グラフ生成部１２０によって生成された直列化グラフ２２０は、必ずしも、入力データ２１０に対して正しい直列化がなされた意味表現グラフを生成するものとは限らない。そこで、意味表現解析システム１００では、直列化グラフ変換部１３０が、直列化グラフ生成部１２０が生成した意味表現グラフを表すグラフトークン列（直列化グラフ２２０）に対して、極力、意味表現グラフの辺情報を構築するための変換処理を行う。以下の説明では、区別のために、直列化グラフ変換部１３０によって変換される前の直列化グラフ（すなわち、直列化グラフ生成部１２０が生成した直列化グラフ２２０）を第１の直列化グラフ、直列化グラフ変換部１３０によって変換された後の直列化グラフを第２の直列化グラフと称することがある。

具体的には、直列化グラフ変換部１３０は、第１の直列化グラフのトークン列（グラフトークン列）を先頭から処理することで、グラフトークン列が不正な入力であっても、処理可能な範囲で辺情報を構成することができる。

図６は、直列化グラフ変換部１３０の内部構成例を示すブロック図である。図６に示したように、直列化グラフ変換部１３０は、トークン処理部１３１、トークン保持部１３２、ノード・辺情報１３３、及びグラフ整形部１３４を備える。

直列化グラフ変換部１３０においては、まず、第１の直列化グラフ（直列化グラフ２２０）のグラフトークン列がトークン処理部１３１に入力され、トークン処理部１３１によって逐次的に適切な処理が行われることにより、トークン保持部１３２への操作あるいはノード・辺情報１３３への操作の何れかが実施される。

図７は、トークン処理部１３１による処理の概要を示すフローチャートである。図７によればまず、直列化グラフ２２０から直列化されたグラフトークン列がトークン処理部１３１に入力される（ステップＳ１０１）。次に、トークン処理部１３１は、ステップＳ１０１で入力されたトークン列から以降の処理対象とするトークンを１つ選択し（ステップＳ１０２）、選択したトークンに対して適用するアクションを決定する（ステップＳ１０３）。

なお、図７のフローチャートでは、ステップＳ１０１で入力されたグラフトークン列に含まれる複数のトークンに対して、１つのトークンに対する処理を逐次実行する方法を示すが、トークン処理部１３１による処理はこのような方法に限定されるものではなく、例えば、ステップＳ１０２をスキップし、ステップＳ１０３において、ステップＳ１０１で入力されたグラフトークン列のそれぞれのトークンに対して適用するアクションを決定した上で、各トークンに対する以降の処理を実行する等としてもよい。

ステップＳ１０３におけるアクションの決定について詳しく説明する。本実施例に係る意味表現解析システム１００では、トークンの種類ごとに対応するアクションが予め設定されている。そのため、ステップＳ１０３においてトークン処理部１３１は、処理対象のトークンの種類を同定する。

例えば図４に示した直列化グラフ３２０の場合、ノードに対応するトークン（例えば「１／ｔａｋｅ－１０」や「２／ｉｔ」）は、ノードＩＤとノードラベルとがスラッシュ記号で結ばれた記法で表される。このとき、辺ラベル（例えば「ＡＲＧ０」や「ＡＲＧ１」）にはスラッシュ記号が含まれないことが保証されているならば、トークン処理部１３１は、スラッシュ記号を含むトークンはノードに対応するトークンであると判別することができる。

したがって、直列化グラフのトークン記述形式は、トークンの種類を特定可能であればよい。そして、トークン処理部１３１は、直列化グラフのトークン記述形式に沿ったアクション判別方法を備え、ステップＳ１０３においては、このアクション判別方法に基づいてトークンの種類を判別することにより、トークンの種類に応じて定められたアクションを決定することができる。

次いで、トークン処理部１３１は、ステップＳ１０３で決定した適用するアクションの種類を確認し（ステップＳ１０４）、アクションの種類ごとに適当な処理を実行する（ステップＳ１０５～Ｓ１０７）。アクションの構成は様々に考えることができるが、一般性を失わずに大別すると、トークン処理部１３１は、トークン保持部１３２にトークンを追加する操作（ＡＤＤ，ステップＳ１０５）、トークン保持部１３２にあるトークンを削除する操作（ＤＥＬＥＴＥ，ステップＳ１０６）、トークン保持部１３２にあるトークンを選択する操作（ＳＥＬＥＣＴ,ステップＳ１０６）、または辺を作成する操作（ＡＲＣ，ステップＳ１０７）の何れかを実行する。これら４つのアクションのうち、ＡＤＤ（ステップＳ１０５）及びＤＥＬＥＴＥ／ＳＥＬＥＣＴ（ステップＳ１０６）はトークン保持部１３２への操作に相当する。また、ＡＲＣのアクションの場合は、ステップＳ１０７で辺を作成した後、作成した辺の情報をノード・辺情報１３３に出力する（ステップＳ１０８）ことから、ノード・辺情報１３３への操作に相当する。なお、ステップＳ１０８で出力される辺の情報には、辺の両端のノードの情報も含まれる。そして、ステップＳ１０８で出力された辺の情報はノード・辺情報１３３で保持される。

なお、図７の処理例においてトークンの種類に応じて適用するアクションの集合としては、ＡＤＤとＡＲＣは必須であるが、ＤＥＬＥＴＥ及びＳＥＬＥＣＴは少なくとも一方を具備していれば、任意の連結グラフを記述することができる。但し、既述の効率性等を考慮して、ＤＥＬＥＴＥとＳＥＬＥＣＴの両方を具備するようにしてもよい。

そして、ステップＳ１０５～Ｓ１０８においてアクション別の処理が行われた後、トークン処理部１３１は、所定の終了条件を満たしたか否かを判定し（ステップＳ１０９）、終了条件を満たしていない場合は（ステップＳ１０９のＮＯ）、ステップＳ１０２に戻り、次の処理対象のトークンを選択し、処理を繰り返す。一方、終了条件を満たした場合は（ステップＳ１０９のＹＥＳ）、トークン処理部１３１による処理を終了する。

図８は、実施例１における直列化グラフの変換手順を具体例で説明するための図である。図８は、図７に示した処理手順によって、図４に示した意味表現グラフ３１０に対応する直列化グラフを変換する場合の具体的な遷移を説明するものであり、変換の際に一時的にトークンを保持するトークン保持部１３２としてスタックを利用する。

図８において、直列化グラフ３３０は、トークン処理部１３１による変換前の直列化グラフ（すなわち第１の直列化グラフ）を表す。本例では、図４に示した意味表現グラフ３１０に対応する直列化グラフ３３０として、図５に示した直列化グラフ３２０と同様の直列化グラフを用いる。但し、直列化グラフ３３０では、便宜上、意味表現グラフ３１０においてノード「ｌｏｎｇ－０３」の属性値を示す「ｐｏｌａｒｉｔｙ」に関するトークンの記載（図５の直列化グラフ３２０でいえば４行目に相当し、テキスト「ｄｉｄｎ’ｔ」に対応する記載）は省略している。

また、図８において、処理トークン３３１は、トークン処理部１３１によって直列化グラフ３３０から選択される処理トークン（図７のステップＳ１０２参照）を表す。図８の場合、直列化グラフ３３０は１０個のトークンから構成されており、その先頭トークンから順に処理トークンに選択されて変換処理が行われる。アクション３３２は、処理トークン３３１に対応して実行されるアクションの具体的内容を表す。スタック状態３３３は、各段階におけるスタックの保持状態を表す。

前述したように、図８で用いる直列化グラフ３３０は、図４の意味表現グラフ３１０を直列化したものである。このとき、便宜的に図４の意味表現グラフ３１０に存在する辺を３つの組で列挙すると、［ｔａｋｅ－１０，ｉｔ，ＡＲＧ０］、［ｔａｋｅ－１０，ｌｏｎｇ－０３，ＡＲＧ１］、［ｌｏｎｇ－０３，ｉｔ，ＡＲＧ１］であり、以下では、トークン処理部１３１による変換処理が行われることにより、辺を表す上記３組が、過不足なく直列化グラフ３３０から生成できることを示す。図７でも説明したように、トークン処理部１３１による変換処理によれば、上記の３組の集合をノード・辺情報１３３に保持させることで、種々のグラフ記述形式に変換することができる。

図７及び図８を参照しながら具体的な変換手順を説明する。前述したように、本例ではトークン保持部１３２にスタックを用いており、その保持状態の遷移はスタック状態３３３に示される。

まず、１番目及び２番目に処理トークンとして選択される「１／ｔａｋｅ－１０」及び「２／ｉｔ」は、ノードを示すトークンであるため、ステップＳ１０３においてトークンを追加するアクション（ＡＤＤ）が選択される。この場合、トークン処理部１３１は、ステップＳ１０５において当該トークンをスタック（トークン保持部１３２）に追加する。スタックは、後入れ先出し（ＬＩＦＯ：Last In Fast Out）の構造でデータを保持するため、２番目のトークン処理後のスタック状態３３３は、上から順に「ｉｔ」、「ｔａｋｅ－１０」のトークンを保持している。

３番目に処理トークンとして選択される「ＡＲＧ０」は、辺を表すトークンであるため、辺を作成するアクション（ＡＲＣ）が選択される（ステップＳ１０３）。この場合、トークン処理部１３１は、スタックの上から１番目と２番目のトークンを用いて辺［ｔａｋｅ－１０，ｉｔ，ＡＲＧ０］を作成し（ステップＳ１０７）、作成した辺の情報をノード・辺情報１３３に出力する（ステップＳ１０８）。この際、辺の両端のノードの情報として、「ｔａｋｅ－１０」はノードＩＤ「１」のノード、「ｉｔ」はノードＩＤ「２」のノードとして、ノード・辺情報１３３に出力される。

４番目に処理トークンとして選択される［ＥＯＤ］トークンは、ＤＥＬＥＴＥを示す特殊トークンであるため、スタック（トークン保持部１３２）に保持されているトークンを１つ削除するアクション（ＤＥＬＥＴＥ）が選択される（ステップＳ１０３）。この場合、トークン処理部１３１は、スタックの上から１番目に保持されているトークン「２／ｉｔ」を削除する（ステップＳ１０６）。なお、スタックに保持されたデータを削除するアクションは、「ＤＥＬＥＴＥ」の代わりに「ＰＯＰ」と呼ばれることもある。

以降、トークン処理部１３１は、同様に処理トークンの種類に応じてアクションの実施を繰り返す。

簡単に説明すると、５番目及び６番目には、ノードを示す「３／ｌｏｎｇ－０３」及び「２／ｉｔ」が処理トークンとして選択されるため、トークンを追加するアクション（ＡＤＤ）が選択され、処理トークンがスタック（トークン保持部１３２）に追加される。そして７番目では「ＡＲＧ１」という辺を表すトークンが処理トークンとして選択されるため、スタックに保持されたデータを用いて新たな辺［ｌｏｎｇ－０３，ｉｔ，ＡＲＧ１］が作成され、ノード・辺情報１３３に出力される。なお、このとき、「２／ｉｔ」は以前作成したノードと同一のノードＩＤ「２」を持つため、ノードＩＤ「３」のノードとして「ｌｏｎｇ－０３」のみが、ノード・辺情報１３３に新たなノードとして追加される。

次いで８番目には、ＤＥＬＥＴＥを示す特殊トークンである［ＥＯＤ］が処理トークンとして選択されるため、スタックの上から１番目にある「２／ｉｔ」がスタックから削除される。この結果、トークン保持部１３２であるスタックには、上から「ｌｏｎｇ－０３」と「ｔａｋｅ－１０」とが保持されている。

次いで９番目には、「ＡＲＧ１」という辺を表すトークンが処理トークンとして選択されるため、スタックに保持されたデータを用いて新たな辺［ｔａｋｅ－１０，ｌｏｎｇ－０３，ＡＲＧ１］が作成され、ノード・辺情報１３３に出力される。なお、このとき、「ｔａｋｅ－１０」及び「ｌｏｎｇ－０３」は何れも以前作成したノードと同一のノードＩＤを持つことから、ノード・辺情報１３３に新たなノードとして追加されない。

そして最後の１０番目には、ＤＥＬＥＴＥを示す特殊トークンである［ＥＯＤ］が処理トークンとして選択されるため、スタックの上から１番目にある「ｌｏｎｇ－０３」がスタックから削除される。この結果、トークン保持部１３２であるスタックには、「ｔａｋｅ－１０」のみが保持されている。

図８の場合、直列化グラフ３３０からも分かるように、１０番目の［ＥＯＤ］に対する処理をもって全ての処理トークンへの処理が終了することから、トークン処理部１３１は終了条件を満たしたと判定し（ステップＳ１０９のＹＥＳ）、変換処理を終了する。

以上に説明した変換処理の結果をまとめると、［ｔａｋｅ－１０，ｉｔ，ＡＲＧ０］、［ｌｏｎｇ－０３，ｉｔ，ＡＲＧ１］、［ｔａｋｅ－１０，ｌｏｎｇ－０３，ＡＲＧ１］の３組の辺が作成され、ノード・辺情報１３３には、これら各組の辺情報とともに、辺の両端のノード情報としてノードＩＤ「１」の「ｔａｋｅ－１０」、ノードＩＤ「２」の「ｉｔ」、及びノードＩＤ［３］の「ｌｏｎｇ－０３」が保持される。すなわち、上記の変換処理によって、便宜的な図４の意味表現グラフ３１０に存在する３つの辺を示す情報が、過不足なく直列化グラフ３３０から生成できる。言い換えれば、上記の変換処理を実行することにより、入力データ２１０から直列化グラフ生成部１２０によって生成された直列化グラフ３３０（第１の直列化グラフ）を、意味表現グラフ３１０と等価な第２の直列化グラフに変換することができる。

さらに、直列化グラフ変換部１３０では、ノード・辺情報１３３がノード及び辺の情報を保持することにより、任意のグラフ記述形式に変換することができる。次いで、グラフ整形部１３４は、ノード・辺情報１３３に保持された情報を用いて、所望のグラフ記述形式の仕様に従って、グラフを整形する。この整形では、ユーザがグラフを視覚的に理解できるように、例えば、数式、画像、ドット等の形式で出力するようにしてもよい。そして、グラフ整形部１３４は、整形したグラフのデータを出力部１４０に出力する。

また、上述した直列化グラフ変換部１３０の説明は、直列化グラフ生成部１２０で生成された直列化グラフ２２０（第１の直列化グラフ）を、任意のグラフ記述形式に対応させるために変換するためのものであったが、意味表現解析システム１００において、直列化グラフ２２０そのものを出力するように構成する場合は、直列化グラフ変換部１３０において特段の処理を行わなくてもよい。

次に、出力部１４０及び出力グラフ２３０について説明する。

出力部１４０は、直列化グラフ変換部１３０から出力されたグラフのデータを、出力するインタフェースに適応するよう必要に応じて変形した上で、所定の出力装置から出力することにより、ユーザにグラフを提示する。ユーザにグラフを提示する手段は、例えばＣＵＩによるグラフの表示や、ＧＵＩによるグラフの可視化、あるいはファイル等にグラフを書き出す処理等が考えられる。具体的には、図４に示した意味表現グラフ３１０は、可視化されたグラフ表示の出力例であり、ＣＵＩやファイルにグラフを書き出す場合は、図５や図８に示した直列化グラフ３２０等のような形態で出力することができる。

以上に説明したように、本実施例に係る意味表現解析システム１００は、入力部１１０、直列化グラフ生成部１２０、直列化グラフ変換部１３０、及び出力部１４０を備えることにより、テキストによる入力データ２１０から意味表現グラフを解析することができる。

さらに、以下では、本実施例に係る意味表現解析システム１００において、入力データ２１０がグラフである場合に、入力グラフと等価な、入力グラフから変換された直列化グラフを生成する方法について説明する。

図９は、実施例１においてグラフの入力データから等価な直列化グラフを生成する処理の処理手順例を示すフローチャートである。図９に示した処理は、入力データ２１０としてグラフが入力された場合に、入力部１１０によって実行される。また、図９に示した処理による直列化グラフの生成は、直列化グラフ生成部１２０において機械学習を用いる場合に、その学習用の教師データとする直列化グラフを生成することにも利用可能である。機械学習の学習用に直列化グラフを生成する場合も、例えば入力部１１０が処理を行うとしてよいが、別途図９の処理を実行する機能部を備えるようにしてもよい。

図９によればまず、グラフを構成するノード及び辺の情報が入力部１１０に入力される（ステップＳ２０１）。

次に、入力部１１０は、ステップＳ２０１で入力されたノード及び辺の情報によって示される入力グラフを、木様構造に変換する（ステップＳ２０２）。木様構造は、意味表現グラフのなかの根ノードを除く全てのノードに対して、それらの祖先ノード（グラフの矢印の元をたどって到達できるノード）に必ず根ノードを含む構造であるとする。木様構造と一般的な木構造との違いは、木様構造の場合は親ノードが１つとは限らないという点である。ステップＳ２０２における木様構造への変換は、図９の以後の処理を容易にするために実施される処理であるが、必ずしも必須の処理としなくてもよい。

また、前述したように、変換した木様構造においては、根ノードは複数存在しても構わないが、複数の根ノードを子に持つ仮想的な根ノードを追加することで、１つの根ノードのみを有するグラフと同一視することができため、根ノードは１つとして扱うことができる。

また、ステップＳ２０２において変換する木様構造のグラフを、１つの根ノードを持つ無向グラフであるとするとき、連結グラフである有向グラフを木様構造に変換するためには、矢印の向きを適切に反転させる必要がある。この場合、矢印の向きが反転していることを辺のラベル情報に付与することで矢印の向きの問題は解消することができるため、入力部１１０は、入力データ２１０として有向グラフが入力された場合でも、一般性を失うことなく、上記の木様構造に変換することができる。すなわち、当該変換においては、入力グラフを木様構造をなす部分グラフに分解し、部分グラフ間を接続する辺を判定することで実現することができる。このとき、部分グラフの根ノードは、入力グラフの真の根ノードか、部分グラフの分割点となったノードである。

次に、入力部１１０は、木様構造のグラフを直列化グラフに変換するため、変換の起点となるノードを選択する（ステップＳ２０３）。このとき、最初は、根ノードを選択することが望ましい。

次に、入力部１１０は、ステップＳ２０３で選択したノードを端点として辺の矢印の方向をたどることによって到達できる辺集合を選択する（ステップＳ２０４）。ステップＳ２０４で選択する辺集合は、それ以上延伸できない辺集合であることが望ましい。なお、ここでいう「延伸できない辺集合」は、選択したノードを端点として選択できる辺集合のうち、最長の辺集合とは限らない。

次に、入力部１１０は、ステップＳ２０４で選択した辺集合を直列化して出力する（ステップＳ２０５）。ステップＳ２０５における直列化の方法は、直列化グラフの記述形式に準ずる。例えば、図５や図８に示した直列化グラフの記述形式の場合は、辺に対して、［矢印の元ノード、矢印の先ノード、辺のラベル］の順に適切なトークン記述形式で記述すればよい。図５や図８に示した直列化グラフの記述形式の例では、ノードを表すトークンである場合は、ノードのＩＤ及びラベルをスラッシュ記号で連結すればよく、辺ラベルはそのまま出力すればよい。但し、ノードのＩＤが明示的に付与されていないグラフについては、ノードを識別できるように自由にＩＤを割り付けることができる。

次に、入力部１１０は、木様構造のグラフに含まれる辺のうち、ステップＳ２０５までの処理で選択されていない辺が残っているか（辺情報が出力されていない辺が残っているか）否かを判定し（ステップＳ２０６）、選択されていない辺が残っていない場合（ステップＳ２０６のＮＯ）、入力部１１０はそのまま処理を終了する。

一方、選択されていない辺が残っている場合（ステップＳ２０６のＹＥＳ）、入力部１１０は、必要に応じて特殊トークンを追加（出力）する（ステップＳ２０７）。ステップＳ２０７で追加される特殊トークンは、例えば図４や図８で例示した直列化グラフの記述形式の場合は［ＥＯＤ］トークンである。

そしてステップＳ２０７の後は、ステップＳ２０３に戻り、入力部１１０は、次の起点となるノードを選択してステップＳ２０４以降の処理を繰り返す。この際、起点となるノードの表示方法（出力方法）としては、起点となるノードを直接出力（または再出力）する方法や、［ＥＯＤ］トークンの数だけ、直前の辺集合の終了点となるノードから辺を遡る方法などを採用することができる。後者の方法は、図４や図８の直列化グラフの記述形式に対応する方法であり、スタックからトークンを除去する操作と対応している。

以上のようにして、全ての辺情報が出力されるまで図９のステップＳ２０３～Ｓ２０７の処理を繰り返すことで、入力部１１０は、入力グラフ（例えば意味表現グラフ３１０）と等価な直列化グラフ（入力グラフから変換された直列化グラフ）を生成することができる。

なお、図９のステップＳ２０５で実施される直列化に際して、例えばノードに属性値（例えば、図４の「ｌｏｎｇ－０３」ノードにおける「ｐｏｌａｒｉｔｙ」値）が付与されている場合や、辺に属性値が付与されている場合には、入力部１１０は、それぞれノードや辺のラベルに一定の記法で追記することによって、属性値を含めて直列化することができる。

以上のように、実施例１に係る意味表現解析システム１００によれば、ノードや辺にラベル情報を含む、有向または無向グラフを直列化することができることから、種類の異なる種々の意味表現を汎用的（統一的）に精度よく解析し、直列化グラフにすることができる。

また、本実施例に係る意味表現解析システム１００は、所謂エンコーダ・デコーダのニューラルネットワークを用いて、トークン化されたテキストや直列化グラフを入力として精度良く直列化グラフを生成することができるため、従来知られた遷移による解析手法等と比較すると、意味表現グラフごとにアクションを設計することなく、種々の意味表現を統一的に解析することができる。

また、本実施例に係る意味表現解析システム１００によって生成される直列化グラフの形式はグラフ全体の情報を保持するため、例えば、エンコーダ・デコーダのニューラルネットワークにおいて、グラフ全体の構造に関する学習を行うことができ、ノード間の局所的な関係性だけではない、大域的な特性に基づいた意味表現グラフの解析が可能になる。

さらに、本実施例に係る意味表現解析システム１００では、直列化グラフを入力とすることで、ある意味表現グラフを別の意味表現グラフに変換することもできる。

また、本実施例に係る意味表現解析システム１００のように、直列化グラフ形式による出力は、２つの意味表現グラフ間の比較を行う際に、直列化されていることにより、例えば一般的な編集距離などを用いて、数値を用いて比較することができる。また、同様に直列化グラフ上での編集操作（挿入や削除等）としてグラフの差分を算出することができるため、差分を用いた処理を行うことができる。差分の用途としては、例えば２つのテキスト間の意味の違いを直列化グラフの差分とみなすことにより、差分の精査から含意性や反意性を判定することができる。

なお、本実施例に係る意味表現解析システム１００を利用する場合、ユーザは、意味表現グラフ上で適切に演算を加えることができる。典型的な例としては、文章題を意味表現解析システム１００への入力データとして、計算式を表すグラフに変換することで、実際に演算を実施して文章題の解を算出することができる。

実施例２では、実施例１とは異なる直列化グラフの形式に関して説明する。実施例２では、実施例１と同様に構成された意味表現解析システム１００を用いることができる。

図１０は、実施例２における直列化グラフの変換手順を具体例で説明するための図である。図１０に示した直列化グラフ３４０は、図４に示した意味表現グラフ３１０を直列化した直列化グラフの一例であるが、実施例１で例示した直列化グラフ３２０（図５）や直列化グラフ３３０（図８）とは異なる形式で記述されている。実施例２において、図１０に示した直列化グラフ３４０は、例えば入力部１１０が生成可能な直列化グラフの一例であり、その生成方法については図１１を参照しながら後述する。

以下では、図１０に示した直列化グラフ３４０に対する直列化グラフ変換部１３０（主にトークン処理部１３１）による変換処理を説明することで、実施例１とは異なる記述形式の直列化グラフ３４０であっても、実施例１の直列化グラフ３３０等と同様に、入力された意味表現グラフと等価な辺情報を構築できることを示す。図１０に示す直列化グラフの変換では、図８と同様に、トークン保持部１３２にスタックを用いている。

なお、図１０における処理トークン３４１、アクション３４２、及びスタック状態３４３は、それぞれ図８に示した処理トークン３３１、アクション３３２、及びスタック状態３３３と同様であり、説明を省略する。また、図１０の各段階の説明は、図８の説明と類似する点が多いため、簡略化して説明する。

図１０によればまず、１番目から３番目までに処理トークンとして選択される「１／ｔａｋｅ－１０」、「２／ｉｔ」、「３／ｌｏｎｇ－０３」はノードを示すトークンであるため、トークンを追加するアクション（ＡＤＤ）が選択され（図７のステップＳ１０３）、処理トークンがトークン保持部１３２であるスタックに追加される（同、ステップＳ１０５）。

次いで４番目に処理トークンとして選択される「１」は、以前の処理でノードＩＤ「１」として追加されたノードを示すため、トークンを選択するアクション（ＳＥＬＥＣＴ）が選択され（図７のステップＳ１０３）、処理トークンに対応するトークン「１／ｔａｋｅ－１０」が選択されて再びスタックに追加される（同、ステップＳ１０６）。

次に、５番目に辺を表すトークンである「ＡＲＧ０－ｏｆ」が処理トークンとして選択されると、トークン処理部１３１は、辺を作成するアクション（ＡＲＣ）を選択し（図７のステップＳ１０７）、トークン保持部１３２であるスタックの上から１番目と２番目のトークンを用いて辺を作成する。このとき、実施例１で説明した図８の変換方法に従えば、作成される辺は［ｉｔ（２番目），ｔａｋｅ－１０（１番目），ＡＲＧ０（辺）］となるが、選択された処理トークン「ＡＲＧ０－ｏｆ」に含まれる「－ｏｆ」は、辺の矢印が反転されていることを示すため、トークン処理部１３１は、辺の両端を構成するノードを入れ替えて、辺［ｔａｋｅ－１０，ｉｔ，ＡＲＧ０］を生成する。そしてトークン処理部１３１は、生成した辺の情報をノード・辺情報１３３に出力する（ステップＳ１０８）とともに、辺の両端のノードの情報として、「ｔａｋｅ－１０」をノードＩＤ「１」のノード、「ｉｔ」をノードＩＤ「２」のノードとして、ノード・辺情報１３３に出力する。

ここでさらに、実施例２における変換処理では、処理トークンが辺を表すトークンである場合には、前述したＡＲＣの後にＤＥＬＥＴＥのアクションも選択されるとする（ＡＲＣ＋ＤＥＬＥＴＥ）。そのため、トークン処理部１３１は、辺［ｔａｋｅ－１０，ｉｔ，ＡＲＧ０］を生成してその情報をノード・辺情報１３３に出力した後、スタックの上から１番目に保持されているトークン「１／ｔａｋｅ－１０」を削除する。

以降も、トークン処理部１３１は、同様に処理トークンの種類に応じてアクションの実施を繰り返す。

簡単に説明すると、６番目には、辺を表すトークンである「ＡＲＧ１」が処理トークンとして選択されるため、辺の作成及びトークンの削除（ＡＲＣ＋ＤＥＬＥＴＥ）のアクションが選択される。そこで、トークン処理部１３１は、まずＡＤＤのアクションを実施することにより、新たな辺［ｌｏｎｇ－０３，ｉｔ，ＡＲＧ１］を生成し、辺の情報をノード・辺情報１３３に出力する。このとき、新たなノード「ｌｏｎｇ－０３」についても、ノードＩＤ「３」のノードとして出力する。さらに、トークン処理部１３１は、ＤＥＬＥＴＥのアクションを実施することにより、スタックの上から１番目に保持されているトークン「２／ｉｔ」を削除する。

次いで７番目には、再び辺を表すトークンである「ＡＲＧ１」が処理トークンとして選択されるため、辺の作成及びトークンの削除（ＡＲＣ＋ＤＥＬＥＴＥ）のアクションが選択される。このとき、トークン処理部１３１は、ＡＤＤのアクションの実施によって新たな辺［ｔａｋｅ－１０，ｌｏｎｇ－０３，ＡＲＧ１］を生成し、ノード・辺情報１３３に出力する。さらに、トークン処理部１３１は、ＤＥＬＥＴＥのアクションを実施することにより、スタックの上から１番目に保持されているトークン「ｌｏｎｇ－０３」を削除する。

そして、７番目の「ＡＲＧ１」に対する処理をもって、直列化グラフ３４０の全てのトークンへの処理が終了することから、トークン処理部１３１は終了条件を満たしたと判定して、変換処理を終了する。

以上に説明した変換処理の結果をまとめると、［ｔａｋｅ－１０，ｉｔ，ＡＲＧ０］、［ｌｏｎｇ－０３，ｉｔ，ＡＲＧ１］、［ｔａｋｅ－１０，ｌｏｎｇ－０３，ＡＲＧ１］の３組の辺が作成され、ノード・辺情報１３３には、これら各組の辺情報とともに、辺の両端のノード情報としてノードＩＤ「１」の「ｔａｋｅ－１０」、ノードＩＤ「２」の「ｉｔ」、及びノードＩＤ［３］の「ｌｏｎｇ－０３」が保持される。すなわち、実施例１で説明した直列化グラフ３３０からの変換と同様に、意味表現解析システム１００は、図１０の直列化グラフ３４０からも、図４の意味表現グラフ３１０に存在する３つの辺を示す情報を、過不足なく生成することができる。すなわち、直列化グラフ３４０は、意味表現グラフ３１０と等価な直列化グラフであることが示される。

図１１は、実施例２においてグラフの入力データから等価な直列化グラフを生成する処理の処理手順例を示すフローチャートである。図１１を参照しながら、実施例２に係る意味表現解析システム１００が、入力データ２１０として図４に示した意味表現グラフ３１０が入力された場合に、図１０に示した直列化グラフ３４０を生成する方法について説明する。図１１に示した処理は、例えば入力部１１０によって実行される。また、図１１に示した処理は、図９に示した処理と概ね同様であるため、共通する処理については説明を省略し、相違点を中心に説明する。

まず、図１１に示した直列化グラフの生成方法では、図９のステップＳ２０２のように、入力グラフを木様構造に変換する必要がない。したがって、ステップＳ３０１で入力グラフを構成するノード及び辺の情報が入力された後は、ステップＳ３０２において入力部１１０は、図９のステップＳ２０３と同様に、入力グラフを直列化グラフに変換するために、変換の起点となるノードを選択すればよい。

次のステップＳ３０３において、入力部１１０は、ステップＳ３０２で選択したノードを起点として連続する辺集合（一筆書きできる経路）を選択するが、この際、図９のステップＳ２０４のように、辺の矢印の向きを考慮しなくてよい。すなわち、ステップＳ３０３において入力部１１０は、選択ノードを起点として一筆書きできる辺集合を選択する際、矢印の向きを反転する必要がある辺については、辺のラベルに「－ｏｆ」等の矢印の反転を意味する所定の識別子を付与すればよい。

次にステップＳ３０４において、入力部１１０は、ステップＳ３０３で選択した辺集合を直列化して出力する。このとき、入力部１１０は、起点となるノード（ステップＳ３０３の選択ノード）から、一筆書きの経路の順に、各ノードを示すトークンを生成し、同じ順に対応する辺を示すトークンを生成する。

そしてステップＳ３０５において、入力部１１０は、辺情報が出力されていない辺が残っているか否かを判定し、全ての辺の情報が出力されるまでステップＳ３０２～Ｓ３０４の処理を繰り返す。なお、図１０に示したように、実施例２における直列化グラフ３４０の記述形式では、連続する辺情報のブロックは、辺を示すトークンの後にノードを示すトークンが出現した場合に、新たな連続する辺情報のブロックであることが判別できるため、新たな辺情報の出力のためにステップＳ３０２に戻って新たなノードを選択する前に、図９のステップＳ２０７のように特殊トークン等を挿入する処理を実行する必要がない。

以上のようにして、全ての辺情報が出力されるまで図１１の処理を繰り返すことで、入力部１１０は、実施例１で説明した直列化グラフ３３０とは異なる記述形式で、入力グラフ（例えば意味表現グラフ３１０）と等価な直列化グラフ３４０を生成することができる。

上記のような実施例２に係る意味表現解析システム１００によれば、実施例１と同様に、ノードや辺にラベル情報を含む、有向または無向グラフを直列化することができることから、種類の異なる種々の意味表現を汎用的（統一的）に精度よく解析し、直列化グラフにすることができる。

さらに、実施例２を実施例１と比較した場合、実施例２で生成できる直列化グラフ３４０の記述形式は、実施例１で生成できる直列化グラフ３３０の形式より少ないトークン数で記述することができる。このような特徴を有する記述形式で直列化グラフを生成可能なことは、エンコーダ・デコーダのニューラルネットワークで直列化グラフを生成する際に有利に働く場合がある。

但し、実施例１における直列化グラフの形式は、多くの意味表現グラフが木構造に類似する構造（木様構造）を有することに着目して、当該構造に準拠した記述を行ったものであり、意味表現グラフの形状における意味的ないしは形式的な制約によっては、実施例１で生成できる直列化グラフ３３０の形式の方が有利に働く場合もある。

何れにしても、ユーザは、本発明に係る意味表現解析システム１００を利用することによって、実施例１における直列化グラフの形式や、実施例２における直列化グラフの形式、あるいは同様に別の直列化グラフの形式を選択することが可能であり、具体的には、エンコーダ・デコーダのニューラルネットワークにとってより精度が高い記述形式等を選択することが可能となる。

また、実施例１及び実施例２において、意味表現解析システム１００が生成する直列化グラフ形式は、辺情報を基礎としているため、互いを変換可能である。したがって、直列化グラフ生成部１２０において直列化グラフを生成する際に、エンコーダ・デコーダのニューラルネットワークが特定の記述形式で直列化グラフを出力したとしても、直列化グラフ変換部１３０において適宜、所望の形式に直列化グラフを変換することができる。

なお、上述した各実施例は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての要素および構成を備えるものに限定されない。したがって、本発明は上述した各実施例に限定されるものではないし、合理的な範囲で様々な変形例を含んでよい。例えば、矛盾しない限りにおいて、ある実施例の要素や構成の一部を他の実施例の構成で置き換え、ある実施例の要素や構成に他の実施例の要素や構成を加えてもよい。また、各実施例の要素や構成の一部について、要素や構成の追加、削除、置換、統合、または分散を実行してもよい。また、実施例で示した要素、構成および処理は、処理効率または実装効率に基づいて適宜分散、統合、または入れ替えてもよい。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、図面において制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

１０コンピュータ装置
１１プロセッサ
１２記憶デバイス
１３入力デバイス
１４出力デバイス
１５通信インタフェース
１６バス
１００意味表現解析システム
１１０入力部
１２０直列化グラフ生成部
１２１トークン分割部
１２２系列生成部
１２３同一性判定部
１３０直列化グラフ変換部
１３１トークン処理部
１３２トークン保持部
１３３ノード・辺情報
１３４グラフ整形部
１４０出力部
２１０入力データ
２２０直列化グラフ
２３０出力グラフ
３１０意味表現グラフ
３２０，３３０，３４０直列化グラフ

Claims

入力データの意味表現を解析する意味表現解析システムであって、
テキストまたはグラフによる前記入力データを受け付ける入力部と、
前記入力データに対応するグラフ構造を表すトークン列を生成する直列化グラフ生成部と、を備え、
前記トークン列は、前記入力データに対応するグラフ構造におけるノードを示す第１トークンと、前記ノード間の関係を表す辺を示す第２トークンと、を少なくとも含んで構成される
ことを特徴とする意味表現解析システム。
前記直列化グラフ生成部によって生成される前記トークン列は、前記入力データの意味表現を等価に記述する
ことを特徴とする請求項１に記載の意味表現解析システム。
前記直列化グラフ生成部は、前記グラフ構造を表すトークン列に含まれる前記第１トークンについて、グラフ上におけるノードの同一性を判定し、該当する複数の前記第１トークンに同一性を示す情報を付与する同一性判定部を有する
ことを特徴とする請求項１に記載の意味表現解析システム。
前記入力データがテキストである場合、前記入力部は、前記入力データにおける前記テキストを、前記直列化グラフ生成部における前記トークン列の生成が可能な所定の文字コードに変換し、当該変換後の前記入力データを前記直列化グラフ生成部に入力する
ことを特徴とする請求項１に記載の意味表現解析システム。
前記入力データがグラフである場合、前記入力部は、前記入力データを当該グラフと等価な、前記直列化グラフ生成部で生成される前記トークン列と同一の記述形式で記述されたトークン列に変換し、当該変換後の前記入力データを前記直列化グラフ生成部に入力する
ことを特徴とする請求項１に記載の意味表現解析システム。
前記直列化グラフ生成部によって生成された、前記入力データに対応するグラフ構造を表す第１のトークン列に対して、当該グラフ構造における前記辺の情報を構築するための変換処理を行って第２のトークン列に変換する直列化グラフ変換部をさらに備え、
前記直列化グラフ変換部は、前記変換処理において、前記第１のトークン列を構成する各トークンに対して、当該トークンの種類に応じたアクションを実行する
ことを特徴とする請求項１に記載の意味表現解析システム。
前記直列化グラフ変換部は、前記変換処理において、前記入力データの意味表現を等価に記述することは維持しながら、前記第１のトークン列と前記第２のトークン列とで記述形式を変換可能とする
ことを特徴とする請求項６に記載の意味表現解析システム。
前記第１のトークン列及び前記第２のトークン列は、前記入力データに対応するグラフ構造に準拠して記述する第１の記述形式、または当該トークン列を構成するトークンの数を抑制するように記述する第２の記述形式の何れかで記述される
ことを特徴とする請求項６に記載の意味表現解析システム。
入力データの意味表現を解析する意味表現解析システムによる意味表現解析方法であって、
テキストまたはグラフによる前記入力データを受け付ける入力ステップと、
前記入力ステップで受け付けた前記入力データに基づいて、当該入力データに対応するグラフ構造を表すトークン列を生成する直列化グラフ生成ステップと、を備え、
前記トークン列は、前記入力データに対応するグラフ構造におけるノードを示す第１トークンと、前記ノード間の関係を表す辺を示す第２トークンと、を少なくとも含んで構成される
ことを特徴とする意味表現解析方法。