JP2023152343A

JP2023152343A - 生成装置、生成方法、および生成プログラム

Info

Publication number: JP2023152343A
Application number: JP2022062272A
Authority: JP
Inventors: 篤季山口; Atsuki Yamaguchi; 美沙佐藤; Misa Sato; 泰弘十河; Yasuhiro Sogawa
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2022-04-04
Filing date: 2022-04-04
Publication date: 2023-10-17

Abstract

【課題】抽象化されたグラフパターンを高精度に自動生成し、類似文の抽出精度できるグラフパターンの抽出性能を高める生成装置、生成方法及び生成プログラムを提供する。
【解決手段】生成装置１００は、文内の語句とその品詞に関する情報とを含む属性情報をノードとし、そのノード間の依存関係を示すグラフ構造データを取得する取得部と、取得部が取得したグラフ構造データを、ノード内の属性情報に基づいて抽象化する抽象化部１１３と、を有する。
【選択図】図１

Description

本発明は、データを生成する生成装置、生成方法、および生成プログラムに関する。

ある文中の単語間の関係を示すグラフ構造データについて、その属性を抽象化したグラフパターンを作成し、パターンマッチングを行うことで、効率的に類似文の抽出が可能である。類似文の抽出技術は、文書検索およびテキストマイニングの観点から重要である。グラフパターン生成技術の背景技術として、下記特許文献１がある。

下記特許文献１には、「テキストマイニング装置では、同義表現識別手段が、テキストマイニングの対象となる文の依存構造木（対象文依存構造木）の中に同義表現辞書に登録されている表現の依存構造木（同義表現依存構造木）と一致する部分木（一致部分木）が含まれているかどうかを識別する」と記載されており、同義表現辞書が同義表現識別手段に活用されている。また、下記特許文献１において、「節点置換手段は、一致部分木を同義表現が属するグループを示す特別な節点（同義表現節点）で置き換え、特徴部分木抽出手段は、置き換え後の対象文依存構造木から特徴部分木を抽出する」と記載されており、同義表現辞書の情報が節点置換手段に活用されている。

また、下記特許文献２には、「文書ダイジェスト作成方法において、前記文書グラフから前記コンテクストに応じた部分グラフを抽出する場合に、前記情報処理装置は、前記コンテクストのそれぞれの単語と、前記文書グラフ上のそれぞれの単語との関連の強さを表す間接関連度を計算し、前記コンテクストのそれぞれの単語毎に、該単語と前記文書グラフ上の全ての単語との間接関連度を並べた間接関連度ベクトルを作成し、前記コンテクストの単語の重要度と前記間接関連度ベクトルとから、前記コンテクストと関連の強い単語からなる関連単語集合を求め、前記文書グラフから、前記関連単語集合に含まれる単語を持つノードだけを抽出することによって、前記部分グラフを作成することを特徴とする。」と記載されている。

特開２００７―０４１７６７号公報特開２００１―２４９９３５号公報

グラフパターンは、例文に対応するグラフ構造データを抽象化することで作成される。グラフパターンの作成には、抽象化過程においてグラフ構造データの重要箇所を事前に明示的に特定し、または抽象化過程中に推定し、各ノードの抽象化度合いに重要箇所情報を反映することが重要である。

特許文献１および特許文献２に記載のグラフ構造データの抽象化技術では、アルゴリズム内で非明示的に重要箇所の特定が行われ、利用者からの入力として明示的に重要箇所を受け付けるケースが想定されていない。このため、利用者はグラフパターンの抽象化過程を明示的に制御することはできない。したがって、利用者が重要と考える類似文であっても、アルゴリズム内で重要とはみなされず、抽出されない可能性がある。

本発明は、抽象化されたグラフパターンを高精度に自動生成することを目的とする。

本願において開示される発明の一側面となる生成装置は、文内の語句とその品詞に関する情報とを含む属性情報をノードとし前記ノード間の依存関係を示すグラフ構造データを取得する取得部と、前記取得部によって取得されたグラフ構造データを、前記ノード内の属性情報に基づいて抽象化する抽象化部と、を有することを特徴とする。

本発明の代表的な実施の形態によれば、抽象化されたグラフパターンを高精度に自動生成することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、実施例１にかかる生成装置の構成例を示すブロック図である。図２は、重要箇所情報の一例を示す説明図である。図３は、グラフ構造データの一例を示す説明図である。図４は、抽象化部による抽象化処理の詳細な処理手順例を示すフローチャートである。図５は、属性情報の省略判定処理（ステップＳ４０１）の一例を示す説明図である。図６は、属性分岐条件情報の一例を示す説明図である。図７は、属性省略情報の一例を示す説明図である。図８は、属性なしノード置換処理（ステップＳ４０２）の例１を示す説明図である。図９は、属性なしノード置換処理（ステップＳ４０２）の例２を示す説明図である。図１０は、量化子ノードの第１追加方法の一例を示す説明図である。図１１は、量化子ノード挿入条件一覧の一例を示す説明図である。図１２は、除外条件設定処理（ステップＳ４０４）の一例を示す説明図である。図１３は、実施例１のグラフパターン１３１の確認画面の一例を示す説明図である。図１４は、実施例２にかかる生成装置の構成例を示すブロック図である。図１５は、実施例３にかかる生成装置の構成例を示すブロック図である。図１６は、レンマ辞書の一例を示す説明図である。図１７は、実施例３にかかる抽象化部による抽象化処理の詳細な処理手順例を示すフローチャートである。図１８は、実施例４にかかる重要箇所情報の一例を示す説明図である。図１９は、英語のテキストがグラフ構造変換部に入力された場合の英語のグラフ構造データの画面出力例を示す説明図である。図２０は、実施例４にかかる属性分岐条件情報の一例を示す説明図である。図２１は、実施例４にかかる属性省略情報の一例を示す説明図である。図２２は、実施例４にかかるレンマ辞書の一例を示す説明図である。図２３は、実施例４にかかるグラフパターンの一例を示す説明図である。図２４は、実施例１～実施例４に示した生成装置のハードウェア構成例を示すブロック図である。

以下、実施例を添付図面を用いて説明する。以下において、各実施例および各変形例は、本発明の趣旨を逸脱しない範囲で一部または全部を組み合わせることができるものとする。以下の説明において、生成装置は、テキスト、およびテキストに含まれる重要な語句を示したデータを入力とし、抽象化装置により抽象化を実施したグラフ構造データであるグラフパターンを利用者に提示するコンピュータである。

図１は、実施例１にかかる生成装置の構成例を示すブロック図である。生成装置１００は、テキスト１０１と、テキスト１０１の重要箇所情報１０２と、属性分岐条件情報１２１と、属性省略情報１２２と、量化子ノード挿入条件一覧１２３と、を入力し、テキスト１０１の抽象化済みグラフパターン１３１を生成する。生成装置１００はどのような言語でも扱えるが、実施例１では、日本語のテキスト１０１を入力として扱う例について説明する。

テキスト１０１は、グラフパターン１３１の生成元となるデータであり、類似文抽出対象文字列となる。テキスト１０１は、例として、「このコマンドは、Ｄａｔａｂａｓｅインスタンスの停止から呼び出されるサブコマンドです。」とする。

また、重要箇所情報１０２は、類似文抽出を行う際に、どの箇所が類似性を判定する上で重要かを示したデータである。なお、テキスト１０１および重要箇所情報１０２に含まれる表現は、必ずしも一つの文を対象としていなくてもよく、一以上の文を対象としていてもよい。以下、実施例１では、便宜上、重要箇所情報１０２は、テキスト１０１から抽出された語句で構成されている例を説明する。

図２は、重要箇所情報１０２の一例を示す説明図である。重要箇所情報１０２は、着目箇所ＩＤ２０１と、語句２０２と、を含む。着目箇所ＩＤ２０１は、着目箇所ＩＤ２０１は、類似文抽出対象文字列（本例では、テキスト１０１）の着目箇所を一意に特定する識別情報である。たとえば、「ａ０」は述語、「ａ１」は主語、「ａ２」は目的語を示す。

語句２０２は、着目箇所ＩＤ２０１が示す着目箇所別に類似文抽出対象文字列を分類した語または句である。たとえば、「ａ０」は述語であるため、「呼び出される。」、「ａ１」は主語であるため「このコマンドは」、「ａ２」は目的語であるため「Ｄａｔａｂａｓｅインスタンスの停止から」を示す。

なお、実施例１において、生成装置１００が使用する入力データは、データ構造に依存せずどのようなデータ構造で表現されていてもよい。たとえば、リスト、データベース、キュー、スタック、あるいはテーブルといったデータ構造によって、情報を格納できる。なお、図２では、重要箇所情報１０２がテーブルデータで保持されている例を示している。

図１に戻り、生成装置１００は、グラフ構造変換部１１１と、付加部１１２と、抽象化部１１３と、を有する。グラフ構造変換部１１１は、テキスト１０１を既知のアルゴリズムによって解析し、テキスト１０１を、テキスト１０１内の関係を示すグラフ構造データに変換する。たとえば、グラフ構造変換部１１１は、ＣａｂｏＣｈａといった日本語係り受け解析器を用いた変換手法や、ＵｎｉｖｅｒｓａｌＤｅｐｅｎｄｅｎｃｉｅｓに基づいたＧｉＮＺＡ日本語解析器を用いた変換手法により、テキスト１０１をグラフ構造データに変換する。

以下、実施例１では、グラフ構造変換部１１１は、既知の日本語解析器を活用する。変化されたグラフ構造データの各ノードは、日本語解析器の解析結果から得られた、テキスト１０１の語句（語幹や語尾も含む）およびその品詞属性情報から構成される。

品詞属性情報は、品詞の属性を示す情報であり、具体的には、たとえば、レンマの品詞、助詞の品詞、時制である。品詞属性情報を考慮することで、語や句のみによらない細やかな抽象化が実施でき、単に語や句のみでグラフパターンを構成するよりも、類似文抽出ノイズが低減し、抽出性能が向上する。

グラフ構造データは、上記入力データと同様に、データ構造に依存せずどのようなデータ構造で表現されていてもよいが、実施例１では便宜上、リスト形式で保持されているものとする。

図３は、グラフ構造データの一例を示す説明図である。グラフ構造データ３００は、グラフ構造変換部１１１が、テキスト１０１の変換結果である。グラフ構造データ３００では、始め括弧「（」から終わり括弧「）」までの文字列（語句および品詞属性情報）により一つのノードが表現され、インデントによりノード間の依存関係が示されるが、表現方法は括弧やインデントに限定されない。なお、ノード間の文字列（語句および品詞属性情報）を当該ノードの属性情報と称す。

また、グラフ構造データ３００において品詞属性情報の「．ｌｅｍｍａ」は、レンマ（見出し語）を示す。レンマは名詞、動詞、形容詞、形容動詞、連体詞などの内容語のほか、助動詞、接続詞、冠詞などの機能語を含んでもよい。

「．ＰＯＳ」（ＰａｒｔＯｆＳｐｅｅｃｈ）はレンマの品詞情報を示す。「．ＰＯＳ２」はＰＯＳの詳細な分類である第二品詞属性情報を示す。「．ｃａｓｅＰＯＳ」は助詞を示す。「．ｃａｓｅＰＯＳ２」は助詞の詳細な分類である第二助詞属性情報を示す。「．ｓｕｆ」は助動詞、助詞の一部、補助動詞、補助形容動詞など、おもに語尾の活用や否定形、疑問形を見分けるために用いられる。また、「＆」は品詞属性情報のＡＮＤ条件を示すが、記号は「＆」に限定されない。なお、実施例１において扱う品詞属性情報は上記にとどまるが、必ずしも上記だけの品詞属性情報に限らず、グラフ構造データ変換手法の出力に応じて、属性の追加や削除が考えられる。

図３以降において、ノードの符号をｎ＃（＃は１桁以上の番号）で表記する。また、グラフ構造データ３００においてはノード間の依存関係があるため、ノード群が階層化される。具体的には、たとえば、グラフ構造データ３００は、ノードｎ０、ｎ０１、ｎ０１１、ｎ０２、ｎ０２１、ｎ０２１１（これらを区別しない場合は単にノードｎと表記）が階層的に構成される。図３以降において、依存関係がある２つのノードｎ間において、親ノードｎの符号は子ノードの符号に含まれるように表現されている。たとえば、ノードｎ０１の親ノードはノードｎ０であり、ノードｎ０１１の親ノードはノードｎ０１である。

なお、グラフ構造変換部１１１は、テキスト１０１をグラフ構造データ３００に変換したが、すでに変換済みのグラフ構造データ３００を取得する取得部として機能してもよい。

図１に戻り、付加部１１２は、グラフ構造変換部１１１から得られたテキスト１０１のグラフ構造データ３００に対し、パターンマッチングにより該当するノードに重要箇所情報１０２を付与する。この際、重要箇所情報１０２の各要素が複数ノードに渡る可能性があるが、その場合は、付加部１１２は、依存関係がより上位に相当するノードに重要箇所情報１０２を付与することとする。なお、依存関係が存在しないグラフ構造データ３００の場合、付加部１１２は、該当する複数ノードに重要箇所情報１０２を付与すればよい。以下、実施例１では便宜上、ノード間に依存関係が存在することを許容するグラフ構造データを想定する。

付加部１１２により、グラフ構造データ３００の該当のノードに重要箇所情報１０２として着目箇所ＩＤ２０１（「＃ａ１」、「＃ａ２」、「＃ａ３」）が付与されて、図３に示したグラフ構造データ３００ａとなる。なお、「＃」は、実施例１における便宜上の表現であり、表現方法はこれらに限定されない。

重要箇所情報１０２が付与されたノードｎの符号の末尾には、「ａ」が付される。たとえば、グラフ構造データ３００ａにおいて、ノードｎ０、ｎ０１１、ｎ０２１１には末尾に「ａ」が付されていないため、ノードｎ０、ｎ０１１、ｎ０２１１には重要箇所情報１０２が付与されていない。一方、ノードｎ０１ａ、ｎ０２ａ、ｎ０２１ａには末尾に「ａ」が付されているため、ノードｎ０１ａ、ｎ０２ａ、ｎ０２１ａには重要箇所情報１０２が付与されている。

抽象化部１１３は、付加部１１２から得られたテキスト１０１のグラフ構造データ３００ａに対し、重要と考えられる箇所を維持しつつ、重要とはみなされない箇所について抽象化を行い、グラフパターン１３１を出力する。抽象化とは、たとえば、あるノードに付与された品詞属性情報の一部を削除したり、抽象化の過程であるノードに付与された品詞属性情報がすべて削除された場合に、該当ノードを削除する操作を適用したり、量化子ノードを挿入したり、あるノードに指定した品詞属性情報が入ることを許容しない除外条件を設定する操作が含まれる。量化子ノードとは、あるノード間に任意のサブグラフが挿入されることを許容するノードである。

図４は、抽象化部１１３による抽象化処理の詳細な処理手順例を示すフローチャートである。まず、抽象化部１１３は、付加部１１２を介してテキスト１０１のグラフ構造データ３００ａを受け付け、グラフ構造データ３００ａ内の各ノードに付与された属性情報の省略判定処理を実行する（ステップＳ４０１）。

図５は、属性情報の省略判定処理（ステップＳ４０１）の一例を示す説明図である。グラフ構造データ３００ａｄは、重要箇所情報１０２が付与されたグラフ構造データ３００ａを抽象化したグラフ構造データである。グラフ構造データ３００ａｄは、グラフ構造データ３００ａについて属性情報の省略判定処理（ステップＳ４０１）が実行されたグラフ構造データである。グラフ構造データ３００ａｄにおいて、「（＿）」はノードｎ（たとえば、ノードｎ０１１ｄ、ｎ０２１１ｄ）内の語句および品詞属性情報がすべて削除されたことを意味する。なお、「＿」は、実施例１における便宜上の表現であり、表現方法はこれらに限定されない。

属性情報の省略判定処理（ステップＳ４０１）では、抽象化部１１３は、グラフ構造データ３００ａについて、各ノードに付与されている属性の削除を二値識別し、削除が必要な属性情報を除去する。二値識別する手法としては、たとえば、既定のルールに基づいて属性の削除を判断する手法と、機械学習モデルによりノードの周辺情報から確率的に属性の削除を判断する手法が考えられる。機械学習モデルを属性の削除を判断する手段として用いる場合は、実施例２で後述する。

既定のルールに基づく属性省略判定では、抽象化部１１３は、属性分岐条件情報１２１および属性省略情報１２２を参照して、各ノードに付与されている属性についてＩｆ－ｅｌｓｅ文を用いた複数条件分岐により、ノード属性情報の省略判定を実行する。属性分岐条件情報１２１および属性省略情報１２２は、それぞれ図６と図７に示すような表形式で予めデータとして保持することが考えられるが、データ形式は表形式に限定せず、どのようなデータ形式で表現されていてもよい。

図６は、属性分岐条件情報１２１の一例を示す説明図である。属性分岐条件情報１２１は、フィールドとして、ルールＩＤ６０１と、重要箇所付与フラグ６０２と、品詞属性情報６０３と、を有する。同一行の各フィールドの値の組み合わせが１つのルールである属性分岐条件を規定する。ルールＩＤ６０１は、既定のルールである属性分岐条件を一意に特定する識別情報である。重要箇所付与フラグ６０２は、ルールＩＤ６０１で特定される属性分岐条件（具体的には、品詞属性情報６０３）によって、重要箇所情報１０２が付与されているか否かを示す情報であり、「Ｔｒｕｅ」が重要箇所情報１０２が付与されていることを示し、「Ｆａｌｓｅ」が重要箇所情報１０２が付与されていないことを示す。

たとえば、ルールＩＤ６０１が「１」のエントリ（以下、属性分岐条件１）およびルールＩＤ６０１が「１」のエントリ（以下、属性分岐条件２）には、「Ｔｒｕｅ」と規定されている。一方、ルールＩＤ６０１が「３」のエントリ（以下、属性分岐条件３）には、「Ｆａｌｓｅ」と規定されている。

品詞属性情報６０３は、レンマ（ｌｅｍｍａ）６３１と、助詞（ｃａｓｅ）６３２と、レンマ６３１の品詞情報（ＰＯＳ）６３３と、第２品詞属性情報（ＰＯＳ）６３４と、助詞の助詞属性情報（ｃａｓｅＰＯＳ）６３５と、第２助詞属性情報（ｃａｓｅＰＯＳ２）６３６と、を有する。たとえば、属性分岐条件１には、レンマ６３１の品詞情報（ＰＯＳ）６３３の値が「名詞」、第２助詞属性情報（ｃａｓｅＰＯＳ２）６３６の値が「接続助詞」と規定されている。

したがって、グラフ構造データ３０２において、重要箇所情報１０２が付加されており、レンマ６３１の品詞情報（ＰＯＳ）６３３が「名詞」でかつ第２助詞属性情報（ｃａｓｅＰＯＳ２）６３６が「接続助詞」であるノードが、属性分岐条件１に該当することになる。

たとえば、グラフ構造データ３００ａにおいて、ノードｎ０１ａは、重要箇所情報１０２として着目箇所ＩＤ２０１の「＃ａ１」が付加されているが、品詞情報（ＰＯＳ）６３３が「名詞」でかつ第２助詞属性情報（ｃａｓｅＰＯＳ２）６３６が「係助詞」である。したがって、ノードｎ０１ａは、属性分岐条件１に該当しない。ノードｎ０２ａ，ノードｎ０２１ａについても同様である。

一方、属性分岐条件２については、重要箇所付与フラグ６０２の値が「Ｔｒｕｅ」であり、レンマ６３１の品詞情報（ＰＯＳ）６３３が「名詞」、第２品詞属性情報（ＰＯＳ）６３４が「一般」と規定されている。ノードｎ０１ａは、重要箇所情報１０２として着目箇所ＩＤ２０１の「＃ａ１」が付加されており、品詞情報（ＰＯＳ）６３３が「名詞」でかつ第２品詞属性情報（ＰＯＳ）６３４が「一般」である。したがって、ノードｎ０１ａは、属性分岐条件２に該当する。ノードｎ０２ａ，ノードｎ０２１ａについては、属性分岐条件２に該当しない。

また、属性分岐条件３については、重要箇所付与フラグ６０２の値が「Ｆａｌｓｅ」であり、レンマ（ｌｅｍｍａ）６３１が「この」、品詞属性情報（ＰＯＳ）６３３が「連体詞」と規定されている。ノードｎ０１ａの子ノード５１１は、重要箇所情報１０２が付加されておらず、レンマ（ｌｅｍｍａ）６３１が「この」でかつ品詞属性情報（ＰＯＳ）６３３が「連体詞」である。したがって、子ノード５１１は、属性分岐条件３に該当する。

図７は、属性省略情報１２２の一例を示す説明図である。属性省略情報１２２は、フィールドとして、ルールＩＤ６０１と、品詞属性情報７０３と、を有する。同一行の各フィールドの値の組み合わせが図６の属性分岐条件における属性省略を規定する。すなわち、属性分岐条件＃（＃はルールＩＤ６０１の値）を充足するノードがグラフ構造データ３００ａに存在する場合に、当該ノードに属性省略＃が適用される。

品詞属性情報７０３は、品詞属性情報６０３と同様に、省略対象属性として、レンマ（ｌｅｍｍａ）７３１と、助詞（ｃａｓｅ）７３２と、レンマ７３１の品詞情報（ＰＯＳ）７３３と、第２品詞属性情報（ＰＯＳ２）７３４と、助詞の助詞属性情報（ｃａｓｅＰＯＳ）７３５と、第２助詞属性情報（ｃａｓｅＰＯＳ２）７３６と、を有する。品詞属性情報７０３は、値として、「Ｈｏｌｄ」または「Ｄｅｌｅｔｅ」を保持する。「Ｈｏｌｄ」は、省略対象属性を維持することを示し、「Ｄｅｌｅｔｅ」が省略対象属性を省略することを示す。

たとえば、図５において、属性分岐条件１を充足するノードはグラフ構造データ３００ａに存在しないため、属性省略１が適用されるノードはグラフ構造データ３００ａに存在しない。

一方、ノードｎ０１ａは、図６のルールＩＤ６０１が「２」のエントリである属性分岐条件２を充足する。したがって、ノードｎ０１ａには、図７のルールＩＤ６０１が「２」である属性省略２が適用される。属性省略２では、レンマ（ｌｅｍｍａ）７３１および第２品詞属性情報（ＰＯＳ２）７３４が「Ｄｅｌｅｔｅ」である。したがって、ノードｎ０１ａから「．ｌｅｍｍａ＝コマンド＆」と「．ＰＯＳ２＝一般＆」が削除されて、ノードｎ０１ａｄとなる。

また、ノードｎ０１１は、図６のルールＩＤ６０１が「３」のエントリである属性分岐条件３を充足する。したがって、ノードｎ０１１には、図７のルールＩＤ６０１が「３」である属性省略３が適用される。属性省略３では、レンマ（ｌｅｍｍａ）７３１および品詞属性情報（ＰＯＳ）７３３が「Ｄｅｌｅｔｅ」である。したがって、ノードｎ０１１から「．ｌｅｍｍａ＝この＆」と「．ＰＯＳ＝連体詞」が削除されて、ノードｎ０１１ｄとなる。

このように、語句および品詞属性情報が削除されたノードｎ＃には、末尾にｄが付与され、ノードｎ＃ｄとする。

品詞属性情報７０３は、レンマ７３１と、助詞７３２と、レンマ７３１の品詞情報７３３と、第２品詞属性情報７３４と、助詞７３５と、第２助詞属性情報７３６と、を有する。たとえば、ルールＩＤ７０１が「１」のエントリ（以下、属性省略条件１）には、レンマ７３１の値が「Ｄｅｌｅｔｅ」、助詞７３２の値が「Ｄｅｌｅｔｅ」、レンマ７３１の品詞情報６３３の値が「Ｈｏｌｄ」、第２品詞属性情報７３４の値が「Ｈｏｌｄ」、助詞７３５の値が「Ｈｏｌｄ」、第２助詞属性情報７３６の値が「Ｈｏｌｄ」と規定されている。したがって、グラフ構造データ３０２において、レンマ６３１の品詞情報６３３が「名詞」でかつ第２助詞属性情報６３６が「接続助詞」であれば、属性分岐条件１に該当する。

図４に戻り、抽象化部１１３は、属性なしノード置換処理を実行する（ステップＳ４０２）。属性なしノード置換処理（ステップＳ４０２）では、抽象化部１１３は、属性情報の省略判定処理（ステップＳ４０１）から受け付けた属性省略判定後のグラフ構造データ３００ａｄについて、属性情報を一切保持しないノード（以下、属性なしノード）を、量化子ノードに置換する。量化子ノードとは、任意のサブグラフ（となる属性情報）の挿入を許可するノードである。

量化子ノードは、たとえば、「＊」で表記され、例外的に始め括弧「（」および終わり括弧「）」で括られないノードである。したがって、量化子ノードは、置換前の属性なしノードと依存関係があった親ノード内に包含される。すなわち、親ノードの末尾に量化子ノードを示す「＊」が付与される。

図８は、属性なしノード置換処理（ステップＳ４０２）の例１を示す説明図である。グラフ構造データ３００ａｄにおいて、属性なしノードは、ノードｎ０１１ｄとノードｎ０２１１ｄである。グラフ構造データ３００ａｄｑは、属性なしノード置換処理（ステップＳ４０２）により、グラフ構造データ３００ａｄにおいて属性なしノードが量化子ノードに置換されたグラフ構造データである。

グラフ構造データ３００ａｄにおいて、量化子ノード８０１は、属性なしノードｎ０１１ｄから置換されて、属性なしノードｎ０１１ｄと依存関係にあった親ノードｎ０１ａｄに引き継がれる。これにより、ノードｎ０１ａｄはノードｎ０１ａｄｑとなる。

また、量化子ノード８０２は、属性なしノードｎ０１１ｄから置換されて、属性なしノードｎ０１１ｄと依存関係にあった親ノードｎ０１ａｄに引き継がれる。これにより、ノードｎ０１１ｄはノードｎ０１１ｄｑとなる。

図９は、属性なしノード置換処理（ステップＳ４０２）の例２を示す説明図である。図９は、グラフ構造データ３００ａｄに替えて、グラフ構造データ９００ａｄを置換元とした例である。グラフ構造データ９００ａｄは、グラフ構造データ３００ａｄにおいて、親ノードが存在しないノードｎｘｄおよび親ノードが属性なしノードであるノードｎｘｙｄを有する。

属性なしノード置換処理（ステップＳ４０２）では、このような属性なしノードｎｘｄ、ｎｘｙｄは、量化子ノードに置換されることなく削除されて、グラフ構造データ３００ａｄｑが出力される。

図８および図９に示したグラフ構造データ３００ａｄｑを適用することにより、テキスト１０１のみならず、その類似文「これらのプログラムは、オペレーティングシステムの起動から呼び出されるセットアッププログラムです。」も抽出可能となる。

図４に戻り、抽象化部１１３は、量化子ノード挿入処理を実行する（ステップＳ４０３）。量化子ノード挿入処理（ステップＳ４０３）では、抽象化部１１３は、属性なしノード置換処理（ステップＳ４０２）から出力された属性なしノード置換後のグラフ構造データ３００ａｄｑについて、量化子ノードを量化子ノードの挿入が必要と判断されるノード間に追加する。

量化子ノードの追加方法には、具体的には、たとえば、グラフ構造データ３００ａｄｑ内で依存関係のあるノードｎ間のすべてに量化子ノードを挿入する第１追加方法、追加対象位置の周辺のノード情報に基づいて、既定のルール（Ｉｆ－ｅｌｓｅ文を用いた複数条件分岐）を用いて量化子ノードの追加位置を決定する第２追加方法、機械学習モデルにより量化子ノードの追加位置を決定する第３方法がある。

図１０は、量化子ノードの第１追加方法の一例を示す説明図である。第１追加方法により、抽象化部１１３は、量化子ノードが追加されていないノードｎ間に量化子ノード１００１～１００５を追加する。なお、量化子ノード１００３の追加により、ノードｎ０２ａはノードｎ０２ａｑとなる。グラフ構造データ３００ａｄｑについて量化子ノード挿入処理（ステップＳ４０３）が実行されたグラフ構造データを、グラフ構造データ３００ａｄｑｉとする。

また、第２追加方法の場合、抽象化部１１３は、量化子ノード挿入条件一覧１２３を用いる。第３追加方法については、実施例２で後述する。

図１１は、量化子ノード挿入条件一覧１２３の一例を示す説明図である。量化子ノード挿入条件一覧１２３は、フィールドとして、追加ルールＩＤ１１０１と、親ノードの品詞属性情報１１０２と、子ノードの品詞属性情報１１０３と、を有する。追加ルールＩＤ１１０１は、追加ルールを一意に特定する識別情報である。追加ルールＩＤ１１０１が「＃」（＃は１から始まる昇順番号）を、挿入条件＃と表記する。

親ノードの品詞属性情報１１０２は、依存関係のある２つのノードのうち上位のノードである親ノードのレンマ（ｌｅｍｍａ）１１３１と、助詞（ｃａｓｅ）１１３２と、レンマ１１３１の品詞情報（ＰＯＳ）１１３３と、第２品詞属性情報（ＰＯＳ）１１３４と、助詞の助詞属性情報（ｃａｓｅＰＯＳ）１１３５と、第２助詞属性情報（ｃａｓｅＰＯＳ２）１１３６と、を有する。

たとえば、挿入条件１の親ノードの品詞属性情報１１０２の値「Ｐ１」（以下、品詞属性情報Ｐ１）には、レンマ１１３１の品詞情報（ＰＯＳ）１１３３の値が「名詞」、第２助詞属性情報（ｃａｓｅＰＯＳ２）１１３６の値が「接続助詞」と規定されている。

子ノードの品詞属性情報１１０３は、依存関係のある２つのノードのうち下位のノードである子ノードのレンマ（ｌｅｍｍａ）１１３１と、助詞（ｃａｓｅ）１１３２と、レンマ１１３１の品詞情報（ＰＯＳ）１１３３と、第２品詞属性情報（ＰＯＳ）１１３４と、助詞の助詞属性情報（ｃａｓｅＰＯＳ）１１３５と、第２助詞属性情報（ｃａｓｅＰＯＳ２）１１３６と、を有する。

たとえば、挿入条件１の子ノードの品詞属性情報１１０３の値「Ｃ１」（以下、品詞属性情報Ｃ１）には、レンマ１１３１の品詞情報（ＰＯＳ）１１３３の値が「名詞」、第２品詞属性情報（ＰＯＳ２）１１３４の値が「一般」と規定されている。

たとえば、依存関係のある２つのノードが挿入条件１に該当する場合、すなわち、親ノードが品詞属性情報Ｐ１を充足し、子ノードが品詞属性情報Ｃ１を充足する場合、その２つのノード間に量化子ノードである「＊」が追加される。

量化子ノード挿入処理（ステップＳ４０３）を適用することで、類似文がテキスト１０１よりも複数の修飾語が付加されている場合であっても、テキスト１０１に対応するグラフパターン１３１が類似文として抽出できる可能性が向上する。

図４に戻り、抽象化部１１３は、除外条件設定処理（ステップＳ４０４）を実行する。除外条件設定処理（ステップＳ４０４）では、抽象化部１１３は、量化子ノード挿入処理（ステップＳ４０３）から出力された量化子ノード挿入後のグラフ構造データ３００ａｄｑｉについて、量化子ノードに抽出除外条件を設定する。

抽出除外条件の設定方法には、具体的には、たとえば、グラフ構造データ３００ａｄｑｉ内のすべての量化子ノードに抽出除外条件を設定する第１設定方法と、重要箇所情報１０２が付与されているノードｎの下位に位置する量化子ノード（以下、下位最隣接量化子ノード）に抽出除外条件を設定する第２設定方法がある。除外条件設定処理（ステップＳ４０４）により、類似文の誤抽出が低減する。第２設定方法について図１２を用いて説明する。

図１２は、除外条件設定処理（ステップＳ４０４）の一例を示す説明図である。図１２は、第２設定方法により、重要箇所情報１０２が付与されているノードｎの下位最隣接量化子ノードについて、重要箇所情報１０２が付与されているノードｎの品詞属性情報に基づいて抽出除外条件を設定した例である。図１２では、重要箇所情報１０２が付与されているノードｎをノードｎ０１ａｄｑとすると、その下位最隣接量化子ノードは、ノード１００２である。抽象化部１１３は、このノード１００２に抽出除外条件１２００として「ｃａｓｅ！＝は」を設定する。

「ＹＹＹ！＝ｚｚｚ」（ＹＹＹは品詞属性情報、ｚｚｚは任意の文字列）は、品詞属性情報がＹＹＹである文字列ｚｚｚは、重要箇所情報１０２が付与されているノードｎに続く条件に一致しないことを示す条件子である。たとえば、「ｃａｓｅ！＝は」は、そのノード内で、助詞「は」およびその主格を示す文字列を抽出しないことを意味する。たとえば、ノード１００２は量化子ノードであるため、抽出除外条件１２００に該当する「○○は」を除く文字列が抽出される。

図２に戻り、グラフパターン１３１は、生成装置１００の出力であり、テキスト１０１のグラフ構造データを重要箇所情報１０２に基づいて抽象化したデータである。具体的には、たとえば、抽象化部１１３が図４のうち、属性情報の省略判定処理（ステップＳ４０１）のみ実行すれば、グラフパターン１３１は、グラフ構造データ３００ａｄとなる。

また、抽象化部１１３が属性情報の省略判定処理（ステップＳ４０１）および属性なしノード置換処理（ステップＳ４０２）のみ実行すれば、グラフパターン１３１は、グラフ構造データ３００ａｄｑとなる。また、抽象化部１１３が属性情報の省略判定処理（ステップＳ４０１）～量化子ノード挿入処理（ステップＳ４０３）のみ実行すれば、グラフパターン１３１は、グラフ構造データ３００ａｄｑｉとなる。また、抽象化部１１３が属性情報の省略判定処理（ステップＳ４０１）～除外条件設定処理（ステップＳ４０４）を実行すれば、グラフパターン１３１は、グラフ構造データ３００ａｄｑｉｓとなる。

テキスト１０１と重要箇所情報１０２とにより得られるグラフパターン１３１（グラフ構造データ３００ａｄｑｉｓ）を用いると、「このコマンドは、更新プロセスの起動から呼び出されるメインコマンドです。」のような類似文を抽出することができる。

図１３は、実施例１のグラフパターン１３１の確認画面の一例を示す説明図である。確認画面１３００は、生成装置１００の出力が得られると同時に表示してもよいが、必要に応じて読み込みボタン１３０３を押下することで、グラフパターン１３１を読み込むことができる。

グラフパターン１３１は、パターン表示／編集エリア１３０６に表示される。グラフパターン１３１の元のテキスト１０１は入力文表示領域１３０４に表示される。重要箇所情報１０２が付与されたグラフ構造データ３００ａｄは重要箇所表示領域１３０５に表示される。利用者は編集ボタン１３０１を押下することで、グラフパターン１３１をパターン表示／編集エリア１３０６上で編集することができる。利用者は編集されたグラフパターン１３１を、保存ボタン１３０２を押下することにより上書き保存できる。図１３のようなグラフパターン１３１の確認、および編集を可能とする確認画面１３００は、人手によるパターン修正を可能とし、類似文抽出精度向上に寄与する。

このように、実施例１によれば、生成装置１００は、テキスト１０１とその重要箇所情報１０２の入力を受け付け、テキスト１０１をグラフ構造データ３００に変換し、重要箇所情報１０２をグラフ構造データ３００に付与し、抽象化部１１３により単にレンマや句に着目するだけでなく、各ノードｎに付与されたすべての品詞属性情報を活用することで、高精度なグラフパターン１３１を生成することができる。

実施例２について説明する。実施例２は、実施例１で示した抽象化部１１３の入力である属性分岐条件情報１２１、属性省略情報１２２、および量化子ノード挿入条件一覧１２３を、機械学習モデル１４００に変更した例である。これにより、より高精度なグラフパターン１３１の生成が可能になる。なお、実施例２では、実施例１とは異なる点を中心に説明するため、実施例１と同一構成の説明は省略する。

図１４は、実施例２にかかる生成装置の構成例を示すブロック図である。実施例２の生成装置１００は、テキスト１０１とその重要箇所情報１０２、機械学習モデル１４００を用いて、テキスト１０１を抽象化したグラフパターン１３１を生成する。

実施例２では、抽象化部１１３は、付加部１１２から重要箇所情報１０２が付加されたテキスト１０１のグラフ構造データ３００ａを受け付け、属性情報の省略判定処理（ステップＳ４０１）、属性なしノード置換処理（ステップＳ４０２）、量化子ノード挿入処理（ステップＳ４０３）および除外条件設定処理（ステップＳ４０４）を実行する。

その際、属性省略判定処理（ステップＳ４０１）と量化子ノード挿入処理（ステップＳ４０３）において、各々機械学習モデル１４００を用いた判定が実行される。なお、機械学習モデル１４００は、たとえば、テキスト１０１と重要箇所情報１０２、および抽象化結果であるグラフパターン１３１を用いて事前に学習される。

たとえば、属性省略判定処理（ステップＳ４０１）については、図６に示した品詞属性情報６０３を説明変数（訓練データ）とし、図７に示した品詞属性情報７０３を目的変数（正解データ）として学習することにより、属性省略判定処理（ステップＳ４０１）で利用可能な機械学習モデル１４００が生成される。

たとえば、抽象化部１１３は、図６に示した品詞属性情報６０３のいずれかの属性分岐条件に該当した特定のノードｎの属性情報とその属性分岐条件に対応する図７に示した品詞属性情報７０３の属性省略とに基づいて学習された機械学習モデル１４００を用いて、機械学習モデル１４００に特定のノードの属性情報を入力した結果出力される属性省略の対象（「Ｄｅｌｅｔｅ」）となる属性情報を削除する。

また、量化子ノード挿入処理（ステップＳ４０３）については、図１１に示した親ノードの品詞属性情報１１０２および子ノードの品詞属性情報１１０３を説明変数（訓練データ）とし、追加するまたは追加しないを目的変数（正解データ）として学習することにより、量化子ノード挿入処理（ステップＳ４０３）で利用可能な機械学習モデル１４００が生成される。

たとえば、抽象化部１１３は、図１１に示した親ノードの品詞属性情報１１０２と子ノードの品詞属性情報１１０３とに基づいて学習された機械学習モデル１４００を用いて、機械学習モデル１４００に親ノードの品詞属性情報１１０２を入力した結果出力される子ノードの品詞属性情報１１０３を削除する。

なお、機械学習モデル１４００には、ランダムフォレスト、ＧｒａｐｈＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋｓ、ニューラルネットワークのような既知のモデルを用いることができる。なお、機械学習モデル１４００には、入力として着目ノードの属性情報のみを入力する場合と、着目ノードの親ノードと子ノードを追加で入力する場合が考えられる。属性情報の特徴量化については、単語や句、および助詞は、既知の特徴量化アルゴリズムを活用可能である。

たとえば、ＴｅｒｍＦｒｅｑｕｅｎｃｙＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ（ＴＦ－ＩＤＦ）や単語埋め込み表現の一つである、ＧｌｏＶｅを活用することが考えられるが、具体的な方法は限定しない。また、各品詞条件、および重要箇所情報はｏｎｅ－ｈｏｔ表現により特徴量化することが考えられる。

このように、実施例２によれば、テキスト１０１と重要箇所情報１０２の入力を受け付け、追加の入力として機械学習モデル１４００を受け取ることで、抽象化部１１３においてより高精度な分類が実行でき、高精度なグラフパターン１３１を生成できる。

実施例３について説明する。実施例３では、生成装置１００は、実施例１で示した抽象化部１１３にレンマ辞書１５００を追加で入力し、抽象化部１１３において、図１６に示すように辞書適用処理を実行する。これにより、グラフパターン１３１の抽出精度が向上する。なお、実施例３では、実施例１とは異なる点を中心に説明するため、実施例１と同一構成の説明は省略する。

図１５は、実施例３にかかる生成装置の構成例を示すブロック図である。実施例３にかかる生成装置１００は、テキスト１０１、重要箇所情報１０２、属性分岐条件情報１２１、属性省略情報１２２、量化子ノード挿入条件一覧１２３およびレンマ辞書１５００を入力にとり、テキスト１０１が抽象化されたグラフパターン１３１を生成する。

レンマ辞書１５００は、レンマについて意味的なグループを構成し、人手または既知のアルゴリズムに従って作成される。たとえば、類似語辞書を参照して、あるレンマに対して意味的なグループを構成する方法によって作成されるが、レンマについてのグループを構成する手法であれば何でもよい。

図１６は、レンマ辞書１５００の一例を示す説明図である。レンマ辞書１５００は、フィールドとして、グループＩＤ１６０１と、レンマグループ１６０２と、を有する。同一行の各フィールドの値の組み合わせが１つのレンマのグループを構成する。グループＩＤ１６０１は、レンマのグループを一意に特定する識別情報である。レンマグループ１６０２は、そのグループＩＤ１６０１によって特定されたグループに属する１以上のレンマである。

図１７は、実施例３にかかる抽象化部１１３による抽象化処理の詳細な処理手順例を示すフローチャートである。除外条件設定処理（ステップＳ４０４）のあと、抽象化部１１３は、レンマ辞書適用処理（ステップＳ１７０５）を実行する。レンマ辞書適用処理（ステップＳ１７０５）では、抽象化部１１３は、レンマ辞書適用処理（ステップＳ１７０５）で出力されたグラフ構造データ３００ａｄｑｉｓを受け取り、レンマ辞書１５００内のあるレンマについて、そのレンマが属する辞書グループ内のレンマグループ１６０２をすべて許容するようにグラフパターン１３１を更新する。

たとえば、図１２のグラフ構造データ３００ａｄｑｉｓに対して図１６に示したレンマ辞書１５００を適用すると、ノードｎ０２aｑの「ｌｅｍｍａ＝呼び出す」だけでなく、「呼び出す」と同一グループのレンマグループ１６０２の「呼ぶ」や「招く」がレンマ条件として許容される。すなわち、ノードｎ０２aｑの「ｌｅｍｍａ＝呼び出す」が「ｌｅｍｍａ＝Ｃａｌｌ＿ｖｅｒｂ」に更新される。

このように、実施例３によれば、テキスト１０１、重要箇所情報１０２、属性分岐条件情報１２１、属性省略情報１２２、および量化子ノード挿入条件一覧１２３の入力を受け付け、追加の入力としてレンマ辞書１５００を受け取ることで、より広範な類似文を抽出可能なグラフパターン１３１の生成が可能になる。

つぎに、実施例４について説明する。実施例１～３では、テキスト１０１の記述言語を日本語としたが、実施例４では、テキスト１０１の記述言語を英語とし、生成装置１００は英語のグラフパターン１３１を出力する。実施例４では、実施例１～実施例３との相違点を中心に説明するため、実施例１～実施例３についての説明は省略する。

実施例４では、英語のテキスト１０１の例として、「ＴｈｉｓｃｏｍｍａｎｄｉｓａｓｕｂｃｏｍｍａｎｄｃａｌｌｅｄｗｈｅｎｔｈｅＤａｔａｂａｓｅｉｎｓｔａｎｃｅｉｓｓｈｕｔｄｏｗｎ．」とする。

図１８は、実施例４にかかる重要箇所情報１８００の一例を示す説明図である。重要箇所情報１８００は、重要箇所情報１０２が英語で記述されたデータである。英語のテキスト１０１は、分かち書きで記述されるため、図１８に示すように、重要箇所情報１８００は、ＩＤ２０１が「ａ１」、「ａ２」のエントリのように、複数語で構成されてもよい。

図１９は、英語のテキスト１０１がグラフ構造変換部１１１に入力された場合の英語のグラフ構造データの画面出力例を示す説明図である。英語のグラフ構造データ１９００は、図３に示したグラフ構造データ３００に対応する。テキスト１０１が英語の場合、グラフ構造変換部１１１は、たとえば、ｓｐａＣｙやＳｔａｎｆｏｒｄＣｏｒｅＮＬＰを既知のグラフ構造変換アルゴリズムとして活用可能である。

英語のグラフ構造データ１９００において、品詞属性情報の「．ｔｙｐｅ」は、係り受けの種類を示し、「．ＰＯＳ」は品詞情報を表し、「．ｌｅｍｍａ」は内容語を示す。たとえば、１行目の「．ｔｙｐｅ＝ｒｏｏｔ＆．ＰＯＳ＝ＮＮ＆．ｌｅｍｍａ＝ｓｕｂｃｏｍｍａｎｄ」は、係り受けの種類がルートであり、かつ、品詞が名詞単数形（ｎｏｕｎｓｉｎｇｕｌａｒ）であり、かつ、その内容語が「ｓｕｂｃｏｍｍａｎｄ」であることを指定する記述である。

また、図示はしないが、付加部１１２は、実施例１と同様、英語のグラフ構造データ１９００に重要箇所情報１８００を付加する。重要箇所情報１８００が付加された英語のグラフ構造データ１９００を、重要箇所情報１８００が付加されていない英語のグラフ構造データ１９００と区別するため、英語のグラフ構造データ１９００ａと表記する。

抽象化部１１３は、付加部１１２から英語のグラフ構造データ１９００ａを受け付け、属性省略判定処理（ステップＳ４０１）を実行する。

図２０は、実施例４にかかる属性分岐条件情報の一例を示す説明図である。属性分岐条件情報２０００は、属性分岐条件情報１２１と同様、フィールドとして、ルールＩＤ６０１と、重要箇所付与フラグ６０２と、品詞属性情報６０３と、を有する。同一行の各フィールドの値の組み合わせが１つのルールである属性分岐条件を規定する。

品詞属性情報６０３は、レンマ（ｌｅｍｍａ）６３１と、レンマ６３１の品詞情報（ＰＯＳ）６３３と、ノード間の関係（ｔｙｐｅ）２００１と、を有する。ノード間の関係（ｔｙｐｅ）２００１は、ＵｎｉｖｅｒｓａｌＤｅｐｅｎｄｅｎｃｉｅｓの依存関係（ＤｅｐｅｎｄｅｎｃｙＲｅｌａｔｉｏｎｓ）によって規定される。

図２１は、実施例４にかかる属性省略情報の一例を示す説明図である。属性省略情報２１００は、属性省略情報１２２と同様、フィールドとして、ルールＩＤ６０１と、品詞属性情報７０３と、を有する。同一行の各フィールドの値の組み合わせが１つのルールである属性分岐条件を規定する。

品詞属性情報７０３は、レンマ（ｌｅｍｍａ）７３１と、レンマ７３１の品詞情報（ＰＯＳ）７３３と、のノード間の関係（ｔｙｐｅ）２１０１と、を有する。ノード間の関係（ｔｙｐｅ）２１０１は、ノード間の関係（ｔｙｐｅ）２００１と同様、ＵｎｉｖｅｒｓａｌＤｅｐｅｎｄｅｎｃｉｅｓの依存関係（ＤｅｐｅｎｄｅｎｃｙＲｅｌａｔｉｏｎｓ）によって規定される。

なお、ステップＳ４０１やステップＳ４０３において、機械学習による判定を実行する場合、属性情報の特徴量化については、たとえば、係り受けの種類、品詞情報、および重要箇所情報はｏｎｅ－ｈｏｔ表現、内容語についてはＴＦ―ＩＤＦや単語埋め込み表現のＧｌｏＶｅやＷｏｒｄ２Ｖｅｃを活用してもよい。

図２２は、実施例４にかかるレンマ辞書の一例を示す説明図である。レンマ辞書２２００は、フィールドとして、グループＩＤ２２０１と、レンマグループ２２０２と、を有する。同一行の各フィールドの値の組み合わせが１つのレンマのグループを構成する。グループＩＤ２２０１は、内用語グループを一意に特定する識別情報である。レンマグループ１６０２は、そのグループＩＤ１６０１によって特定された内用語グループに属する１以上の内用語である。

たとえば、レンマ辞書２２００を、グラフ構造データ１９００に適用すると、６行目の「ｃａｌｌ」を内容語として指定するノードは、「ｃａｌｌ」に加え、「ｃａｕｓｅ」や「ａｃｔｉｖａｔｅ」などが内容語の条件として許容される。

図２３は、実施例４にかかるグラフパターンの一例を示す説明図である。グラフパターン１３１を用いると、たとえば、英語のテキスト１０１に類似する「Ｔｈｉｓｃｏｍｍａｎｄｉｓａｍａｉｎｃｏｍｍａｎｄｃａｌｌｅｄｗｈｅｎｔｈｅｕｐｄａｔｅｐｒｏｃｅｓｓｉｓｓｔａｒｔｅｄ．」のような類似文を抽出することができる。ここで、「｜」はＯＲ条件を示す記号であるが、「｜」は実施例４における便宜上の表現であり、表現方法はこれらに限定されない。

このように、実施例４によれば、英語のテキスト１０１と対応する重要箇所情報１８００から、英語の類似文を抽出可能なグラフパターン１３１を生成できる。

上述した実施例１～実施例４に示した生成装置１００によって生成されたグラフパターン１３１を用いて、類似文とのパターンマッチングが可能になる。具体的には、たとえば、生成装置１００は、グラフ構造変換部１１１により、類似文「このコマンドは，更新プロセスの起動から呼び出されるメインコマンドです。」をグラフ構造データに変換する（以下、「類似文グラフ構造データ」と称す。）。生成装置１００は、グラフパターン１３１で類似文グラフ構造データをパターンマッチングする。これにより、類似文グラフ構造データを構成するノード群のうち、グラフパターン１３１に該当する語句として、たとえば、「呼び出される。」、「このコマンドは」、「更新プロセスの起動から」が抽出される。

図２４は、実施例１～実施例４に示した生成装置１００のハードウェア構成例を示すブロック図である。生成装置１００は、たとえば、プロセッサ（ＣＰＵ）２４０１、補助記憶装置２４０２、メモリ２４０３、入力デバイス２４０４、出力デバイス２４０５、および通信インタフェース２４０６からなる計算機によって構成される。コンピュータ２４００のハードウェア構成例の構成要素である、２４０１～２４０６は相互に接続されており、必要に応じて通信することができるものとする。

プロセッサ２４０１は、メモリ２４０３に格納されたプログラムを実行する。プロセッサ２４０１は、たとえば、単一の演算装置、および処理装置だけでなく、任意の個数の演算装置、および処理装置から構成されていてもよい。メモリ２４０３は、不揮発性の記憶素子であるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、および揮発性の記憶素子であるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含む。ＲＯＭは、不変のプログラムなどを格納する。ＲＡＭは、プロセッサ２４０１が実行するプログラム、およびプログラムの実行時に使用されるデータを一時的に格納する。

補助記憶装置２４０２は、たとえば、磁気記憶装置（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やフラッシュメモリ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の大容量かつ不揮発性の記憶装置である。ほまた、補助記憶装置２４０２は、プロセッサ２４０１が実行するプログラム、およびプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置２４０２からロードされて、メモリ２４０３に読み込まれ、プロセッサ２４０１によって実行される。

具体的には、たとえば、生成装置１００の各処理部は、補助記憶装置２４０２に格納された非一時的なプログラムをメモリ２４０３にロードし、プロセッサ２４０１が前記ロードされたプログラムを実行することによって実現される。また、実施例１～実施例４の各処理部において用いられる、テキスト１０１、重要箇所情報１０２、１８００、属性分岐条件情報１２１、２０００、属性省略情報１２２、２１００、量化子ノード挿入条件一覧１２３、機械学習モデル１４００、レンマ辞書１５００、２２００、およびグラフパターン１３１の各データは、たとえば、補助記憶装置２４０２に格納される。

コンピュータ２４００は、入力デバイス２４０４を有していてもよい。入力デバイス２４０４は、利用者が生成装置１００にテキスト１０１と重要箇所情報１０２、１８００を入力する装置である。入力デバイス２４０４には、たとえば、キーボードやマウスなどがある。入力デバイス２４０４からの入力は、補助記憶装置２４０２やメモリ２４０３に格納されてもよい。

コンピュータ２４００は、出力デバイス２４０５を有していてもよい。出力デバイス２４０５は、たとえば、ディスプレイやプリンタなどが接続され、生成装置１００が出力する実行結果を利用者に提示する。出力デバイス２４０５が、たとえば、ディスプレイまたはプリンタの場合、グラフパターン１３１を表示することができる。出力デバイス２４０５がディスプレイの場合、たとえば、グラフパターン１３１を確認するための画面を表示することができる。

通信インタフェース２４０６は、所定のプロトコルにしたがって、他装置との通信を制御するネットワークインタフェース装置である。通信インタフェース２４０６は、たとえば、ＵＳＢ等のシリアルインタフェースを含む。生成装置１００はネットワークを介して任意の端末からデータを送受信することができる。

生成装置１００において、たとえば、プロセッサ２４０１により実行されるプログラムは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や任意のソフトウェアを含むことができる。この場合、ＯＳや任意のソフトウェアは、たとえば、補助記憶装置２４０２に格納され、必要に応じてメモリ２４０３にロードされる。

コンピュータ２４００の実施形態には、様々な形式が考えられる。たとえば、生成装置１００は、物理的に一つの計算機上で、または、論理的、あるいは物理的に構成された複数の計算機上で構成される計算機システムにより実装することができる。また、複数の物理的計算機資源上に実現された、仮想計算機上で動作してもよい。

また、上述した実施例１～実施例４において、抽象化部１１３は、矛盾が生じない限り、属性情報の省略判定処理（ステップＳ４０１）、属性なしノード置換処理（ステップＳ４０２）、量化子ノード挿入処理（ステップＳ４０３）、除外条件設定処理（ステップＳ４０４）、レンマ辞書適用処理（ステップＳ１７０５）のうち少なくとも１つを実行すればよい。また、抽象化部１１３は、属性情報の省略判定処理（ステップＳ４０１）、属性なしノード置換処理（ステップＳ４０２）、量化子ノード挿入処理（ステップＳ４０３）、除外条件設定処理（ステップＳ４０４）レンマ辞書適用処理（ステップＳ１７０５）の実行順序も、矛盾が生じない限り異なる順序でもよい。

たとえば、属性情報の省略判定処理（ステップＳ４０１）で属性情報が省略された属性なしノードについて、属性なしノード置換処理（ステップＳ４０２）を実行する場合には、属性なしノード置換処理（ステップＳ４０２）よりも先に属性情報の省略判定処理（ステップＳ４０１）が必ず実行される必要がある。

また、上述した実施例１～実施例４にかかる生成装置１００は、下記（１）～（１５）のように構成することもできる。

（１）生成装置１００は、文内の語句とその品詞に関する情報とを含む属性情報をノードとし前記ノード間の依存関係を示すグラフ構造データ３００を取得する取得部（グラフ構造変換部１１１）と、前記取得部によって取得されたグラフ構造データ３００を、前記ノード内の属性情報に基づいて抽象化する抽象化部１１３と、を有する。

（２）上記（１）の生成装置１００において、抽象化部１１３は、特定のノード内の属性情報を削除することにより、グラフ構造データ３００ａを抽象化して、グラフ構造データ３３０ａｄを出力する。

（３）上記（２）の生成装置１００において、抽象化部１１３は、第１条件（属性分岐条件）に該当する前記特定のノードの属性情報を削除することにより、グラフ構造データ３００ａを抽象化して、グラフ構造データ３３０ａｄを出力する。

（４）上記（３）の生成装置１００において、抽象化部１１３は、前記特定のノードの属性情報のうち第２条件（属性分岐条件と同一ルールＩＤ６０１の属性省略）に該当する特定の属性情報を削除することにより、グラフ構造データ３００ａを抽象化して、グラフ構造データ３３０ａｄを出力する。

（５）上記（３）の生成装置１００において、抽象化部１１３は、前記第１条件に該当した前記特定のノードの属性情報と第２条件に該当した特定の属性情報とに基づいて学習された機械学習モデル１４００を用いて、機械学習モデル１４００に前記特定のノードの属性情報を入力した結果出力される前記特定の属性情報を削除することにより、グラフ構造データ３００ａを抽象化して、グラフ構造データ３３０ａｄを出力する。

（６）上記（１）の生成装置１００において、前記抽象化部１１３は、前記グラフ構造データ３００ａｄ内のノード群のうち属性情報が存在しないノードを削除することにより、グラフ構造データ３００ａｄを抽象化して、グラフ構造データ３３０ａｄｑを出力する。

（７）上記（１）の生成装置１００において、抽象化部１１３は、前記グラフ構造データ３００ａｄ内のノード群のうち属性情報が存在しないノードを、任意の属性情報の挿入を許可する量化子ノード（＊）に置換することにより、グラフ構造データ３００ａｄを抽象化して、グラフ構造データ３３０ａｄｑを出力する。

（８）上記（１）の生成装置１００において、前記抽象化部１１３は、依存関係がある２つのノードのうち下位ノードの属性情報を、前記量化子ノードに置換することにより、グラフ構造データ３００ａｄｑを抽象化して、グラフ構造データ３３０ａｄｑｉを出力する。

（９）上記（７）の生成装置１００において、抽象化部１１３は、依存関係がある２つのノードのうち上位ノードの属性情報が第１条件（親ノードの品詞属性情報１１０２）にし、前記２つのノードのうち下位ノードの属性情報が第２条件（子ノードの品詞属性情報１１０３）に該当する場合、前記下位ノードの属性情報を、前記量化子ノードに置換することにより、グラフ構造データ３００ａｄｑを抽象化して、グラフ構造データ３３０ａｄｑｉを出力する。

（１０）上記（７）の生成装置１００において、抽象化部１１３は、依存関係がある２つのノードのうち第１条件に該当した上位ノードの属性情報と第２条件に該当した下位ノードの属性情報とに基づいて学習された機械学習モデル１４００を用いて、前記機械学習モデルに前記上位ノードの属性情報を入力した結果出力される前記下位ノードの属性情報を、前記量化子ノードに置換することにより、グラフ構造データ３００ａｄｑを抽象化して、グラフ構造データ３３０ａｄｑｉを出力する。

（１１）上記（１）の生成装置１００において、抽象化部１１３は、前記グラフ構造データ３００のいずれかのノードに、所定の語句（たとえば、「は」およびその主格）の抽出を除外する抽出除外条件１２００を設定することにより、グラフ構造データ３００ａｄｑｉを抽象化して、グラフ構造データ３３０ａｄｑｉｓを出力する。

（１２）上記（１１）の生成装置１００において、抽象化部１１３は、前記グラフ構造データの特定のノードｎ０１ａｄｑに、所定の語句の抽出を除外する抽出除外条件１２００を設定することにより、グラフ構造データ３００ａｄｑｉを抽象化して、グラフ構造データ３３０ａｄｑｉｓを出力する。

（１３）上記（１）の生成装置１００において、抽象化部１１３は、語句群の各々を意味的なグループに分類したレンマ辞書１５００を参照して、前記ノード内の語句を当該語句を含むグループの識別情報（グループＩＤ１６０１）に変換することにより、前記グラフ構造データ３００を抽象化する。

（１４）上記（１）の生成装置１００において、前記取得部は、前記文を取得して、前記文を前記グラフ構造データに変換する。

（１５）上記（１）の生成装置１００は、さらに、語句２０２とその識別情報（着目箇所ＩＤ２０１）とを有する重要箇所情報１０２を参照して、語句２０２を含むノードにその識別情報（着目箇所ＩＤ２０１）を付加する付加部１１２を有する。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

１００生成装置
１０１テキスト
１０２重要箇所情報
１１１グラフ構造変換部
１１２付加部
１１３抽象化部
１２１属性分岐条件情報
１２２属性省略情報
１２３量化子ノード挿入条件一覧
１３１グラフパターン
２０２語句
３００グラフ構造データ
１４００機械学習モデル
１５００レンマ辞書

Claims

文内の語句とその品詞に関する情報とを含む属性情報をノードとし前記ノード間の依存関係を示すグラフ構造データを取得する取得部と、
前記取得部によって取得されたグラフ構造データを、前記ノード内の属性情報に基づいて抽象化する抽象化部と、
を有することを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記抽象化部は、特定のノード内の属性情報を削除することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
請求項２に記載の生成装置であって、
前記抽象化部は、第１条件に該当する前記特定のノードの属性情報を削除することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
請求項３に記載の生成装置であって、
前記抽象化部は、前記特定のノードの属性情報のうち第２条件に該当する特定の属性情報を削除することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
請求項３に記載の生成装置であって、
前記抽象化部は、前記第１条件に該当した前記特定のノードの属性情報と第２条件に該当した特定の属性情報とに基づいて学習された機械学習モデルを用いて、前記機械学習モデルに前記特定のノードの属性情報を入力した結果出力される前記特定の属性情報を削除することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記抽象化部は、前記グラフ構造データ内のノード群のうち属性情報が存在しないノードを削除することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記抽象化部は、前記グラフ構造データ内のノード群のうち属性情報が存在しないノードを、任意の属性情報の挿入を許可する量化子ノードに置換することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
請求項７に記載の生成装置であって、
前記抽象化部は、依存関係がある２つのノードのうち下位ノードの属性情報を、前記量化子ノードに置換することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
請求項７に記載の生成装置であって、
前記抽象化部は、依存関係がある２つのノードのうち上位ノードの属性情報が第１条件にし、前記２つのノードのうち下位ノードの属性情報が第２条件に該当する場合、前記下位ノードの属性情報を、前記量化子ノードに置換することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
請求項７に記載の生成装置であって、
前記抽象化部は、依存関係がある２つのノードのうち第１条件に該当した上位ノードの属性情報と第２条件に該当した下位ノードの属性情報とに基づいて学習された機械学習モデルを用いて、前記機械学習モデルに前記上位ノードの属性情報を入力した結果出力される前記下位ノードの属性情報を、前記量化子ノードに置換することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記抽象化部は、前記グラフ構造データのいずれかのノードに、所定の語句の抽出を除外する除外条件を設定することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
請求項１１に記載の生成装置であって、
前記抽象化部は、前記グラフ構造データの特定のノードに、所定の語句の抽出を除外する除外条件を設定することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記抽象化部は、語句群の各々を意味的なグループに分類した辞書を参照して、前記ノード内の語句を当該語句を含むグループの識別情報に変換することにより、前記グラフ構造データを抽象化する、
ことを特徴とする生成装置。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する生成装置による生成方法であって、
前記プロセッサは、
文内の語句とその品詞に関する情報とを含む属性情報をノードとし前記ノード間の依存関係を示すグラフ構造データを取得する取得処理と、
前記取得処理によって取得されたグラフ構造データを、前記ノード内の属性情報に基づいて抽象化する抽象化処理と、
を実行することを特徴とする生成方法。
プロセッサに、
文内の語句とその品詞に関する情報とを含む属性情報をノードとし前記ノード間の依存関係を示すグラフ構造データを取得する取得処理と、
前記取得処理によって取得されたグラフ構造データを、前記ノード内の属性情報に基づいて抽象化する抽象化処理と、
を実行させることを特徴とする生成プログラム。