JP2023152343A - 生成装置、生成方法、および生成プログラム - Google Patents

生成装置、生成方法、および生成プログラム Download PDF

Info

Publication number
JP2023152343A
JP2023152343A JP2022062272A JP2022062272A JP2023152343A JP 2023152343 A JP2023152343 A JP 2023152343A JP 2022062272 A JP2022062272 A JP 2022062272A JP 2022062272 A JP2022062272 A JP 2022062272A JP 2023152343 A JP2023152343 A JP 2023152343A
Authority
JP
Japan
Prior art keywords
node
attribute information
graph structure
structure data
generating device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022062272A
Other languages
English (en)
Inventor
篤季 山口
Atsuki Yamaguchi
美沙 佐藤
Misa Sato
泰弘 十河
Yasuhiro Sogawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2022062272A priority Critical patent/JP2023152343A/ja
Publication of JP2023152343A publication Critical patent/JP2023152343A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Figure 2023152343000001
【課題】抽象化されたグラフパターンを高精度に自動生成し、類似文の抽出精度できるグラフパターンの抽出性能を高める生成装置、生成方法及び生成プログラムを提供する。
【解決手段】生成装置100は、文内の語句とその品詞に関する情報とを含む属性情報をノードとし、そのノード間の依存関係を示すグラフ構造データを取得する取得部と、取得部が取得したグラフ構造データを、ノード内の属性情報に基づいて抽象化する抽象化部113と、を有する。
【選択図】図1

Description

本発明は、データを生成する生成装置、生成方法、および生成プログラムに関する。
ある文中の単語間の関係を示すグラフ構造データについて、その属性を抽象化したグラフパターンを作成し、パターンマッチングを行うことで、効率的に類似文の抽出が可能である。類似文の抽出技術は、文書検索およびテキストマイニングの観点から重要である。グラフパターン生成技術の背景技術として、下記特許文献1がある。
下記特許文献1には、「テキストマイニング装置では、同義表現識別手段が、テキストマイニングの対象となる文の依存構造木(対象文依存構造木)の中に同義表現辞書に登録されている表現の依存構造木(同義表現依存構造木)と一致する部分木(一致部分木)が含まれているかどうかを識別する」と記載されており、同義表現辞書が同義表現識別手段に活用されている。また、下記特許文献1において、「節点置換手段は、一致部分木を同義表現が属するグループを示す特別な節点(同義表現節点)で置き換え、特徴部分木抽出手段は、置き換え後の対象文依存構造木から特徴部分木を抽出する」と記載されており、同義表現辞書の情報が節点置換手段に活用されている。
また、下記特許文献2には、「文書ダイジェスト作成方法において、前記文書グラフから前記コンテクストに応じた部分グラフを抽出する場合に、前記情報処理装置は、前記コンテクストのそれぞれの単語と、前記文書グラフ上のそれぞれの単語との関連の強さを表す間接関連度を計算し、前記コンテクストのそれぞれの単語毎に、該単語と前記文書グラフ上の全ての単語との間接関連度を並べた間接関連度ベクトルを作成し、前記コンテクストの単語の重要度と前記間接関連度ベクトルとから、前記コンテクストと関連の強い単語からなる関連単語集合を求め、前記文書グラフから、前記関連単語集合に含まれる単語を持つノードだけを抽出することによって、前記部分グラフを作成することを特徴とする。」と記載されている。
特開2007―041767号公報 特開2001―249935号公報
グラフパターンは、例文に対応するグラフ構造データを抽象化することで作成される。グラフパターンの作成には、抽象化過程においてグラフ構造データの重要箇所を事前に明示的に特定し、または抽象化過程中に推定し、各ノードの抽象化度合いに重要箇所情報を反映することが重要である。
特許文献1および特許文献2に記載のグラフ構造データの抽象化技術では、アルゴリズム内で非明示的に重要箇所の特定が行われ、利用者からの入力として明示的に重要箇所を受け付けるケースが想定されていない。このため、利用者はグラフパターンの抽象化過程を明示的に制御することはできない。したがって、利用者が重要と考える類似文であっても、アルゴリズム内で重要とはみなされず、抽出されない可能性がある。
本発明は、抽象化されたグラフパターンを高精度に自動生成することを目的とする。
本願において開示される発明の一側面となる生成装置は、文内の語句とその品詞に関する情報とを含む属性情報をノードとし前記ノード間の依存関係を示すグラフ構造データを取得する取得部と、前記取得部によって取得されたグラフ構造データを、前記ノード内の属性情報に基づいて抽象化する抽象化部と、を有することを特徴とする。
本発明の代表的な実施の形態によれば、抽象化されたグラフパターンを高精度に自動生成することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
図1は、実施例1にかかる生成装置の構成例を示すブロック図である。 図2は、重要箇所情報の一例を示す説明図である。 図3は、グラフ構造データの一例を示す説明図である。 図4は、抽象化部による抽象化処理の詳細な処理手順例を示すフローチャートである。 図5は、属性情報の省略判定処理(ステップS401)の一例を示す説明図である。 図6は、属性分岐条件情報の一例を示す説明図である。 図7は、属性省略情報の一例を示す説明図である。 図8は、属性なしノード置換処理(ステップS402)の例1を示す説明図である。 図9は、属性なしノード置換処理(ステップS402)の例2を示す説明図である。 図10は、量化子ノードの第1追加方法の一例を示す説明図である。 図11は、量化子ノード挿入条件一覧の一例を示す説明図である。 図12は、除外条件設定処理(ステップS404)の一例を示す説明図である。 図13は、実施例1のグラフパターン131の確認画面の一例を示す説明図である。 図14は、実施例2にかかる生成装置の構成例を示すブロック図である。 図15は、実施例3にかかる生成装置の構成例を示すブロック図である。 図16は、レンマ辞書の一例を示す説明図である。 図17は、実施例3にかかる抽象化部による抽象化処理の詳細な処理手順例を示すフローチャートである。 図18は、実施例4にかかる重要箇所情報の一例を示す説明図である。 図19は、英語のテキストがグラフ構造変換部に入力された場合の英語のグラフ構造データの画面出力例を示す説明図である。 図20は、実施例4にかかる属性分岐条件情報の一例を示す説明図である。 図21は、実施例4にかかる属性省略情報の一例を示す説明図である。 図22は、実施例4にかかるレンマ辞書の一例を示す説明図である。 図23は、実施例4にかかるグラフパターンの一例を示す説明図である。 図24は、実施例1~実施例4に示した生成装置のハードウェア構成例を示すブロック図である。
以下、実施例を添付図面を用いて説明する。以下において、各実施例および各変形例は、本発明の趣旨を逸脱しない範囲で一部または全部を組み合わせることができるものとする。以下の説明において、生成装置は、テキスト、およびテキストに含まれる重要な語句を示したデータを入力とし、抽象化装置により抽象化を実施したグラフ構造データであるグラフパターンを利用者に提示するコンピュータである。
図1は、実施例1にかかる生成装置の構成例を示すブロック図である。生成装置100は、テキスト101と、テキスト101の重要箇所情報102と、属性分岐条件情報121と、属性省略情報122と、量化子ノード挿入条件一覧123と、を入力し、テキスト101の抽象化済みグラフパターン131を生成する。生成装置100はどのような言語でも扱えるが、実施例1では、日本語のテキスト101を入力として扱う例について説明する。
テキスト101は、グラフパターン131の生成元となるデータであり、類似文抽出対象文字列となる。テキスト101は、例として、「このコマンドは、Databaseインスタンスの停止から呼び出されるサブコマンドです。」とする。
また、重要箇所情報102は、類似文抽出を行う際に、どの箇所が類似性を判定する上で重要かを示したデータである。なお、テキスト101および重要箇所情報102に含まれる表現は、必ずしも一つの文を対象としていなくてもよく、一以上の文を対象としていてもよい。以下、実施例1では、便宜上、重要箇所情報102は、テキスト101から抽出された語句で構成されている例を説明する。
図2は、重要箇所情報102の一例を示す説明図である。重要箇所情報102は、着目箇所ID201と、語句202と、を含む。着目箇所ID201は、着目箇所ID201は、類似文抽出対象文字列(本例では、テキスト101)の着目箇所を一意に特定する識別情報である。たとえば、「a0」は述語、「a1」は主語、「a2」は目的語を示す。
語句202は、着目箇所ID201が示す着目箇所別に類似文抽出対象文字列を分類した語または句である。たとえば、「a0」は述語であるため、「呼び出される。」、「a1」は主語であるため「このコマンドは」、「a2」は目的語であるため「Databaseインスタンスの停止から」を示す。
なお、実施例1において、生成装置100が使用する入力データは、データ構造に依存せずどのようなデータ構造で表現されていてもよい。たとえば、リスト、データベース、キュー、スタック、あるいはテーブルといったデータ構造によって、情報を格納できる。なお、図2では、重要箇所情報102がテーブルデータで保持されている例を示している。
図1に戻り、生成装置100は、グラフ構造変換部111と、付加部112と、抽象化部113と、を有する。グラフ構造変換部111は、テキスト101を既知のアルゴリズムによって解析し、テキスト101を、テキスト101内の関係を示すグラフ構造データに変換する。たとえば、グラフ構造変換部111は、CaboChaといった日本語係り受け解析器を用いた変換手法や、Universal Dependenciesに基づいたGiNZA日本語解析器を用いた変換手法により、テキスト101をグラフ構造データに変換する。
以下、実施例1では、グラフ構造変換部111は、既知の日本語解析器を活用する。変化されたグラフ構造データの各ノードは、日本語解析器の解析結果から得られた、テキスト101の語句(語幹や語尾も含む)およびその品詞属性情報から構成される。
品詞属性情報は、品詞の属性を示す情報であり、具体的には、たとえば、レンマの品詞、助詞の品詞、時制である。品詞属性情報を考慮することで、語や句のみによらない細やかな抽象化が実施でき、単に語や句のみでグラフパターンを構成するよりも、類似文抽出ノイズが低減し、抽出性能が向上する。
グラフ構造データは、上記入力データと同様に、データ構造に依存せずどのようなデータ構造で表現されていてもよいが、実施例1では便宜上、リスト形式で保持されているものとする。
図3は、グラフ構造データの一例を示す説明図である。グラフ構造データ300は、グラフ構造変換部111が、テキスト101の変換結果である。グラフ構造データ300では、始め括弧「(」から終わり括弧「)」までの文字列(語句および品詞属性情報)により一つのノードが表現され、インデントによりノード間の依存関係が示されるが、表現方法は括弧やインデントに限定されない。なお、ノード間の文字列(語句および品詞属性情報)を当該ノードの属性情報と称す。
また、グラフ構造データ300において品詞属性情報の「.lemma」は、レンマ(見出し語)を示す。レンマは名詞、動詞、形容詞、形容動詞、連体詞などの内容語のほか、助動詞、接続詞、冠詞などの機能語を含んでもよい。
「.POS」(Part Of Speech)はレンマの品詞情報を示す。「.POS2」はPOSの詳細な分類である第二品詞属性情報を示す。「.casePOS」は助詞を示す。「.casePOS2」は助詞の詳細な分類である第二助詞属性情報を示す。「.suf」は助動詞、助詞の一部、補助動詞、補助形容動詞など、おもに語尾の活用や否定形、疑問形を見分けるために用いられる。また、「&」は品詞属性情報のAND条件を示すが、記号は「&」に限定されない。なお、実施例1において扱う品詞属性情報は上記にとどまるが、必ずしも上記だけの品詞属性情報に限らず、グラフ構造データ変換手法の出力に応じて、属性の追加や削除が考えられる。
図3以降において、ノードの符号をn#(#は1桁以上の番号)で表記する。また、グラフ構造データ300においてはノード間の依存関係があるため、ノード群が階層化される。具体的には、たとえば、グラフ構造データ300は、ノードn0、n01、n011、n02、n021、n0211(これらを区別しない場合は単にノードnと表記)が階層的に構成される。図3以降において、依存関係がある2つのノードn間において、親ノードnの符号は子ノードの符号に含まれるように表現されている。たとえば、ノードn01の親ノードはノードn0であり、ノードn011の親ノードはノードn01である。
なお、グラフ構造変換部111は、テキスト101をグラフ構造データ300に変換したが、すでに変換済みのグラフ構造データ300を取得する取得部として機能してもよい。
図1に戻り、付加部112は、グラフ構造変換部111から得られたテキスト101のグラフ構造データ300に対し、パターンマッチングにより該当するノードに重要箇所情報102を付与する。この際、重要箇所情報102の各要素が複数ノードに渡る可能性があるが、その場合は、付加部112は、依存関係がより上位に相当するノードに重要箇所情報102を付与することとする。なお、依存関係が存在しないグラフ構造データ300の場合、付加部112は、該当する複数ノードに重要箇所情報102を付与すればよい。以下、実施例1では便宜上、ノード間に依存関係が存在することを許容するグラフ構造データを想定する。
付加部112により、グラフ構造データ300の該当のノードに重要箇所情報102として着目箇所ID201(「#a1」、「#a2」、「#a3」)が付与されて、図3に示したグラフ構造データ300aとなる。なお、「#」は、実施例1における便宜上の表現であり、表現方法はこれらに限定されない。
重要箇所情報102が付与されたノードnの符号の末尾には、「a」が付される。たとえば、グラフ構造データ300aにおいて、ノードn0、n011、n0211には末尾に「a」が付されていないため、ノードn0、n011、n0211には重要箇所情報102が付与されていない。一方、ノードn01a、n02a、n021aには末尾に「a」が付されているため、ノードn01a、n02a、n021aには重要箇所情報102が付与されている。
抽象化部113は、付加部112から得られたテキスト101のグラフ構造データ300aに対し、重要と考えられる箇所を維持しつつ、重要とはみなされない箇所について抽象化を行い、グラフパターン131を出力する。抽象化とは、たとえば、あるノードに付与された品詞属性情報の一部を削除したり、抽象化の過程であるノードに付与された品詞属性情報がすべて削除された場合に、該当ノードを削除する操作を適用したり、量化子ノードを挿入したり、あるノードに指定した品詞属性情報が入ることを許容しない除外条件を設定する操作が含まれる。量化子ノードとは、あるノード間に任意のサブグラフが挿入されることを許容するノードである。
図4は、抽象化部113による抽象化処理の詳細な処理手順例を示すフローチャートである。まず、抽象化部113は、付加部112を介してテキスト101のグラフ構造データ300aを受け付け、グラフ構造データ300a内の各ノードに付与された属性情報の省略判定処理を実行する(ステップS401)。
図5は、属性情報の省略判定処理(ステップS401)の一例を示す説明図である。グラフ構造データ300adは、重要箇所情報102が付与されたグラフ構造データ300aを抽象化したグラフ構造データである。グラフ構造データ300adは、グラフ構造データ300aについて属性情報の省略判定処理(ステップS401)が実行されたグラフ構造データである。グラフ構造データ300adにおいて、「(_)」はノードn(たとえば、ノードn011d、n0211d)内の語句および品詞属性情報がすべて削除されたことを意味する。なお、「_」は、実施例1における便宜上の表現であり、表現方法はこれらに限定されない。
属性情報の省略判定処理(ステップS401)では、抽象化部113は、グラフ構造データ300aについて、各ノードに付与されている属性の削除を二値識別し、削除が必要な属性情報を除去する。二値識別する手法としては、たとえば、既定のルールに基づいて属性の削除を判断する手法と、機械学習モデルによりノードの周辺情報から確率的に属性の削除を判断する手法が考えられる。機械学習モデルを属性の削除を判断する手段として用いる場合は、実施例2で後述する。
既定のルールに基づく属性省略判定では、抽象化部113は、属性分岐条件情報121および属性省略情報122を参照して、各ノードに付与されている属性についてIf-else文を用いた複数条件分岐により、ノード属性情報の省略判定を実行する。属性分岐条件情報121および属性省略情報122は、それぞれ図6と図7に示すような表形式で予めデータとして保持することが考えられるが、データ形式は表形式に限定せず、どのようなデータ形式で表現されていてもよい。
図6は、属性分岐条件情報121の一例を示す説明図である。属性分岐条件情報121は、フィールドとして、ルールID601と、重要箇所付与フラグ602と、品詞属性情報603と、を有する。同一行の各フィールドの値の組み合わせが1つのルールである属性分岐条件を規定する。ルールID601は、既定のルールである属性分岐条件を一意に特定する識別情報である。重要箇所付与フラグ602は、ルールID601で特定される属性分岐条件(具体的には、品詞属性情報603)によって、重要箇所情報102が付与されているか否かを示す情報であり、「True」が重要箇所情報102が付与されていることを示し、「False」が重要箇所情報102が付与されていないことを示す。
たとえば、ルールID601が「1」のエントリ(以下、属性分岐条件1)およびルールID601が「1」のエントリ(以下、属性分岐条件2)には、「True」と規定されている。一方、ルールID601が「3」のエントリ(以下、属性分岐条件3)には、「False」と規定されている。
品詞属性情報603は、レンマ(lemma)631と、助詞(case)632と、レンマ631の品詞情報(POS)633と、第2品詞属性情報(POS)634と、助詞の助詞属性情報(casePOS)635と、第2助詞属性情報(casePOS2)636と、を有する。たとえば、属性分岐条件1には、レンマ631の品詞情報(POS)633の値が「名詞」、第2助詞属性情報(casePOS2)636の値が「接続助詞」と規定されている。
したがって、グラフ構造データ302において、重要箇所情報102が付加されており、レンマ631の品詞情報(POS)633が「名詞」でかつ第2助詞属性情報(casePOS2)636が「接続助詞」であるノードが、属性分岐条件1に該当することになる。
たとえば、グラフ構造データ300aにおいて、ノードn01aは、重要箇所情報102として着目箇所ID201の「#a1」が付加されているが、品詞情報(POS)633が「名詞」でかつ第2助詞属性情報(casePOS2)636が「係助詞」である。したがって、ノードn01aは、属性分岐条件1に該当しない。ノードn02a,ノードn021aについても同様である。
一方、属性分岐条件2については、重要箇所付与フラグ602の値が「True」であり、レンマ631の品詞情報(POS)633が「名詞」、第2品詞属性情報(POS)634が「一般」と規定されている。ノードn01aは、重要箇所情報102として着目箇所ID201の「#a1」が付加されており、品詞情報(POS)633が「名詞」でかつ第2品詞属性情報(POS)634が「一般」である。したがって、ノードn01aは、属性分岐条件2に該当する。ノードn02a,ノードn021aについては、属性分岐条件2に該当しない。
また、属性分岐条件3については、重要箇所付与フラグ602の値が「False」であり、レンマ(lemma)631が「この」、品詞属性情報(POS)633が「連体詞」と規定されている。ノードn01aの子ノード511は、重要箇所情報102が付加されておらず、レンマ(lemma)631が「この」でかつ品詞属性情報(POS)633が「連体詞」である。したがって、子ノード511は、属性分岐条件3に該当する。
図7は、属性省略情報122の一例を示す説明図である。属性省略情報122は、フィールドとして、ルールID601と、品詞属性情報703と、を有する。同一行の各フィールドの値の組み合わせが図6の属性分岐条件における属性省略を規定する。すなわち、属性分岐条件#(#はルールID601の値)を充足するノードがグラフ構造データ300aに存在する場合に、当該ノードに属性省略#が適用される。
品詞属性情報703は、品詞属性情報603と同様に、省略対象属性として、レンマ(lemma)731と、助詞(case)732と、レンマ731の品詞情報(POS)733と、第2品詞属性情報(POS2)734と、助詞の助詞属性情報(casePOS)735と、第2助詞属性情報(casePOS2)736と、を有する。品詞属性情報703は、値として、「Hold」または「Delete」を保持する。「Hold」は、省略対象属性を維持することを示し、「Delete」が省略対象属性を省略することを示す。
たとえば、図5において、属性分岐条件1を充足するノードはグラフ構造データ300aに存在しないため、属性省略1が適用されるノードはグラフ構造データ300aに存在しない。
一方、ノードn01aは、図6のルールID601が「2」のエントリである属性分岐条件2を充足する。したがって、ノードn01aには、図7のルールID601が「2」である属性省略2が適用される。属性省略2では、レンマ(lemma)731および第2品詞属性情報(POS2)734が「Delete」である。したがって、ノードn01aから「.lemma=コマンド&」と「.POS2=一般&」が削除されて、ノードn01adとなる。
また、ノードn011は、図6のルールID601が「3」のエントリである属性分岐条件3を充足する。したがって、ノードn011には、図7のルールID601が「3」である属性省略3が適用される。属性省略3では、レンマ(lemma)731および品詞属性情報(POS)733が「Delete」である。したがって、ノードn011から「.lemma=この&」と「.POS=連体詞」が削除されて、ノードn011dとなる。
このように、語句および品詞属性情報が削除されたノードn#には、末尾にdが付与され、ノードn#dとする。
品詞属性情報703は、レンマ731と、助詞732と、レンマ731の品詞情報733と、第2品詞属性情報734と、助詞735と、第2助詞属性情報736と、を有する。たとえば、ルールID701が「1」のエントリ(以下、属性省略条件1)には、レンマ731の値が「Delete」、助詞732の値が「Delete」、レンマ731の品詞情報633の値が「Hold」、第2品詞属性情報734の値が「Hold」、助詞735の値が「Hold」、第2助詞属性情報736の値が「Hold」と規定されている。したがって、グラフ構造データ302において、レンマ631の品詞情報633が「名詞」でかつ第2助詞属性情報636が「接続助詞」であれば、属性分岐条件1に該当する。
図4に戻り、抽象化部113は、属性なしノード置換処理を実行する(ステップS402)。属性なしノード置換処理(ステップS402)では、抽象化部113は、属性情報の省略判定処理(ステップS401)から受け付けた属性省略判定後のグラフ構造データ300adについて、属性情報を一切保持しないノード(以下、属性なしノード)を、量化子ノードに置換する。量化子ノードとは、任意のサブグラフ(となる属性情報)の挿入を許可するノードである。
量化子ノードは、たとえば、「*」で表記され、例外的に始め括弧「(」および終わり括弧「)」で括られないノードである。したがって、量化子ノードは、置換前の属性なしノードと依存関係があった親ノード内に包含される。すなわち、親ノードの末尾に量化子ノードを示す「*」が付与される。
図8は、属性なしノード置換処理(ステップS402)の例1を示す説明図である。グラフ構造データ300adにおいて、属性なしノードは、ノードn011dとノードn0211dである。グラフ構造データ300adqは、属性なしノード置換処理(ステップS402)により、グラフ構造データ300adにおいて属性なしノードが量化子ノードに置換されたグラフ構造データである。
グラフ構造データ300adにおいて、量化子ノード801は、属性なしノードn011dから置換されて、属性なしノードn011dと依存関係にあった親ノードn01adに引き継がれる。これにより、ノードn01adはノードn01adqとなる。
また、量化子ノード802は、属性なしノードn011dから置換されて、属性なしノードn011dと依存関係にあった親ノードn01adに引き継がれる。これにより、ノードn011dはノードn011dqとなる。
図9は、属性なしノード置換処理(ステップS402)の例2を示す説明図である。図9は、グラフ構造データ300adに替えて、グラフ構造データ900adを置換元とした例である。グラフ構造データ900adは、グラフ構造データ300adにおいて、親ノードが存在しないノードnxdおよび親ノードが属性なしノードであるノードnxydを有する。
属性なしノード置換処理(ステップS402)では、このような属性なしノードnxd、nxydは、量化子ノードに置換されることなく削除されて、グラフ構造データ300adqが出力される。
図8および図9に示したグラフ構造データ300adqを適用することにより、テキスト101のみならず、その類似文「これらのプログラムは、オペレーティングシステムの起動から呼び出されるセットアッププログラムです。」も抽出可能となる。
図4に戻り、抽象化部113は、量化子ノード挿入処理を実行する(ステップS403)。量化子ノード挿入処理(ステップS403)では、抽象化部113は、属性なしノード置換処理(ステップS402)から出力された属性なしノード置換後のグラフ構造データ300adqについて、量化子ノードを量化子ノードの挿入が必要と判断されるノード間に追加する。
量化子ノードの追加方法には、具体的には、たとえば、グラフ構造データ300adq内で依存関係のあるノードn間のすべてに量化子ノードを挿入する第1追加方法、追加対象位置の周辺のノード情報に基づいて、既定のルール(If-else文を用いた複数条件分岐)を用いて量化子ノードの追加位置を決定する第2追加方法、機械学習モデルにより量化子ノードの追加位置を決定する第3方法がある。
図10は、量化子ノードの第1追加方法の一例を示す説明図である。第1追加方法により、抽象化部113は、量化子ノードが追加されていないノードn間に量化子ノード1001~1005を追加する。なお、量化子ノード1003の追加により、ノードn02aはノードn02aqとなる。グラフ構造データ300adqについて量化子ノード挿入処理(ステップS403)が実行されたグラフ構造データを、グラフ構造データ300adqiとする。
また、第2追加方法の場合、抽象化部113は、量化子ノード挿入条件一覧123を用いる。第3追加方法については、実施例2で後述する。
図11は、量化子ノード挿入条件一覧123の一例を示す説明図である。量化子ノード挿入条件一覧123は、フィールドとして、追加ルールID1101と、親ノードの品詞属性情報1102と、子ノードの品詞属性情報1103と、を有する。追加ルールID1101は、追加ルールを一意に特定する識別情報である。追加ルールID1101が「#」(#は1から始まる昇順番号)を、挿入条件#と表記する。
親ノードの品詞属性情報1102は、依存関係のある2つのノードのうち上位のノードである親ノードのレンマ(lemma)1131と、助詞(case)1132と、レンマ1131の品詞情報(POS)1133と、第2品詞属性情報(POS)1134と、助詞の助詞属性情報(casePOS)1135と、第2助詞属性情報(casePOS2)1136と、を有する。
たとえば、挿入条件1の親ノードの品詞属性情報1102の値「P1」(以下、品詞属性情報P1)には、レンマ1131の品詞情報(POS)1133の値が「名詞」、第2助詞属性情報(casePOS2)1136の値が「接続助詞」と規定されている。
子ノードの品詞属性情報1103は、依存関係のある2つのノードのうち下位のノードである子ノードのレンマ(lemma)1131と、助詞(case)1132と、レンマ1131の品詞情報(POS)1133と、第2品詞属性情報(POS)1134と、助詞の助詞属性情報(casePOS)1135と、第2助詞属性情報(casePOS2)1136と、を有する。
たとえば、挿入条件1の子ノードの品詞属性情報1103の値「C1」(以下、品詞属性情報C1)には、レンマ1131の品詞情報(POS)1133の値が「名詞」、第2品詞属性情報(POS2)1134の値が「一般」と規定されている。
たとえば、依存関係のある2つのノードが挿入条件1に該当する場合、すなわち、親ノードが品詞属性情報P1を充足し、子ノードが品詞属性情報C1を充足する場合、その2つのノード間に量化子ノードである「*」が追加される。
量化子ノード挿入処理(ステップS403)を適用することで、類似文がテキスト101よりも複数の修飾語が付加されている場合であっても、テキスト101に対応するグラフパターン131が類似文として抽出できる可能性が向上する。
図4に戻り、抽象化部113は、除外条件設定処理(ステップS404)を実行する。除外条件設定処理(ステップS404)では、抽象化部113は、量化子ノード挿入処理(ステップS403)から出力された量化子ノード挿入後のグラフ構造データ300adqiについて、量化子ノードに抽出除外条件を設定する。
抽出除外条件の設定方法には、具体的には、たとえば、グラフ構造データ300adqi内のすべての量化子ノードに抽出除外条件を設定する第1設定方法と、重要箇所情報102が付与されているノードnの下位に位置する量化子ノード(以下、下位最隣接量化子ノード)に抽出除外条件を設定する第2設定方法がある。除外条件設定処理(ステップS404)により、類似文の誤抽出が低減する。第2設定方法について図12を用いて説明する。
図12は、除外条件設定処理(ステップS404)の一例を示す説明図である。図12は、第2設定方法により、重要箇所情報102が付与されているノードnの下位最隣接量化子ノードについて、重要箇所情報102が付与されているノードnの品詞属性情報に基づいて抽出除外条件を設定した例である。図12では、重要箇所情報102が付与されているノードnをノードn01adqとすると、その下位最隣接量化子ノードは、ノード1002である。抽象化部113は、このノード1002に抽出除外条件1200として「case!=は」を設定する。
「YYY!=zzz」(YYYは品詞属性情報、zzzは任意の文字列)は、品詞属性情報がYYYである文字列zzzは、重要箇所情報102が付与されているノードnに続く条件に一致しないことを示す条件子である。たとえば、「case!=は」は、そのノード内で、助詞「は」およびその主格を示す文字列を抽出しないことを意味する。たとえば、ノード1002は量化子ノードであるため、抽出除外条件1200に該当する「○○は」を除く文字列が抽出される。
図2に戻り、グラフパターン131は、生成装置100の出力であり、テキスト101のグラフ構造データを重要箇所情報102に基づいて抽象化したデータである。具体的には、たとえば、抽象化部113が図4のうち、属性情報の省略判定処理(ステップS401)のみ実行すれば、グラフパターン131は、グラフ構造データ300adとなる。
また、抽象化部113が属性情報の省略判定処理(ステップS401)および属性なしノード置換処理(ステップS402)のみ実行すれば、グラフパターン131は、グラフ構造データ300adqとなる。また、抽象化部113が属性情報の省略判定処理(ステップS401)~量化子ノード挿入処理(ステップS403)のみ実行すれば、グラフパターン131は、グラフ構造データ300adqiとなる。また、抽象化部113が属性情報の省略判定処理(ステップS401)~除外条件設定処理(ステップS404)を実行すれば、グラフパターン131は、グラフ構造データ300adqisとなる。
テキスト101と重要箇所情報102とにより得られるグラフパターン131(グラフ構造データ300adqis)を用いると、「このコマンドは、更新プロセスの起動から呼び出されるメインコマンドです。」のような類似文を抽出することができる。
図13は、実施例1のグラフパターン131の確認画面の一例を示す説明図である。確認画面1300は、生成装置100の出力が得られると同時に表示してもよいが、必要に応じて読み込みボタン1303を押下することで、グラフパターン131を読み込むことができる。
グラフパターン131は、パターン表示/編集エリア1306に表示される。グラフパターン131の元のテキスト101は入力文表示領域1304に表示される。重要箇所情報102が付与されたグラフ構造データ300adは重要箇所表示領域1305に表示される。利用者は編集ボタン1301を押下することで、グラフパターン131をパターン表示/編集エリア1306上で編集することができる。利用者は編集されたグラフパターン131を、保存ボタン1302を押下することにより上書き保存できる。図13のようなグラフパターン131の確認、および編集を可能とする確認画面1300は、人手によるパターン修正を可能とし、類似文抽出精度向上に寄与する。
このように、実施例1によれば、生成装置100は、テキスト101とその重要箇所情報102の入力を受け付け、テキスト101をグラフ構造データ300に変換し、重要箇所情報102をグラフ構造データ300に付与し、抽象化部113により単にレンマや句に着目するだけでなく、各ノードnに付与されたすべての品詞属性情報を活用することで、高精度なグラフパターン131を生成することができる。
実施例2について説明する。実施例2は、実施例1で示した抽象化部113の入力である属性分岐条件情報121、属性省略情報122、および量化子ノード挿入条件一覧123を、機械学習モデル1400に変更した例である。これにより、より高精度なグラフパターン131の生成が可能になる。なお、実施例2では、実施例1とは異なる点を中心に説明するため、実施例1と同一構成の説明は省略する。
図14は、実施例2にかかる生成装置の構成例を示すブロック図である。実施例2の生成装置100は、テキスト101とその重要箇所情報102、機械学習モデル1400を用いて、テキスト101を抽象化したグラフパターン131を生成する。
実施例2では、抽象化部113は、付加部112から重要箇所情報102が付加されたテキスト101のグラフ構造データ300aを受け付け、属性情報の省略判定処理(ステップS401)、属性なしノード置換処理(ステップS402)、量化子ノード挿入処理(ステップS403)および除外条件設定処理(ステップS404)を実行する。
その際、属性省略判定処理(ステップS401)と量化子ノード挿入処理(ステップS403)において、各々機械学習モデル1400を用いた判定が実行される。なお、機械学習モデル1400は、たとえば、テキスト101と重要箇所情報102、および抽象化結果であるグラフパターン131を用いて事前に学習される。
たとえば、属性省略判定処理(ステップS401)については、図6に示した品詞属性情報603を説明変数(訓練データ)とし、図7に示した品詞属性情報703を目的変数(正解データ)として学習することにより、属性省略判定処理(ステップS401)で利用可能な機械学習モデル1400が生成される。
たとえば、抽象化部113は、図6に示した品詞属性情報603のいずれかの属性分岐条件に該当した特定のノードnの属性情報とその属性分岐条件に対応する図7に示した品詞属性情報703の属性省略とに基づいて学習された機械学習モデル1400を用いて、機械学習モデル1400に特定のノードの属性情報を入力した結果出力される属性省略の対象(「Delete」)となる属性情報を削除する。
また、量化子ノード挿入処理(ステップS403)については、図11に示した親ノードの品詞属性情報1102および子ノードの品詞属性情報1103を説明変数(訓練データ)とし、追加するまたは追加しないを目的変数(正解データ)として学習することにより、量化子ノード挿入処理(ステップS403)で利用可能な機械学習モデル1400が生成される。
たとえば、抽象化部113は、図11に示した親ノードの品詞属性情報1102と子ノードの品詞属性情報1103とに基づいて学習された機械学習モデル1400を用いて、機械学習モデル1400に親ノードの品詞属性情報1102を入力した結果出力される子ノードの品詞属性情報1103を削除する。
なお、機械学習モデル1400には、ランダムフォレスト、Graph Attention Networks、ニューラルネットワークのような既知のモデルを用いることができる。なお、機械学習モデル1400には、入力として着目ノードの属性情報のみを入力する場合と、着目ノードの親ノードと子ノードを追加で入力する場合が考えられる。属性情報の特徴量化については、単語や句、および助詞は、既知の特徴量化アルゴリズムを活用可能である。
たとえば、Term Frequency Inverse Document Frequency(TF-IDF)や単語埋め込み表現の一つである、GloVeを活用することが考えられるが、具体的な方法は限定しない。また、各品詞条件、および重要箇所情報はone-hot表現により特徴量化することが考えられる。
このように、実施例2によれば、テキスト101と重要箇所情報102の入力を受け付け、追加の入力として機械学習モデル1400を受け取ることで、抽象化部113においてより高精度な分類が実行でき、高精度なグラフパターン131を生成できる。
実施例3について説明する。実施例3では、生成装置100は、実施例1で示した抽象化部113にレンマ辞書1500を追加で入力し、抽象化部113において、図16に示すように辞書適用処理を実行する。これにより、グラフパターン131の抽出精度が向上する。なお、実施例3では、実施例1とは異なる点を中心に説明するため、実施例1と同一構成の説明は省略する。
図15は、実施例3にかかる生成装置の構成例を示すブロック図である。実施例3にかかる生成装置100は、テキスト101、重要箇所情報102、属性分岐条件情報121、属性省略情報122、量化子ノード挿入条件一覧123およびレンマ辞書1500を入力にとり、テキスト101が抽象化されたグラフパターン131を生成する。
レンマ辞書1500は、レンマについて意味的なグループを構成し、人手または既知のアルゴリズムに従って作成される。たとえば、類似語辞書を参照して、あるレンマに対して意味的なグループを構成する方法によって作成されるが、レンマについてのグループを構成する手法であれば何でもよい。
図16は、レンマ辞書1500の一例を示す説明図である。レンマ辞書1500は、フィールドとして、グループID1601と、レンマグループ1602と、を有する。同一行の各フィールドの値の組み合わせが1つのレンマのグループを構成する。グループID1601は、レンマのグループを一意に特定する識別情報である。レンマグループ1602は、そのグループID1601によって特定されたグループに属する1以上のレンマである。
図17は、実施例3にかかる抽象化部113による抽象化処理の詳細な処理手順例を示すフローチャートである。除外条件設定処理(ステップS404)のあと、抽象化部113は、レンマ辞書適用処理(ステップS1705)を実行する。レンマ辞書適用処理(ステップS1705)では、抽象化部113は、レンマ辞書適用処理(ステップS1705)で出力されたグラフ構造データ300adqisを受け取り、レンマ辞書1500内のあるレンマについて、そのレンマが属する辞書グループ内のレンマグループ1602をすべて許容するようにグラフパターン131を更新する。
たとえば、図12のグラフ構造データ300adqisに対して図16に示したレンマ辞書1500を適用すると、ノードn02aqの「lemma=呼び出す」だけでなく、「呼び出す」と同一グループのレンマグループ1602の「呼ぶ」や「招く」がレンマ条件として許容される。すなわち、ノードn02aqの「lemma=呼び出す」が「lemma=Call_verb」に更新される。
このように、実施例3によれば、テキスト101、重要箇所情報102、属性分岐条件情報121、属性省略情報122、および量化子ノード挿入条件一覧123の入力を受け付け、追加の入力としてレンマ辞書1500を受け取ることで、より広範な類似文を抽出可能なグラフパターン131の生成が可能になる。
つぎに、実施例4について説明する。実施例1~3では、テキスト101の記述言語を日本語としたが、実施例4では、テキスト101の記述言語を英語とし、生成装置100は英語のグラフパターン131を出力する。実施例4では、実施例1~実施例3との相違点を中心に説明するため、実施例1~実施例3についての説明は省略する。
実施例4では、英語のテキスト101の例として、「This command is a subcommand called when the Database instance is shutdown.」とする。
図18は、実施例4にかかる重要箇所情報1800の一例を示す説明図である。重要箇所情報1800は、重要箇所情報102が英語で記述されたデータである。英語のテキスト101は、分かち書きで記述されるため、図18に示すように、重要箇所情報1800は、ID201が「a1」、「a2」のエントリのように、複数語で構成されてもよい。
図19は、英語のテキスト101がグラフ構造変換部111に入力された場合の英語のグラフ構造データの画面出力例を示す説明図である。英語のグラフ構造データ1900は、図3に示したグラフ構造データ300に対応する。テキスト101が英語の場合、グラフ構造変換部111は、たとえば、spaCyやStanford CoreNLPを既知のグラフ構造変換アルゴリズムとして活用可能である。
英語のグラフ構造データ1900において、品詞属性情報の「.type」は、係り受けの種類を示し、「.POS」は品詞情報を表し、「.lemma」は内容語を示す。たとえば、1行目の「.type=root&.POS=NN&.lemma=subcommand」は、係り受けの種類がルートであり、かつ、品詞が名詞単数形(noun singular)であり、かつ、その内容語が「subcommand」であることを指定する記述である。
また、図示はしないが、付加部112は、実施例1と同様、英語のグラフ構造データ1900に重要箇所情報1800を付加する。重要箇所情報1800が付加された英語のグラフ構造データ1900を、重要箇所情報1800が付加されていない英語のグラフ構造データ1900と区別するため、英語のグラフ構造データ1900aと表記する。
抽象化部113は、付加部112から英語のグラフ構造データ1900aを受け付け、属性省略判定処理(ステップS401)を実行する。
図20は、実施例4にかかる属性分岐条件情報の一例を示す説明図である。属性分岐条件情報2000は、属性分岐条件情報121と同様、フィールドとして、ルールID601と、重要箇所付与フラグ602と、品詞属性情報603と、を有する。同一行の各フィールドの値の組み合わせが1つのルールである属性分岐条件を規定する。
品詞属性情報603は、レンマ(lemma)631と、レンマ631の品詞情報(POS)633と、ノード間の関係(type)2001と、を有する。ノード間の関係(type)2001は、Universal Dependenciesの依存関係(Dependency Relations)によって規定される。
図21は、実施例4にかかる属性省略情報の一例を示す説明図である。属性省略情報2100は、属性省略情報122と同様、フィールドとして、ルールID601と、品詞属性情報703と、を有する。同一行の各フィールドの値の組み合わせが1つのルールである属性分岐条件を規定する。
品詞属性情報703は、レンマ(lemma)731と、レンマ731の品詞情報(POS)733と、のノード間の関係(type)2101と、を有する。ノード間の関係(type)2101は、ノード間の関係(type)2001と同様、Universal Dependenciesの依存関係(Dependency Relations)によって規定される。
なお、ステップS401やステップS403において、機械学習による判定を実行する場合、属性情報の特徴量化については、たとえば、係り受けの種類、品詞情報、および重要箇所情報はone-hot表現、内容語についてはTF―IDFや単語埋め込み表現のGloVeやWord2Vecを活用してもよい。
図22は、実施例4にかかるレンマ辞書の一例を示す説明図である。レンマ辞書2200は、フィールドとして、グループID2201と、レンマグループ2202と、を有する。同一行の各フィールドの値の組み合わせが1つのレンマのグループを構成する。グループID2201は、内用語グループを一意に特定する識別情報である。レンマグループ1602は、そのグループID1601によって特定された内用語グループに属する1以上の内用語である。
たとえば、レンマ辞書2200を、グラフ構造データ1900に適用すると、6行目の「call」を内容語として指定するノードは、「call」に加え、「cause」や「activate」などが内容語の条件として許容される。
図23は、実施例4にかかるグラフパターンの一例を示す説明図である。グラフパターン131を用いると、たとえば、英語のテキスト101に類似する「This command is a main command called when the update process is started.」のような類似文を抽出することができる。ここで、「|」はOR条件を示す記号であるが、「|」は実施例4における便宜上の表現であり、表現方法はこれらに限定されない。
このように、実施例4によれば、英語のテキスト101と対応する重要箇所情報1800から、英語の類似文を抽出可能なグラフパターン131を生成できる。
上述した実施例1~実施例4に示した生成装置100によって生成されたグラフパターン131を用いて、類似文とのパターンマッチングが可能になる。具体的には、たとえば、生成装置100は、グラフ構造変換部111により、類似文「このコマンドは,更新プロセスの起動から呼び出されるメインコマンドです。」をグラフ構造データに変換する(以下、「類似文グラフ構造データ」と称す。)。生成装置100は、グラフパターン131で類似文グラフ構造データをパターンマッチングする。これにより、類似文グラフ構造データを構成するノード群のうち、グラフパターン131に該当する語句として、たとえば、「呼び出される。」、「このコマンドは」、「更新プロセスの起動から」が抽出される。
図24は、実施例1~実施例4に示した生成装置100のハードウェア構成例を示すブロック図である。生成装置100は、たとえば、プロセッサ(CPU)2401、補助記憶装置2402、メモリ2403、入力デバイス2404、出力デバイス2405、および通信インタフェース2406からなる計算機によって構成される。コンピュータ2400のハードウェア構成例の構成要素である、2401~2406は相互に接続されており、必要に応じて通信することができるものとする。
プロセッサ2401は、メモリ2403に格納されたプログラムを実行する。プロセッサ2401は、たとえば、単一の演算装置、および処理装置だけでなく、任意の個数の演算装置、および処理装置から構成されていてもよい。メモリ2403は、不揮発性の記憶素子であるROM(Read Only Memory)、および揮発性の記憶素子であるRAM(Random Access Memory)を含む。ROMは、不変のプログラムなどを格納する。RAMは、プロセッサ2401が実行するプログラム、およびプログラムの実行時に使用されるデータを一時的に格納する。
補助記憶装置2402は、たとえば、磁気記憶装置(Hard Disk Drive)やフラッシュメモリ(Solid State Drive)等の大容量かつ不揮発性の記憶装置である。ほまた、補助記憶装置2402は、プロセッサ2401が実行するプログラム、およびプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置2402からロードされて、メモリ2403に読み込まれ、プロセッサ2401によって実行される。
具体的には、たとえば、生成装置100の各処理部は、補助記憶装置2402に格納された非一時的なプログラムをメモリ2403にロードし、プロセッサ2401が前記ロードされたプログラムを実行することによって実現される。また、実施例1~実施例4の各処理部において用いられる、テキスト101、重要箇所情報102、1800、属性分岐条件情報121、2000、属性省略情報122、2100、量化子ノード挿入条件一覧123、機械学習モデル1400、レンマ辞書1500、2200、およびグラフパターン131の各データは、たとえば、補助記憶装置2402に格納される。
コンピュータ2400は、入力デバイス2404を有していてもよい。入力デバイス2404は、利用者が生成装置100にテキスト101と重要箇所情報102、1800を入力する装置である。入力デバイス2404には、たとえば、キーボードやマウスなどがある。入力デバイス2404からの入力は、補助記憶装置2402やメモリ2403に格納されてもよい。
コンピュータ2400は、出力デバイス2405を有していてもよい。出力デバイス2405は、たとえば、ディスプレイやプリンタなどが接続され、生成装置100が出力する実行結果を利用者に提示する。出力デバイス2405が、たとえば、ディスプレイまたはプリンタの場合、グラフパターン131を表示することができる。出力デバイス2405がディスプレイの場合、たとえば、グラフパターン131を確認するための画面を表示することができる。
通信インタフェース2406は、所定のプロトコルにしたがって、他装置との通信を制御するネットワークインタフェース装置である。通信インタフェース2406は、たとえば、USB等のシリアルインタフェースを含む。生成装置100はネットワークを介して任意の端末からデータを送受信することができる。
生成装置100において、たとえば、プロセッサ2401により実行されるプログラムは、OS(Operating System)や任意のソフトウェアを含むことができる。この場合、OSや任意のソフトウェアは、たとえば、補助記憶装置2402に格納され、必要に応じてメモリ2403にロードされる。
コンピュータ2400の実施形態には、様々な形式が考えられる。たとえば、生成装置100は、物理的に一つの計算機上で、または、論理的、あるいは物理的に構成された複数の計算機上で構成される計算機システムにより実装することができる。また、複数の物理的計算機資源上に実現された、仮想計算機上で動作してもよい。
また、上述した実施例1~実施例4において、抽象化部113は、矛盾が生じない限り、属性情報の省略判定処理(ステップS401)、属性なしノード置換処理(ステップS402)、量化子ノード挿入処理(ステップS403)、除外条件設定処理(ステップS404)、レンマ辞書適用処理(ステップS1705)のうち少なくとも1つを実行すればよい。また、抽象化部113は、属性情報の省略判定処理(ステップS401)、属性なしノード置換処理(ステップS402)、量化子ノード挿入処理(ステップS403)、除外条件設定処理(ステップS404)レンマ辞書適用処理(ステップS1705)の実行順序も、矛盾が生じない限り異なる順序でもよい。
たとえば、属性情報の省略判定処理(ステップS401)で属性情報が省略された属性なしノードについて、属性なしノード置換処理(ステップS402)を実行する場合には、属性なしノード置換処理(ステップS402)よりも先に属性情報の省略判定処理(ステップS401)が必ず実行される必要がある。
また、上述した実施例1~実施例4にかかる生成装置100は、下記(1)~(15)のように構成することもできる。
(1)生成装置100は、文内の語句とその品詞に関する情報とを含む属性情報をノードとし前記ノード間の依存関係を示すグラフ構造データ300を取得する取得部(グラフ構造変換部111)と、前記取得部によって取得されたグラフ構造データ300を、前記ノード内の属性情報に基づいて抽象化する抽象化部113と、を有する。
(2)上記(1)の生成装置100において、抽象化部113は、特定のノード内の属性情報を削除することにより、グラフ構造データ300aを抽象化して、グラフ構造データ330adを出力する。
(3)上記(2)の生成装置100において、抽象化部113は、第1条件(属性分岐条件)に該当する前記特定のノードの属性情報を削除することにより、グラフ構造データ300aを抽象化して、グラフ構造データ330adを出力する。
(4)上記(3)の生成装置100において、抽象化部113は、前記特定のノードの属性情報のうち第2条件(属性分岐条件と同一ルールID601の属性省略)に該当する特定の属性情報を削除することにより、グラフ構造データ300aを抽象化して、グラフ構造データ330adを出力する。
(5)上記(3)の生成装置100において、抽象化部113は、前記第1条件に該当した前記特定のノードの属性情報と第2条件に該当した特定の属性情報とに基づいて学習された機械学習モデル1400を用いて、機械学習モデル1400に前記特定のノードの属性情報を入力した結果出力される前記特定の属性情報を削除することにより、グラフ構造データ300aを抽象化して、グラフ構造データ330adを出力する。
(6)上記(1)の生成装置100において、前記抽象化部113は、前記グラフ構造データ300ad内のノード群のうち属性情報が存在しないノードを削除することにより、グラフ構造データ300adを抽象化して、グラフ構造データ330adqを出力する。
(7)上記(1)の生成装置100において、抽象化部113は、前記グラフ構造データ300ad内のノード群のうち属性情報が存在しないノードを、任意の属性情報の挿入を許可する量化子ノード(*)に置換することにより、グラフ構造データ300adを抽象化して、グラフ構造データ330adqを出力する。
(8)上記(1)の生成装置100において、前記抽象化部113は、依存関係がある2つのノードのうち下位ノードの属性情報を、前記量化子ノードに置換することにより、グラフ構造データ300adqを抽象化して、グラフ構造データ330adqiを出力する。
(9)上記(7)の生成装置100において、抽象化部113は、依存関係がある2つのノードのうち上位ノードの属性情報が第1条件(親ノードの品詞属性情報1102)にし、前記2つのノードのうち下位ノードの属性情報が第2条件(子ノードの品詞属性情報1103)に該当する場合、前記下位ノードの属性情報を、前記量化子ノードに置換することにより、グラフ構造データ300adqを抽象化して、グラフ構造データ330adqiを出力する。
(10)上記(7)の生成装置100において、抽象化部113は、依存関係がある2つのノードのうち第1条件に該当した上位ノードの属性情報と第2条件に該当した下位ノードの属性情報とに基づいて学習された機械学習モデル1400を用いて、前記機械学習モデルに前記上位ノードの属性情報を入力した結果出力される前記下位ノードの属性情報を、前記量化子ノードに置換することにより、グラフ構造データ300adqを抽象化して、グラフ構造データ330adqiを出力する。
(11)上記(1)の生成装置100において、抽象化部113は、前記グラフ構造データ300のいずれかのノードに、所定の語句(たとえば、「は」およびその主格)の抽出を除外する抽出除外条件1200を設定することにより、グラフ構造データ300adqiを抽象化して、グラフ構造データ330adqisを出力する。
(12)上記(11)の生成装置100において、抽象化部113は、前記グラフ構造データの特定のノードn01adqに、所定の語句の抽出を除外する抽出除外条件1200を設定することにより、グラフ構造データ300adqiを抽象化して、グラフ構造データ330adqisを出力する。
(13)上記(1)の生成装置100において、抽象化部113は、語句群の各々を意味的なグループに分類したレンマ辞書1500を参照して、前記ノード内の語句を当該語句を含むグループの識別情報(グループID1601)に変換することにより、前記グラフ構造データ300を抽象化する。
(14)上記(1)の生成装置100において、前記取得部は、前記文を取得して、前記文を前記グラフ構造データに変換する。
(15)上記(1)の生成装置100は、さらに、語句202とその識別情報(着目箇所ID201)とを有する重要箇所情報102を参照して、語句202を含むノードにその識別情報(着目箇所ID201)を付加する付加部112を有する。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
100 生成装置
101 テキスト
102 重要箇所情報
111 グラフ構造変換部
112 付加部
113 抽象化部
121 属性分岐条件情報
122 属性省略情報
123 量化子ノード挿入条件一覧
131 グラフパターン
202 語句
300 グラフ構造データ
1400 機械学習モデル
1500 レンマ辞書

Claims (15)

  1. 文内の語句とその品詞に関する情報とを含む属性情報をノードとし前記ノード間の依存関係を示すグラフ構造データを取得する取得部と、
    前記取得部によって取得されたグラフ構造データを、前記ノード内の属性情報に基づいて抽象化する抽象化部と、
    を有することを特徴とする生成装置。
  2. 請求項1に記載の生成装置であって、
    前記抽象化部は、特定のノード内の属性情報を削除することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  3. 請求項2に記載の生成装置であって、
    前記抽象化部は、第1条件に該当する前記特定のノードの属性情報を削除することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  4. 請求項3に記載の生成装置であって、
    前記抽象化部は、前記特定のノードの属性情報のうち第2条件に該当する特定の属性情報を削除することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  5. 請求項3に記載の生成装置であって、
    前記抽象化部は、前記第1条件に該当した前記特定のノードの属性情報と第2条件に該当した特定の属性情報とに基づいて学習された機械学習モデルを用いて、前記機械学習モデルに前記特定のノードの属性情報を入力した結果出力される前記特定の属性情報を削除することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  6. 請求項1に記載の生成装置であって、
    前記抽象化部は、前記グラフ構造データ内のノード群のうち属性情報が存在しないノードを削除することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  7. 請求項1に記載の生成装置であって、
    前記抽象化部は、前記グラフ構造データ内のノード群のうち属性情報が存在しないノードを、任意の属性情報の挿入を許可する量化子ノードに置換することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  8. 請求項7に記載の生成装置であって、
    前記抽象化部は、依存関係がある2つのノードのうち下位ノードの属性情報を、前記量化子ノードに置換することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  9. 請求項7に記載の生成装置であって、
    前記抽象化部は、依存関係がある2つのノードのうち上位ノードの属性情報が第1条件にし、前記2つのノードのうち下位ノードの属性情報が第2条件に該当する場合、前記下位ノードの属性情報を、前記量化子ノードに置換することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  10. 請求項7に記載の生成装置であって、
    前記抽象化部は、依存関係がある2つのノードのうち第1条件に該当した上位ノードの属性情報と第2条件に該当した下位ノードの属性情報とに基づいて学習された機械学習モデルを用いて、前記機械学習モデルに前記上位ノードの属性情報を入力した結果出力される前記下位ノードの属性情報を、前記量化子ノードに置換することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  11. 請求項1に記載の生成装置であって、
    前記抽象化部は、前記グラフ構造データのいずれかのノードに、所定の語句の抽出を除外する除外条件を設定することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  12. 請求項11に記載の生成装置であって、
    前記抽象化部は、前記グラフ構造データの特定のノードに、所定の語句の抽出を除外する除外条件を設定することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  13. 請求項1に記載の生成装置であって、
    前記抽象化部は、語句群の各々を意味的なグループに分類した辞書を参照して、前記ノード内の語句を当該語句を含むグループの識別情報に変換することにより、前記グラフ構造データを抽象化する、
    ことを特徴とする生成装置。
  14. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する生成装置による生成方法であって、
    前記プロセッサは、
    文内の語句とその品詞に関する情報とを含む属性情報をノードとし前記ノード間の依存関係を示すグラフ構造データを取得する取得処理と、
    前記取得処理によって取得されたグラフ構造データを、前記ノード内の属性情報に基づいて抽象化する抽象化処理と、
    を実行することを特徴とする生成方法。
  15. プロセッサに、
    文内の語句とその品詞に関する情報とを含む属性情報をノードとし前記ノード間の依存関係を示すグラフ構造データを取得する取得処理と、
    前記取得処理によって取得されたグラフ構造データを、前記ノード内の属性情報に基づいて抽象化する抽象化処理と、
    を実行させることを特徴とする生成プログラム。
JP2022062272A 2022-04-04 2022-04-04 生成装置、生成方法、および生成プログラム Pending JP2023152343A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022062272A JP2023152343A (ja) 2022-04-04 2022-04-04 生成装置、生成方法、および生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022062272A JP2023152343A (ja) 2022-04-04 2022-04-04 生成装置、生成方法、および生成プログラム

Publications (1)

Publication Number Publication Date
JP2023152343A true JP2023152343A (ja) 2023-10-17

Family

ID=88349517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022062272A Pending JP2023152343A (ja) 2022-04-04 2022-04-04 生成装置、生成方法、および生成プログラム

Country Status (1)

Country Link
JP (1) JP2023152343A (ja)

Similar Documents

Publication Publication Date Title
US5895446A (en) Pattern-based translation method and system
US9846692B2 (en) Method and system for machine-based extraction and interpretation of textual information
US8214199B2 (en) Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8195447B2 (en) Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9098489B2 (en) Method and system for semantic searching
US9588958B2 (en) Cross-language text classification
US20140156282A1 (en) Method and system for controlling target applications based upon a natural language command string
US20080086298A1 (en) Method and system for translating sentences between langauges
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
US20170286103A1 (en) Identifying and correlating semantic bias for code evaluation
US11170169B2 (en) System and method for language-independent contextual embedding
JP4311772B2 (ja) 言語ストリング解析方法および言語ストリング解析システム
Díez Platas et al. Medieval Spanish (12th–15th centuries) named entity recognition and attribute annotation system based on contextual information
CN112965909B (zh) 测试数据、测试用例生成方法及系统、存储介质
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2023152343A (ja) 生成装置、生成方法、および生成プログラム
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
US20040054677A1 (en) Method for processing text in a computer and a computer
JP6689466B1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
Jabbar et al. An Analytical Analysis of Text Stemming Methodologies in Information Retrieval and Natural Language Processing Systems
JP7227705B2 (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム
JP3898615B2 (ja) 短縮語作成支援装置および短縮語作成支援プログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
Dale et al. Two investigations into intelligent text processing