JP6569543B2

JP6569543B2 - 短縮文生成装置、方法およびプログラム。

Info

Publication number: JP6569543B2
Application number: JP2016010102A
Authority: JP
Inventors: 片江　伸之; 伸之片江
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-01-21
Filing date: 2016-01-21
Publication date: 2019-09-04
Anticipated expiration: 2036-01-21
Also published as: JP2017130115A

Description

開示の技術は、短縮文を生成する技術に関する。

入力文書を自動的に短く簡潔な文書に変換する文書要約技術が存在する。文書要約技術では、入力文書から重要文を抽出し、抽出した重要文を短縮することにより、要約文を生成する方式が一般的である。

文を短縮する方法としては、入力文のツリー構造（係り受け構造など）において、不要な部分を枝刈りする方法が知られている。例えば、特許文献１には、形態素解析及び係り受け解析済みの入力文の依存構造に基づいて、当該入力文を構成する文節を組み合わせて短縮文の候補を生成する技術が提案されている。この技術では、コーパスから得られる任意の単語の重要度、及び任意の文節間の連接確率を用いて各候補の生成確率を求め、予め指定された長さの範囲で最も生成確率が高い要約文の候補を出力する。

特開２０１０−１４０４６８号公報

しかしながら、従来技術では、単語の重要度及び前後の文節間の連接確率を用いて生成確率を求めているため、例えば、必須格が欠落しているような不自然な文であっても、生成確率が高くなる場合があり、その候補が短縮文として採用されてしまう可能性がある。また、一方で、候補の一部に、単語の重要度又は連接確率の低い部分が含まれる場合には、その候補が自然な文であっても、その候補に対する生成確率は低くなり、短縮文として採用されない可能性がある。

一つの側面では、本発明は、自然な短縮文を生成することを目的とする。

上記課題を解決する為に、一つの実施形態においては、短縮文生成装置は、文を構成する複数の構成要素から一部の構成要素を除外した短縮文を生成する生成装置であって、前記複数の構成要素のうち文法的又は概念的関係で連結される２つの構成要素間の特徴毎に、該２つの構成要素を組として前記短縮文に残すかを判断するための、第一の指標を記憶する第一の記憶部と、前記２つの構成要素の一方が用言、他方が該用言に対する格である場合に、該用言が持つ意味に応じて、該２つの構成要素を組として前記短縮文に残すかを判断するための、第二の指標を記憶する第二の記憶部と、前記文を構成する複数の構成要素において、前記文法的又は前記概念的関係に連結された２つの構成要素の組ごとに、前記第一の指標と前記第二の指標とに基づき、前記複数の構成要素から前記一部の構成要素を除外する事で、前記短縮文を生成する生成部とを有する。

第１実施形態に係る短縮文生成装置の概略構成を示す機能ブロック図である。文例、ツリー構造、及びノード組を説明するための図である。第１実施形態における結合確率テーブルの一例を示す図である。第１実施形態における出現確率テーブルの一例を示す図である。第１実施形態に係る短縮文生成装置として機能するコンピュータの概略構成を示すブロック図である。結合確率テーブル生成処理の一例を示すフローチャートである。出現確率テーブル生成処理の一例を示すフローチャートである。第１実施形態における短縮文生成処理の一例を示すフローチャートである。第１実施形態における短縮文生成処理の一例を示すフローチャートである。第２実施形態に係る短縮文生成装置の概略構成を示す機能ブロック図である。概念構造解析によるツリー構造の一例を示す図である。ノード組の設定を説明するための図（その１）である。第２実施形態における結合確率テーブルの一例である。ノード組の設定を説明するための図（その２）である。第２実施形態における出現確率テーブルの一例である。第２実施形態に係る短縮文生成装置として機能するコンピュータの概略構成を示すブロック図である。第２実施形態における短縮文生成処理の一例を示すフローチャートである。第２実施形態における短縮文生成処理の一例を示すフローチャートである。結合確率積の導出を説明するための図である。結合確率積が付与された後のツリー構造のイメージ図である。第二の閾値が、「−０．２」に設定されている場合の、必須結合の特定結果の例である。必須結合が設定された後のツリー構造のイメージ図である。第２実施形態に係る短縮文候補生成処理の一例を示すフローチャートである。配列に格納された結合確率積の図である。結合確率積「−１．４２」が第一の閾値に設定された場合の短文候補生成を説明するための図である。結合確率積「−１．８１」が第一の閾値に設定された場合の短文候補生成を説明するための図である。結合確率積「−１．９２」が第一の閾値に設定された場合の短文候補生成を説明するための図である。バッファに格納されている短縮文候補の一覧を示す図である。第３実施形態に係る短縮文生成装置の概略構成を示す機能ブロック図である。対象言語が英語である場合の、結合確率テーブルのデータ構成例である。対象言語が英語である場合の、出現確率テーブルのデータ構成例である。重み値テーブルのデータ構成例である。第３実施形態に係る短縮文生成装置として機能するコンピュータの概略構成を示すブロック図である。第３実施例に係る短縮文生成処理の一例を示すフローチャートである。第３実施例に係る短縮文生成処理の一例を示すフローチャートである。概念構造解析によるツリー構造の一例を示す図である。評価値の導出を説明するための図である。評価値が付与された後のツリー構造のイメージ図である。第３実施形態に係る短縮文候補生成処理の一例を示すフローチャートである。配列に格納された評価値の図である。バッファに格納されている短縮文候補の一覧を示す図である。追加処理の一例を示すフローチャートである。比較例を説明するための図（その１）である。比較例を説明するための図（その２）である。比較例により生成される短縮文候補の一覧である。

以下、図面を参照して、開示の技術に関する実施形態の一例を詳細に説明する。

＜第１実施形態＞
図１は、第１実施形態に係る短縮文生成装置の概略構成を示す機能ブロック図である。図１に示すように、第１実施形態に係る短縮文生成装置１００は、文入力部１１と、形態素解析部１２と、係り受け解析部１３と、結合確率テーブル生成部１４と、結合確率付与部１５と、閾値設定部１６と、短縮文出力部１９とを含む。さらに、短縮文生成装置１００は、出現確率テーブル生成部１１１、必須結合判定部１１３、短縮文生成部１１７を含む。また、短縮文生成装置１０には、結合確率テーブル２０および出現確率テーブル１１２が記憶される。なお、短縮文生成部１１７は、開示の技術の生成部の一例である。結合確率テーブル２０は、第一の記憶部に記憶される情報の一例である。また、出現確率テーブル１１２は、第二の記憶部に記憶される情報の一例である。

短縮文生成装置１００には、後述する学習処理に用いられる複数の文例、又は、短縮文生成処理において短縮文を生成する対象となる入力文（以下、「短縮対象文」という）が入力される。なお、文例および入力文は、複数の構成要素からなる。そして、短縮文は、入力文を構成する複数の構成要素から一部の構成要素を除外する事で、生成される。なお、学習処理は、結合確率テーブル２０および出現確率テーブル１１２を生成する処理である。

図２は、文例、ツリー構造、及びノード組を説明するための図である。図２に示すように、文例３１は、原文３２と、その原文３２を短縮した短縮文３３とを組にしたものである。短縮文３３は、例えば、必須格の欠落が生じていないような自然な短縮文を人手により用意する。

文例３１又は短縮対象文は、短縮文生成装置１００に接続されたキーボード等の入力装置を介して入力したり、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＵＳＢメモリやＣＤ−ＲＯＭなどの記憶媒体、またはネットワークを介して接続された外部記憶装置等から読み込むことにより入力したりすることができる。なお、本実施形態では、文例３１又は短縮対象文は、テキストデータで入力される場合について説明するが、音声データで入力し、音声認識によりテキストデータに変換する方式としてもよい。

文入力部１１は、短縮文生成装置１００に入力された複数の文例３１を受け付け、形態素解析部１２へ受け渡す。なお、短縮対象文が入力された場合にも、文入力部１１は、入力された短縮対象文を、形態素解析部１２へ受け渡す。

形態素解析部１２は、形態素解析辞書を参照して、文例３１に含まれる原文を形態素単位に分解し、各形態素に、その形態素の品詞等の情報を付与する。なお、短縮対象文が入力された場合にも、形態素解析部１２は、短縮対象文を形態素単位に分解し、各形態素に、その形態素の品詞等の情報を付与する。

係り受け解析部１３は、形態素解析結果に基づいて、例えば、名詞と後置詞（助詞）とを１つにまとめるなどの処理により、原文３２の各々の文節単位を解析し、係り受けの規則に従って、文節間の係り受け関係を解析する。これにより、原文３２の各々を、原文３２の各々に含まれる文節間を係り受け関係に基づいて連結したツリー構造で表現することができる。なお、短縮対象文が入力された場合にも、係り受け解析部１３は、形態素解析結果に基づいて、文節間の係り受け関係を解析する。

ここから、結合確率テーブル２０および出現確率テーブル１１２の生成方法について、説明する。図２に示すように、原文３２（又は短縮対象文）に含まれる文節の各々をノードで表し、係り受け関係にある文節間に対応するノード間を線で連結して、ツリー構造３４を表現する。

まずは、結合確率テーブルについて説明する。結合確率テーブル生成部１４は、短縮文生成装置１００に複数の文例が入力された場合、すなわち、結合確率テーブル２０の生成時に、機能する機能部である。結合確率テーブル生成部１４は、複数の文例３１に基づいて、原文３２を表すツリー構造３４に含まれる各文節間の連結が、その原文３２に対応する短縮文３３において残存する確率を、文節間の係り受け関係の属性毎に導出する。原文３２を表すツリー構造３４に含まれる各文節間の連結が、その原文３２に対応する短縮文３３において残存する確率は、以下、結合確率と称される。また、結合確率は、文を構成する複数の構成要素のうち、文法的又は概念的関係で連結される２つの構成要素間の特徴毎に、２つの構成要素を組として短縮文３３に残すかを判断するための、第一の指標の一例である。

具体的には、結合確率テーブル生成部１４は、ツリー構造３４の各々から、線で連結された２つのノードをノード組３５として抽出する。結合確率テーブル生成部１４は、ノード組３５のうち、原文３２において係り元となる文節に対応するノードをＦＲＯＭノード、係り先となる文節に対応するノードをＴＯノードとして特定する。例えば、図２において、破線で囲んだノード組３５Ａでは、文節「論客が」に対応するノードがＦＲＯＭノード、文節「去った」に対応するノードがＴＯノードとして特定される。なお、以下では、文節「Ａ」に対応するノードをノード「Ａ」と表記する。また、個々のノード組を区別なく説明する場合には、単に「ノード組３５」と表記し、個々のノード組を区別する場合には、「ノード組３５Ａ」、「ノード組３５Ｂ」、・・・のように、アルファベット記号を付加した符号で表記する。

結合確率テーブル生成部１４は、全ての文例３１の原文３２の各々を表すツリー構造３４の各々に含まれる全てのノード組３５から、属性が同一のノード組３５について、ノード組の属性毎の結合確率を導出する。ノード組の属性毎の結合確率とは、その属性に該当するノード組が枝刈りされずに短縮文に残存する確率である。また、ノード組の属性とは、ノード組３５が有する文法的特徴であり、例えば、ＦＲＯＭノード又はＴＯノードに対応する文節に、特定の品詞の形態素が含まれるか又は含まれないか等の情報である。例えば、「ＦＲＯＭノードが助詞「が」を含む」、「ＦＲＯＭノードが助詞「が」を含まない」、「ＴＯノードが動詞を含む」、「ＴＯノードが動詞を含まない」などを、ノード組の属性とすることができる。なお、１つのノード組３５が複数の属性に該当する場合がある。

結合確率テーブル生成部１４は、例えば、下記（１）式により、属性ｉのノード組の結合確率を導出する。

（１）式において、「属性ｉのノード組の数」とは、全てのノード組３５のうち、属性ｉに該当するノード組３５の数である。「短縮文に残存する属性ｉのノード組の数」とは、属性ｉに該当するノード組３５であって、ノード組３５に含まれる２つのノードに対応する文節が、そのノード組３５を含む原文３２を短縮した短縮文３３に残存しているノード組の数である。短縮文３３に残存しているノード組３５、すなわち、短縮文３３生成の際にノード間が枝刈りされなかったノード組３５の数が多いほど、結合確率が高くなる。

図２を参照して、短縮文に残存するノード組３５について説明する。なお、図２に示すツリー構造３４では、短縮文に残存するノードを、太線枠のノードで示している。図２において、破線で囲んだノード組３５Ａ（ＦＲＯＭノード「論客が」、ＴＯノード「去った」）は、両ノードとも短縮文に残存する。すなわち、ノード組３５Ａのノード間は枝刈りされない。一方、図２において、一点破線で囲んだノード組３５Ｂ（ＦＲＯＭノード「日」、ＴＯノード「去った」）は、ノード「去った」は短縮文３３に残存するが、ノード「日」は短縮文に残存しない。すなわち、ノード「日」とノード「去った」との間で、枝刈りされる。なお、図２において、二点破線で囲んだノード組３５Ｃのように、両ノードとも短縮文３３に含まれない場合は、結合確率の導出に用いるノード組の対象としない。

結合確率テーブル生成部１４は、複数の文例３１を用いて、例えば上記（１）式により導出したノード組の属性毎の結合確率を、例えば図３に示すような結合確率テーブル２０に格納する。

図３は、第１実施形態における結合確率テーブルの一例を示す図である。図３の例では、１つのノード組の属性に対する１つの結合確率の値が、１エントリとして格納されている。なお、図３の例では、結合確率を対数表示している。結合確率テーブル生成部１４は、生成した結合確率テーブル２０を所定の記憶領域に記憶する。

次に、出現確率テーブルについて説明する。出現確率テーブル生成部１１１は、短縮文生成装置１００に複数の文例が入力された場合、すなわち、出現確率テーブル１１２の生成時に、機能する機能部である。出現確率テーブル生成部１１１は、複数の文例３１に基づいて、原文３２を表すツリー構造３４に含まれる、用言ノードと該用言に対する格ノードとの間の連結が、その原文３２に対応する短縮文３３において残存する確率を、用言ごとに、かつ、属性毎に導出する。出現確率は、原文３２を表すツリー構造３４に含まれる、用言ノードと該用言に対する格ノードとの間の連結が、その原文３２に対応する短縮文３３において残存する確率である。また、出現確率は、２つの構成要素の一方が用言、他方が該用言に対する格である場合に、用言が持つ意味に応じて、２つの構成要素を組として短縮文に残すかを判断するための、第二の指標の一例である。なお、用言とは、動詞、形容詞、形容動詞の３つの品詞を含む。

具体的には、出現確率テーブル生成部１１１は、ツリー構造３４の各々から、線で連結された２つのノードのうち、片方に用言（動詞、形容詞、形容動詞のいずれか）を有するノード組を、ノード組３６として抽出する。出現確率テーブル生成部１１１は、ノード組３６のうち、原文３２において係り元となる文節に対応するノードをＦＲＯＭノード、係り先となる文節に対応するノードをＴＯノードとして特定する。

例えば、図２において、破線で囲んだノード組３６Ａ（ノード３５Ａと同一）では、文節「論客が」に対応するノードがＦＲＯＭノード、文節「去った」に対応するノードがＴＯノードとして特定される。個々のノード組を区別なく説明する場合には、単に「ノード組３６」と表記し、個々のノード組を区別する場合には、「ノード組３６Ａ」、「ノード組３６Ｂ」、・・・のように、アルファベット記号を付加した符号で表記する。

出現確率テーブル生成部１１１は、全ての文例３１の原文３２の各々を表すツリー構造３４の各々に含まれる、片方に用言を有するノード組３６から、用言および属性が同一のノード組３６について、出現確率を導出する。用言ごと、かつ、ノード組の属性毎の出現確率とは、ある用言に関して、その属性に該当するノード組が枝刈りされずに短縮文に残存する確率である。

なお、属性は、結合確率と同様に、ノード組３６が有する文法的特徴である。例えば、ノード組３６Ａの場合には、ＦＲＯＭノードの動詞「論客が」に対して、ＴＯノード「去った」であるので、当該ノード組３６Ａの属性は、「該用言に対する格ノードが助詞「が」を含む」となる。

出現確率テーブル生成部１１１は、用言ごと、かつ、属性ごとに、例えば、下記（２）式により、属性ｉのノード組の出現確率を導出する。

（２）式において、「ある用言に関する属性ｉのノード組の数」とは、片方に用言を有するノード組３６のうち、特定の用言（例えば、「去る」）を持ち、さらに、属性ｉに該当するノード組３６の数である。「ある用言に関する短縮文に残存する属性ｉのノード組の数」とは、特定の用言（例えば、「去る」）を持ち、さらに、属性ｉに該当するノード組３６であって、ノード組３６に含まれる２つのノードに対応する文節がそのノード組３６を含む原文３２を短縮した短縮文３３に残存しているノード組の数である。

短縮文３３に残存しているノード組３６、すなわち、短縮文３３生成の際にノード間が枝刈りされなかったノード組３６の数が多いほど、ある属性の出現確率が高くなる。例えば、動詞「行く」、動詞「持つ」、動詞「なる」、形容詞「きれい」、形容詞「寒い」、形容動詞「きれいだ（な）」などの各々について、属性ごとの出現確率が算出される。

図２を参照して、短縮文に残存するノード組３６について説明する。図２において、破線で囲んだノード組３６Ａ（ＦＲＯＭノード「論客が」、ＴＯノード「去った」）は、両ノードとも短縮文３３に残存する。すなわち、ノード組３５Ａのノード間は枝刈りされない。一方、図２において、一点破線で囲んだノード組３６Ｂ（ＦＲＯＭノード「世を」、ＴＯノード「去った」）は、ノード「去った」は短縮文３３に残存するが、ノード「日」は短縮文３３に残存しない。すなわち、ノード「日」とノード「去った」との間で、枝刈りされる。なお、図２において、二点破線で囲んだノード組３６Ｃのように、両ノードとも短縮文３３に含まれない場合は、出現確率の導出に用いるノード組の対象としない。

具体的には、出現確率テーブル生成部１１１は、複数の原文３２を対象に、例えば、動詞「去った」を含むノード組３６のうち、さらに、該用言に対する格ノードが「論客が」のように「動作主体」であるノード組３６の総数を計数する。さらに、出現確率テーブル生成部１１１は、複数の短縮文３３を対象に、例えば、動詞「去った」を含むノード組３６のうち、さらに、該用言に対する格ノードが「論客が」のように「動作主体」であるノード組３６の数を計数する。そして、下記（２）式により、出現確率テーブル生成部１１１は、動詞「去った（去る）」に対して、属性として、「該用言に対する格ノードが助詞「が」を含む」の出現確率を求める。

出現確率テーブル生成部１１１は、複数の文例３１を用いて、例えば上記（２）式により導出した、用言毎、かつ、ノード組の属性毎の出現確率を、例えば図４に示すような出現確率テーブル１１２に格納する。

また、原文３２と短縮文３３とを両方含む文例３１を十分に収集できない場合がある。具体的には、用言毎、かつ、ノード組の属性毎に、出現確率を求めるために、様々な用言を含む原文３２と短縮文３３とのセット（文例３１）を、十分に収集することが難しい場合もある。一方で、原文３２は存在するものの、短縮文３３が存在しない場合も多いことから、発明者は、用言毎、かつ、ノード組の属性毎に、出現確率を求めるために、次の代替手段を見出した。

そこで、本実施例においては、出現確率テーブル生成部１１１は、短縮文３３は存在しないが、原文３２のみを十分に収集できる場合には、上記（２）式に変えて、以下の（３）式で出現確率を求めることとしてもよい。

（３）式により求められる出現確率は、「ある用言がどの格（属性）をともなって利用されることが多いか」を示すこととなる。よって、（２）式で求められた出現確率「属性に該当するノード組が枝刈りされずに短縮文に残存する確率」と一義的に対応するものではない。しかし、発明者の実験により、（３）式で求められた出現確率を利用する事で、原文３２と短縮文３３とを両方含む文例３１を十分に収集できない場合でも、結果として生成される短縮文が、必須格の欠落のない自然な短縮文になる可能性が向上することが確認された。よって、出現確率テーブル生成部１１１は、文例３１の収集状況によって、（２）式や（３）式を選択し、実質的に「属性に該当するノード組が枝刈りされずに短縮文に残存する確率」に相当する出現確率を算出する。

図４は、第１実施形態における出現確率テーブルの一例を示す図である。図４の例では、ある用言について、１つのノード組の属性に対する１つの出現確率の値が、１エントリとして格納されている。なお、図４の例では、出現確率を対数表示している。出現確率テーブル生成部１１１は、生成した出現確率テーブル１１２を所定の記憶領域に記憶する。

以下の結合確率付与部１５、必須結合判定部１１３、閾値設定部１６、短縮文生成部１１７、及び短縮文出力部１９は、短縮文生成装置１００に短縮対象文が入力された場合、すなわち、短縮文生成時に機能する機能部である。

結合確率付与部１５は、結合確率テーブル２０に格納されたノード組の属性毎の結合確率を用いて、係り受け解析部１３により解析された短縮対象文のツリー構造３４における各ノード間に結合確率を付与する。具体的には、結合確率付与部１５は、結合確率テーブル生成部１４と同様に、短縮対象文を解析したツリー構造３４から、線で連結された２つのノードをノード組３５として抽出し、ＦＲＯＭノード及びＴＯノードを特定する。そして、結合確率付与部１５は、結合確率テーブル２０から、各ノード組３５が該当する属性の全ての結合確率を取得し、それらの積を、該当のノード組３５の結合確率積として付与する。

必須結合判定部１１３は、出現確率テーブル１１２に格納された、用言毎、かつ、ノード組の属性毎の出現確率を用いて、係り受け解析部１３により解析された短縮対象文のツリー構造３４における、一方に用言を含むノード組３６のうち、必須結合に該当するノード組３６を特定する。なお、ノード組３６の間の結合が必須結合に相当する場合に、該用言に対する格ノードは用言ノードに対して必須格の関係にあると言える。

具体的には、必須結合判定部１１３は、出現確率テーブル生成部１１１と同様に、短縮対象文を解析したツリー構造３４から、線で連結された２つのノードのノード組３５のうち、一方に用言を含むノード組３６を抽出する。そして、必須結合判定部１１３は、出現確率テーブル１１２から、ノード組３６に含まれる用言に対応し、かつ、属性が一致するレコードを特定する。そして、特定されたレコードの出現確率が、所定の閾値以上である場合に、当該ノード組３６を、必須結合と判定する。

例えば、ノード組３６が、動詞「取る」を含み、かつ、該用言に対する格ノードが助詞「が」を含む場合、出現確率テーブル１１２から、動詞「取る」に対応する属性「該用言に対する格ノードが助詞「が」を含む」の出現確率「−０．１７」が取得される。所定の閾値が例えば「−０．２」である場合、出現確率「−０．１７」は、所定の閾値よりも大きいため、当該ノード組３６の間の結合は、必須結合と判定される。

閾値設定部１６は、入力装置を介して入力されたり、予め所定の記憶領域に記憶されたりしている結合確率積の閾値を、短縮文生成部１１７に設定する。さらに、必須結合を判断するための所定の閾値を、必須結合判定部１１３に設定する。例えば、これら閾値は、管理者によって、入力される。

短縮文生成部１１７は、短縮対象文のツリー構造３４において、ルートノードから、閾値設定部１６により設定された閾値以上の結合確率積で結合されているノードと必須結合と判定されたノードとを辿り、中断なく辿ることができた経路上のノードを抽出する。なお、係り受け構造を表すツリー構造におけるルートノードは、短縮対象文において係り先を持たない文節に対応するノードである。短縮文生成部１１７は、抽出したノードに対応する文節を、短縮対象文における出現順に並べることにより、短縮文を生成する。

短縮文出力部１９は、短縮文生成部１１７により生成された短縮文を、表示装置に表示したり、記憶媒体に記憶したり、プリンタで印字したりするなどして、出力する。さらに、短縮文出力部１９は、複数の短縮対象文を含む文章が入力された場合には、短縮対象文それぞれに対応する短縮文を組み合わせて出力してもよい。

図５は、第１実施形態に係る短縮文生成装置として機能するコンピュータの概略構成を示すブロック図である。短縮文生成装置１００は、例えば、図５に示すコンピュータ４００で実現することができる。コンピュータ４００はＣＰＵ４１、一時記憶領域としてのメモリ４２、及び不揮発性の記憶部４３を備える。また、コンピュータ４００は、表示装置及び入力装置等の入出力装置４８が接続される入出力インターフェース（Ｉ／Ｆ）４４を備える。また、コンピュータ４００は、記録媒体４９に対するデータの読み込みと書き込みとを制御するｒｅａｄ／ｗｒｉｔｅ（Ｒ／Ｗ）部４５、及びインターネット等のネットワークに接続されるネットワークＩ／Ｆ４６を備える。ＣＰＵ４１、メモリ４２、記憶部４３、入出力Ｉ／Ｆ４４、Ｒ／Ｗ部４５、及びネットワークＩ／Ｆ４６は、バス４７を介して互いに接続される。

記憶部４３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部４３には、コンピュータ４００を短縮文生成装置１００として機能させるための短縮文生成プログラム４５０が記憶される。また、記憶部４３は、結合確率テーブル２０を構成する情報が記憶される結合確率情報記憶領域６０、および、出現確率テーブル１１２を構成する情報が記憶される出現確率情報記憶領域４５４を有する。

ＣＰＵ４１は、短縮文生成プログラム４５０を記憶部４３から読み出してメモリ４２に展開し、短縮文生成プログラム４５０が有するプロセスを順次実行する。また、ＣＰＵ４１は、結合確率情報記憶領域６０および出現確率情報記憶領域４５４から情報を読み出し、結合確率テーブル２０および出現確率テーブル１１２をメモリ４２に展開する。

短縮文生成プログラム４５０は、文入力プロセス５１と、形態素解析プロセス５２と、係り受け解析プロセス５３と、結合確率テーブル生成プロセス５４と、出現確率テーブル生成プロセス４５１、結合確率付与プロセス５５と、必須結合判定プロセス４５２、閾値設定プロセス５６とを有する。また、短縮文生成プログラム４５０は、短縮文生成プロセス４５３と、短縮文出力プロセス５９とを有する。

ＣＰＵ４１は、文入力プロセス５１を実行することで、図１に示す文入力部１１として動作する。また、ＣＰＵ４１は、形態素解析プロセス５２を実行することで、図１に示す形態素解析部１２として動作する。また、ＣＰＵ４１は、係り受け解析プロセス５３を実行することで、図１に示す係り受け解析部１３として動作する。また、ＣＰＵ４１は、結合確率テーブル生成プロセス５４を実行することで、図１に示す結合確率テーブル生成部１４として動作する。

また、ＣＰＵ４１は、出現確率テーブル生成プロセス５４１を実行することで、図１に示す出現確率テーブル生成部１１１として動作する。また、ＣＰＵ４１は、結合確率付与プロセス５５を実行することで、図１に示す結合確率付与部１５として動作する。また、ＣＰＵ４１は、必須結合判定プロセス４５２を実行することで、図１に示す必須結合判定部１１３として動作する。また、ＣＰＵ４１は、閾値設定プロセス５６を実行することで、図１に示す閾値設定部１６として動作する。また、ＣＰＵ４１は、短縮文生成プロセス４５３を実行することで、図１に示す短縮文生成部１１７として動作する。また、ＣＰＵ４１は、短縮文出力プロセス５９を実行することで、図１に示す短縮文出力部１９として動作する。これにより、短縮文生成プログラム４５０を実行したコンピュータ４００が、短縮文生成装置１００として機能することになる。

なお、ＣＰＵ４１は、ハードウェアとしてのプロセッサーの一例である。よって、短縮文生成プログラム４５０により実現される機能は、ＣＰＵやＭＰＵなどの、ハードウェアとしてのプロセッサーにより実現される。また、短縮文生成プログラム４５０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等で実現することも可能である。

次に、第１実施形態に係る短縮文生成装置１００の作用について説明する。結合確率テーブル２０の生成時において、短縮文生成装置１００に複数の文例３１が入力されると、図６に示す結合確率テーブル生成処理および図７に示す出現確率テーブル生成処理が実行される。また、短縮文生成時において、短縮文生成装置１００に短縮対象文が入力されると、図８Ａおよび８Ｂに示す短縮文生成処理が実行される。なお、短縮文生成装置１００において実行される短縮文生成処理は、開示の技術の短縮文生成方法の一例である。以下、各処理について説明する。

まず、結合確率テーブル生成処理について説明する。図６は、結合確率テーブル生成処理の一例を示すフローチャートである。

図６に示す結合確率テーブル生成処理のステップＳ１１で、文入力部１１が、入力された複数の文例３１を受け付ける。次に、ステップＳ１２で、形態素解析部１２が、文例３１に含まれる原文３２の各々を形態素解析する。次に、ステップＳ１３で、係り受け解析部１３が、形態素解析結果に基づいて、原文３２の各々を係り受け解析し、図２に示すように、原文３２の各々の文節間の係り受け関係を表現したツリー構造３４を生成する。

次に、ステップＳ１４で、結合確率テーブル生成部１４が、全ての原文３２のツリー構造３４の各々から、全てのノード組３５を抽出し、各ノード組のＦＲＯＭノード及びＴＯノードを特定する。そして、結合確率テーブル生成部１４が、各ノード組３５の属性、及び各ノード組３５が短縮文に残存するか又は短縮時に枝刈りされるかに基づいて、例えば、上記（１）式により、ノード組の属性毎の結合確率を導出する。

次に、ステップＳ１５で、結合確率テーブル生成部１４が、上記ステップＳ１４で導出したノード組の属性毎の結合確率を、例えば図３に示すような結合確率テーブル２０に格納し、所定の記憶領域に記憶し、結合確率テーブル生成処理は終了する。

次に、出現確率テーブル生成処理について説明する。図７は、出現確率テーブル生成処理の一例を示すフローチャートである。

図７に示す出現確率テーブル生成処理のステップＳ１１１で、文入力部１１が、入力された複数の文例３１を受け付ける。次に、ステップＳ１１２で、形態素解析部１２が、文例３１に含まれる原文３２の各々を形態素解析する。次に、ステップＳ１１３で、係り受け解析部１３が、形態素解析結果に基づいて、原文３２の各々を係り受け解析し、図２に示すように、原文３２の各々の文節間の係り受け関係を表現したツリー構造３４を生成する。なお、出現確率テーブル生成処理と、結合確率テーブル生成処理とが並行して行われる場合には、ステップＳ１１１乃至ステップＳ１１３は、ステップＳ１１乃至ステップＳ３３に統合される。

次に、ステップＳ１１４で、出現確率テーブル生成部１１１が、全ての原文３２のツリー構造３４の各々から、全てのノード組３５を抽出し、さらに、片方に用言を有するノード組３６を特定する。

そして、出現確率テーブル生成部１１１が、各ノード組３６に含まれる用言ごと、さらに、ノード組の属性ごとに、例えば、上記（２）式や上記（３）式により、用言毎かつノード組の属性毎の出現確率を導出する。

次に、ステップＳ１１５で、出現確率テーブル生成部１１１が、上記ステップＳ１１４で導出したノード組の用言毎かつ属性毎の出現確率を、例えば図４に示すような出現確率テーブル１１２に格納し、所定の記憶領域に記憶し、出現確率テーブル生成処理は終了する。

次に、短縮文生成処理について説明する。図８Ａおよび図８Ｂは、第１実施形態における短縮文生成処理の一例を示すフローチャートである。

短縮文生成処理のステップＳ２１で、文入力部１１が、短縮文生成装置１００に入力された短縮対象文を受け付ける。

次に、ステップＳ２２で、形態素解析部１２が、短縮対象文を形態素解析する。次に、ステップＳ２３で、係り受け解析部１３が、形態素解析結果に基づいて、短縮対象文を係り受け解析し、短縮対象文の文節間の係り受け関係を表現したツリー構造３４を生成する。

次に、ステップＳ２４のループ処理で、結合確率付与部１５が、上記ステップＳ２３で生成されたツリー構造３４に含まれるノード組を１つずつ処理対象として設定し、ステップＳ２５の処理、ステップＳ２６のループ処理、及びステップＳ２９の処理を実行する。

ステップＳ２５では、結合確率付与部１５が、処理対象のノード組３５の結合確率積を示す変数ｘに、初期値として「０．０」を設定する。

次に、ステップＳ２６のループ処理で、結合確率付与部１５が、結合確率テーブル２０に含まれる各エントリを１つずつ処理対象として設定し、以下のステップＳ２７及びステップＳ２８の処理を実行する。

ステップＳ２７では、結合確率付与部１５が、処理対象のノード組３５に含まれる各ノードに対応する文節の短縮対象文での出現順に基づいて、ＦＲＯＭノード及びＴＯノードを特定する。そして、結合確率付与部１５が、処理対象のノード組３５の属性が、処理対象のエントリの属性に合致するか否かを判定する。合致する場合には、処理はステップＳ２８へ移行し、合致しない場合には、ステップＳ２８の処理はスキップされる。例えば、処理対象のエントリのノード組の属性が「ＦＲＯＭノードが助詞「が」を含む」であるとする。ここでは、処理対象のノード組３５のＦＲＯＭノードに助詞「が」が含まれる場合に、合致すると判定され、処理はステップＳ２８へ移行する。

ステップＳ２８では、変数ｘに処理対象のエントリの結合確率の値を加算する。ここでは、初期値である「０．０」に、処理対象のエントリの結合確率「−０．１２」が加算されて、変数ｘが「−０．１２」となる。なお、本実施形態では、結合確率を対数に変換して扱うため、ノード組の属性が合致するエントリの結合確率を変数ｘに加算しているが、結合確率を真数のまま用いる場合には、ノード組の属性が合致するエントリの結合確率と変数ｘとを乗算する。

結合確率テーブル２０に含まれる全てのエントリについて、ステップＳ２６のループ処理が終了すると、処理はステップＳ２９へ移行する。この段階で、結合確率積を示す変数ｘとして、処理対象のノード組３５について、そのノード組の属性に該当する結合確率を全て乗算（対数の場合、加算）した値が得られる。ステップＳ２９では、結合確率付与部１５が、処理対象のノード組３５に含まれる２つのノード間の結合確率積として、変数ｘの値を付与する。

すべてのノード組について、ステップＳ２４のループ処理が終了すると、ステップＳ１２１で、必須結合判定部１１３が、必須結合を特定する。必須結合判定部１１３は、出現確率テーブル１１２における複数のエントリのうち、必須結合を判定するための閾値よりも大きな出現確率を持つエントリを、必須結合として特定する。なお、当該閾値は、閾値設定部１６より入力される。

ただし、ステップＳ１２１の処理は、短縮文生成処理に先駆けて実施されてもよい。すなわち、閾値が固定の場合には、必須結合判定部１１３が、予め、閾値以上の出現確率を有するエントリに対して、必須結合であることを示すフラグを付与する。予め、必須結合が特定されている場合には、ステップＳ１２１の処理は、短縮文生成処理において省略される。

次に、ステップＳ１２２のループ処理で、上記ステップＳ２３で生成されたツリー構造３４に含まれるノード組３５を１つずつ処理対象として設定し、ステップＳ１２３の処理、ステップＳ１２４の処理を実行する。

ステップＳ１２３では、必須結合判定部１１３が、処理対象のノード組３５が、必須結合に該当するか判定する。つまり、必須結合判定部１１３が、ノード組３５が用言のノードを含むノード組３６であって、かつ、当該ノード組３６における用言と属性の組み合わせがステップＳ１２１において必須結合として特定されているかを判定する。

ノード組３５が用言のノードを含むノード組３６であって、かつ、当該ノード組３６における用言ノードと該用言に対する格ノードとの属性の組み合わせがステップＳ１２１において必須結合として特定されている場合には、ステップＳ１２３において肯定の判定がなされ、必須結合判定部１１３が、ステップＳ１２４において、当該ノード組３６を、必須結合として設定する。一方、ステップＳ１２３において否定の判定がなされた場合には、ステップＳ１２４はスキップされる。

全てのノード組に対して、ステップＳ１２２のループ処理が終了すると、処理はステップＳ１２６へ移行する。この段階で、ツリー構造３４の中のノード組３５のうち、用言のノードを含むノード組３６であって、かつ、当該ノード組３６における用言ノードと該用言に対する格ノードとの属性の組み合わせがステップＳ１２１において必須結合として特定されているノード組については、必須結合により連結されているという情報が付与される。

次に、ステップＳ１２６で、閾値設定部１６が、結合確率積の閾値を設定する。そして、短縮文生成部１１７が、短縮対象文のツリー構造３４において、ルートノードから、設定された閾値以上の結合確率積で結合されているノード、または、必須結合で連結されているノードを辿り、中断なく辿ることができた経路上のノードを抽出する。

次に、ステップＳ３１で、短縮文生成部１１７が、上記ステップＳ１２６で抽出したノードに対応する文節を、短縮対象文における出現順に並べることにより、短縮文を生成する。

次に、ステップＳ６０で、短縮文出力部１９が、上記ステップＳ３１で生成された短縮文を出力し、短縮文生成処理は終了する。

以上説明したように、第１実施形態に係る短縮文生成装置１００によれば、短縮対象文に含まれる文節間の係り受け関係を、各文節に対応するノードを連結したツリー構造で表現する。そして、連結された２つのノード間に、該ノード間が短縮文生成の際に枝刈りされずに短縮文に残存する確率を示す結合確率を付与する。さらに、連結された２つのノードのうち、片方のノードが用言である場合には、用言毎に、用言ノードと該用言に対する格ノードとの属性に応じて、当該２つのノードの間の連結が必須結合であるかを判定する。つまり、他方のノードが、用言の必須格であるかが判定される。

そして、ルートノードから閾値以上の結合確率で連結されたノード、または、必須結合を辿って抽出されたノードに基づいて、短縮文を生成する。このように、係り受け関係に基づく文節間の結合確率および、出現確率に基づく必須結合を用いて、ノード間を枝刈りするか否かを判断するため、例えば、必須格の欠落を招くような枝刈りが抑制され、自然な短縮文を生成することができる。

＜第２実施形態＞
次に、第２実施形態について説明する。なお、第２実施形態に係る短縮文生成装置について、第１実施形態に係る短縮文生成装置１００と同様の部分については、同一符号を付して詳細な説明を省略する。

図９は、第２実施形態に係る短縮文生成装置の概略構成を示す機能ブロック図である。図９に示すように、第２実施形態に係る短縮文生成装置３００は、文入力部１１と、形態素解析部１２と、概念構造解析部２１３と、結合確率テーブル生成部２１４と、結合確率付与部２１５と、短縮文長設定部２１６とを含む。また、短縮文生成装置３００は、短縮文選択部１８と、短縮文出力部１９とを含む。さらに、短縮文生成装置３００は、出現確率テーブル生成部３１１、必須結合判定部３１３、短縮文候補生成部３１７を含む。

短縮文生成装置３００には、結合確率テーブル２２０および出現確率テーブル３１２が記憶される。なお、短縮文候補生成部３１７は、開示の技術の生成部の一例である。結合確率テーブル２２０は、第一の記憶部に記憶される情報の一例である。また、出現確率テーブル３１２は、第二の記憶部に記憶される情報の一例である。

概念構造解析部２１３は、形態素解析部１２による形態素解析結果に基づいて、原文３２の各々又は短縮対象文の文節単位を解析し、語彙概念構造辞書を参照して、文節間の意味関係を特定し、原文３２の各々又は短縮対象文の概念構造を解析する。これにより、原文３２の各々又は短縮対象文を、原文３２又は短縮対象文に含まれる文節間を概念構造に基づいて連結したツリー構造で表現することができる。

原文３２を概念構造解析したツリー構造の一例を図１０に示す。図１０は、概念構造解析によるツリー構造の一例を示す図である。なお、図１０では、「彼は大学をかろうじて卒業したあと、資格を取って薬剤師になった。」を例としたツリー構造２３４が示されている。

図１０に示すように、原文（又は短縮対象文）に含まれる文節の各々をノードで表し、意味的に関係のある文節間に対応するノード間を矢印で連結して、ツリー構造２３４を表現する。また、矢印で連結されたノード間には、連結されたノード間の関係の種別を示す関係種別が付与されている。図１０の例では、例えば、ノード「彼は」とノード「卒業したあと、」との間の関係種別は「動作主」であることを表している。

なお、一方のノードが用言（動詞、形容詞、形容動詞）である場合の関係種別は、特に述語格と表現される場合がある。また、ノードの矢印の向きもノード間の関係を表しており、例えば、上記の例では、矢印の終点側のノード「彼は」が、矢印の始点側のノード「卒業したあと、」の「動作主」であることを表している。

結合確率テーブル生成部２１４は、第１実施形態における結合確率テーブル生成部１４と同様に、ノード組の属性毎の結合確率を導出する。以下、第１実施形態における結合確率テーブル生成部１４と異なる点について説明する。

第２実施形態における結合確率テーブル生成部２１４は、結合確率テーブル２２０を生成する際、ノード組の属性として、概念構造におけるノード間の関係種別も用いる。また、結合確率テーブル生成部２１４は、矢印で連結された２つのノードからなるノード組３５のうち、矢印の始点側のノードをＦＲＯＭノード、矢印の終点側のノードをＴＯノードとして特定する。

図１１は、ノード組の設定を説明するための図である。例えば、図１１において、破線で囲んだノード組３５では、ノード「卒業したあと、」がＦＲＯＭノード、ノード「彼は」がＴＯノードとして特定される。

図１２は、第２実施形態における結合確率テーブルの一例である。なお、ノード組の属性の各々についての結合確率の導出方法は、第１実施形態と同様である。

出現確率テーブル生成部３１１は、第１実施形態における出現確率テーブル生成部１１１と同様に、用言毎、かつ、ノード組の属性毎の結合確率を導出する。以下、第１実施形態における出現確率テーブル生成部１１１と異なる点について説明する。

第２実施形態における出現確率テーブル生成部３１１は、出現確率テーブル３１２を生成する際、ノード組の属性として、概念構造におけるノード間の関係種別を用いる。具体的には、出現確率テーブル生成部３１１は、矢印で連結された２つのノードからなるノード組３５のうち、一方に用言を含むノード組３６を特定する。図１３は、ノード組の設定を説明するための図である。例えば、図１３において、一方に用言「なった」を含むノード組３６が特定される。

図１４は、第２実施形態における出現確率テーブルの一例である。出現確率テーブル３１２は、用言毎に、関係種別（属性）に応じた出現確率を管理する。つまり、用言ごとに、述語格に応じた出現確率が管理される。なお、用言毎、かつ、ノード組の属性ごとの出現確率の導出方法は、第１実施形態と同様である。

結合確率付与部２１５は、結合確率テーブル２２０に格納されたノード組の属性毎の結合確率を用いて、概念構造解析部２１３により解析された短縮対象文のツリー構造２３４における各ノード間に結合確率積を付与する。ノード組３５の矢印の始点側か終点側かに応じて、ＦＲＯＭノード及びＴＯノードを特定する点、及びノード間に付与する結合確率積に、ノード間の関係種別に応じた結合確率も反映される点が第１実施形態と異なる。その他の点については、第１実施形態の結合確率付与部１５と同様である。

必須結合判定部３１３は、出現確率テーブル３１２に格納された、用言毎、かつ、ノード組の属性毎の出現確率を用いて、概念構造解析部２１３により解析された短縮対象文のツリー構造２３４における、一方に用言を含むノード組３６のうち、必須結合に該当するノード組３６を特定する。なお、必須結合の特定方法は、第１実施形態の必須結合判定部３１３と同様である。

短縮文長設定部２１６は、入力装置を介して入力された短縮文長、または、予め所定の記憶領域に記憶されている所望の短縮文長を、短縮文選択部１８に設定する。短縮文長とは、出力される短縮文の長さであり、短縮文の文字数やバイト数、単語数、文節数で設定することができる。なお、短縮文長を設定する変わりに、短縮対象文の長さに対する短縮文の長さの割合（短縮率）を設定してもよい。

短縮文候補生成部３１７は、複数の異なる第一の閾値の各々を設定し、設定した第一の閾値毎に、短縮文候補を生成する。短縮文候補生成部３１７は、第一の閾値を順次変更しながら、第一の閾値以上の結合確率積で結合されているノードまたは必須結合と判定されたノードを辿り、中断なく辿ることができた経路上のノードを抽出することで、第一の閾値ごとの短縮文候補を生成する。第一の閾値を順次変更しながら短縮文候補を生成する事で、後述のように、さまざまな長さの短縮文候補を生成することができる。なお、本実施形態においては、短縮文候補の生成にかかる閾値を第一の閾値とし、必須結合の判定のための閾値を第二の閾値と称する。

複数の異なる第一の閾値は、例えば、短縮対象文のツリー構造２３４に含まれるノード組３５に付与された結合確率積の各々とすることができる。この場合、短縮文候補生成部３１７は、ノード組３５に付与された結合確率積の各々を大きい順にソートし、値が大きな結合確率積から順に閾値に設定して、各々の閾値に応じた短縮文候補を生成する。

また、短縮文候補に含めるノードを抽出する際のルートノードは、ツリー構造２３４において、矢印の終点側にならないノードである。短縮文候補生成部３１７は、生成した短縮文候補の各々と、各短縮文候補の短縮文長とをバッファに格納する。

短縮文選択部１８は、バッファに格納された短縮文候補から、短縮文長設定部２１６により設定された短縮文長の範囲内で最長の短縮文長となる短縮文候補を選択する。短縮文選択部１８は、選択した短縮文候補を、出力する短縮文として、短縮文出力部１９へ受け渡す。

短縮文生成装置３００は、例えば、図１５に示すコンピュータ７００で実現することができる。図１５は、第２実施形態に係る短縮文生成装置として機能するコンピュータの概略構成を示すブロック図である。コンピュータ７００はＣＰＵ７１、メモリ７２、及び不揮発性の記憶部７３を備える。また、コンピュータ７００は、入出力装置７８が接続される入出力Ｉ／Ｆ７４、記録媒体７９に対するデータの読み込みと書き込みとを制御するＲ／Ｗ部７５、及びネットワークＩ／Ｆ７６を備える。ＣＰＵ７１、メモリ７２、記憶部７３、入出力Ｉ／Ｆ７４、Ｒ／Ｗ部７５、及びネットワークＩ／Ｆ７６は、バス７７を介して互いに接続される。

記憶部７３は、ＨＤＤ、ＳＳＤ、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部７３には、コンピュータ７００を短縮文生成装置３００として機能させるための短縮文生成プログラム７５０が記憶される。また、記憶部７３は、結合確率テーブル２２０を構成する情報が記憶される結合確率情報記憶領域７５４、および出現確率テーブル３１２を構成する情報が記憶される出現確率情報記憶領域７５５を有する。

ＣＰＵ７１は、短縮文生成プログラム７５０を記憶部７３から読み出してメモリ７２に展開し、短縮文生成プログラム７５０が有するプロセスを順次実行する。また、ＣＰＵ７１は、結合確率情報記憶領域７５４から情報を読み出し、結合確率テーブル２２０をメモリ７２に展開する。さらに、ＣＰＵ７１は、出現確率情報記憶領域７５５から情報を読み出し、出現確率テーブル３１２をメモリ７２に展開する。

短縮文生成プログラム７５０は、文入力プロセス５１と、形態素解析プロセス５２と、概念構造解析プロセス２５３と、結合確率テーブル生成プロセス２５４と、出現確率テーブル生成プロセス７５１と、結合確率付与プロセス２５５と、必須結合判定プロセス７５２と、短縮文長設定プロセス２５６とを有する。また、短縮文生成プログラム７５０は、短縮文候補生成プロセス７５３と、短縮文選択プロセス５８と、短縮文出力プロセス５９とを有する。

ＣＰＵ７１は、概念構造解析プロセス２５３を実行することで、図９に示す概念構造解析部２１３として動作する。また、ＣＰＵ７１は、結合確率テーブル生成プロセス２５４を実行することで、図９に示す結合確率テーブル生成部２１４として動作する。また、ＣＰＵ７１は、出現確率テーブル生成プロセス７５１を実行することで、図９に示す出現確率テーブル生成部３１１として動作する。

また、ＣＰＵ７１は、結合確率付与プロセス２５５を実行することで、図９に示す結合確率付与部２１５として動作する。また、ＣＰＵ７１は、必須結合判定プロセス７５２を実行することで、図９に示す必須結合判定部３１３として動作する。また、ＣＰＵ７１は、短縮文長設定プロセス２５６を実行することで、図９に示す短縮文長設定部２１６として動作する。また、ＣＰＵ７１は、短縮文候補生成プロセス７５３を実行することで、図９に示す短縮文候補生成部３１７として動作する。また、ＣＰＵ７１は、短縮文選択プロセス５８を実行することで、図９に示す短縮文選択部１８として動作する。

他のプロセスについては、第１実施形態における短縮文生成プログラム４５０と同様である。これにより、短縮文生成プログラム７５０を実行したコンピュータ７００が、短縮文生成装置３００として機能することになる。

なお、ＣＰＵ７１は、ハードウェアとしてのプロセッサーの一例である。よって、短縮文生成プログラム７５０により実現される機能は、ＣＰＵやＭＰＵなどの、ハードウェアとしてのプロセッサーにより実現される。また、短縮文生成プログラム７５０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ等で実現することも可能である。

次に、第２実施形態に係る短縮文生成装置３００の作用について説明する。結合確率テーブル２２０の生成時において、短縮文生成装置３００に複数の文例３１が入力されると、図６に示す結合確率テーブル生成処理が実行される。ただし、以下の点が、第１実施形態における処理と異なる。

ステップＳ１３では、概念構造解析部２１３が、原文３２の各々の概念構造を解析したツリー構造２３４を生成する。

ステップＳ１４で、ノード組のＦＲＯＭノード及びＴＯノードを特定する際、ノード組に含まれる２つのノードが、２つのノード間を連結する矢印の始点側か終点側かに基づいて特定される。また、ノード組の属性毎の結合確率を導出する際、ノード組の属性として、概念構造解析により得られたノード間の関係種別も含まれる。

次に、出現確率テーブル３１２の生成時において、短縮文生成装置３００に複数の文例３１が入力されると、図７に示す結合確率テーブル生成処理が実行される。ただし、以下の点が、第１実施形態における処理と異なる。

ステップＳ１１３では、概念構造解析部２１３が、原文３２の各々の概念構造を解析したツリー構造２３４を生成する。

ステップＳ１１４で、出現確率テーブル生成部３１１が、全ての原文３２のツリー構造２３４において、片方に用言を有するノード組３６に対して、ノード間の関係種別を、ノード組の属性として取り扱う。つまり、出現確率テーブル生成部３１１は、各用言に対して、ノード間の関係種別が「動作主」であるか等の属性ごとに、出現確率を算出する。

次に、短縮文生成時において、短縮文生成装置３００に短縮対象文が入力されると、図１６Ａおよび図１６Ｂに示す、第２実施例に係る短縮文生成処理が実行される。図１６Ａおよび図１６Ｂは、第２実施形態における短縮文生成処理の一例を示すフローチャートである。なお、短縮文生成装置３００において実行される短縮文生成処理は、開示の技術の短縮文生成方法の一例である。以下、各処理について説明する。ただし、第１実施形態における短縮文生成処理と同様の処理となるステップについては、同一符号を付して詳細な説明を省略する。

ステップＳ２１で、文入力部１１が、短縮文生成装置３００に入力された短縮対象文を受け付ける。ここでは、文入力部１１が、「彼は大学をかろうじて卒業した後、資格を取って薬剤師になった。」という短縮対象文を受け付けたものとする。

次に、ステップＳ２２で、形態素解析部１２が、短縮対象文を形態素解析する。次に、ステップＳ３３で、概念構造解析部２１３が、形態素解析結果に基づいて、短縮対象文の概念構造を解析し、短縮対象文の概念構造を表現したツリー構造２３４を生成する。なお、ツリー構造２３４においては、ノード間の関係種別が、各ノード間の結合を示す矢印の上に示される。ここでは、図１０に示すようなツリー構造２３４が生成されたものとする。

次に、ステップＳ２４のループ処理で、結合確率付与部２１５が、上記ステップＳ３３で生成されたツリー構造２３４に含まれるノード組を１つずつ処理対象として設定し、ステップＳ２５の処理、ステップＳ２６のループ処理、及びステップＳ２９の処理を実行する。ここでは、まず、図１１に示すように、破線で囲んだノード組３５（ノード「彼は」、ノード「卒業したあと、」）が、処理対象のノード組３５に設定されたものとする。

ステップＳ２５では、結合確率付与部２１５が、処理対象のノード組３５の結合確率積を示す変数ｘに、初期値として「０．０」を設定する。

次に、ステップＳ２６のループ処理で、結合確率付与部２１５が、結合確率テーブル２２０に含まれる各エントリを１つずつ処理対象として設定し、以下のステップＳ２７及びステップＳ２８の処理を実行する。

ステップＳ２７では、結合確率付与部２１５が、処理対象のノード組３５に含まれる２つのノード間を連結する矢印の向きに基づいて、ＦＲＯＭノード及びＴＯノードを特定する。ここでは、ノード「彼が」がＴＯノード、ノード「卒業したあと、」がＦＲＯＭノードとして特定される。そして、結合確率付与部２１５が、処理対象のノード組の属性が、処理対象のエントリの属性に合致するか否かを判定する。合致する場合には、処理はステップＳ２８へ移行し、合致しない場合には、ステップＳ２８の処理はスキップされる。例えば、処理対象のエントリのノード組の属性が「ノード間の関係種別が「動作主」」であるとする。ここでは、処理対象のノード組３５には、関係種別として「動作主」が付与されているため、合致すると判定され、処理はステップＳ２８へ移行する。ステップＳ２８では、変数ｘに処理対象のエントリの結合確率の値を加算する。

結合確率テーブル２２０に含まれる全てのエントリについて、ステップＳ２６のループ処理が終了すると、処理はステップＳ２９へ移行する。この段階で、結合確率積を示す変数ｘとして、図１７に示すように、処理対象のノード組３５について、そのノード組の属性に該当する結合確率を全て乗算（対数の場合、加算）した値が得られている。図１７は、結合確率積の導出を説明するための図である。

ステップＳ２９では、結合確率付与部２１５が、処理対象のノード組３５に含まれる２つのノードの間の結合確率積として、変数ｘの値を付与する。

上記ステップＳ３３で生成されたツリー構造２３４に含まれる全てのノード組３５に対して結合確率積を付与する処理が終了すると、ループ処理ステップＳ２４が終了する。

図１８は、結合確率積が付与された後のツリー構造のイメージ図である。ループ処理ステップＳ２４が終了した段階では、図１８に示すように、ツリー構造２３４に含まれる各ノード間３５に結合確率積が付与された状態となる。なお、図１８において、ノードとノードとを連結する矢印に併記された数字が結合確率積である。

次に、ステップＳ１２１で、必須結合判定部３１３が、必須結合を特定する。必須結合判定部３１３は、出現確率テーブル３１２における複数のエントリのうち、必須結合を判定するための第二の閾値よりも大きな出現確率を持つエントリを、必須結合として特定する。ただし、第１実施形態と同様、ステップＳ１２１の処理は、短縮文生成処理に先駆けて実施されてもよい。予め、必須結合が特定されている場合、第１実施形態と同様、ステップＳ１２１の処理は、短縮文生成処理において省略される。

図１９は、第二の閾値が、「−０．２」に設定されている場合の、必須結合の特定結果の例である。図１９に示される通り、第二の閾値「−０．２」よりも大きな出現確率を有するエントリには、必須結合であることを示すフラグ「１」が設定されている。一方、第二の閾値「−０．２」以下の出現確率を有するエントリには、必須結合ではないことを示すフラグ「０」が設定されている。

次に、必須結合判定部３１３が、ステップＳ１２２のループ処理で、上記ステップＳ３３で生成されたツリー構造２３４に含まれるノード組３５を１つずつ処理対象として設定して、ステップＳ１２３の処理、ステップＳ１２４の処理を実行する。

ステップＳ１２３では、必須結合判定部３１３が、処理対象のノード組３５が、必須結合に該当するか判定する。つまり、必須結合判定部３１３が、ノード組３５が用言のノードを含むノード組３６であって、かつ、当該ノード組３６における用言と属性の組み合わせがステップＳ１２１において必須結合として特定されているかを判定する。

ノード組３５が用言のノードを含むノード組３６であって、かつ、当該ノード組３６における用言ノードと該用言に対する格ノードとの属性の組み合わせがステップＳ１２１において必須結合として特定されている場合には、必須結合判定部３１３は、ステップＳ１２４において、当該ノード組３５を、必須結合として設定する。一方、ノード組３５が用言のノードを含むノード組３６でない、または、当該ノード組３６における用言ノードと該用言に対する格ノードとの属性の組み合わせがステップＳ１２１において必須結合として特定されていない場合には、必須結合判定部３１３は、ステップＳ１２４をスキップする。

全てのノード組に対して、ステップＳ１２２のループ処理が終了すると、処理はステップＳ４００へ移行する。この段階で、ツリー構造２３４の中のノード組３５のうち、用言のノードを含むノード組３６であって、かつ、当該ノード組３６における用言ノードと該用言に対する格ノードとの属性の組み合わせがステップＳ１２１において必須結合として特定されているノード組については、必須結合により連結されているという情報が付与される。

図２０は、必須結合が設定された後のツリー構造のイメージ図である。図２０に示すように、ツリー構造２３４に含まれる各ノード間に結合確率積が付与されるとともに、必須結合が設定された状態となる。なお、図２０において、ノードとノードとを連結する矢印に併記した数字が結合確率積であって、ノード間の結合を示す矢印のうち、必須結合に対応する矢印は太線で示されている。

例えば、用言「取る」に対して関係種別「動作対象」にあたる格を含むノード組３６は、図１９において必須結合の関係にあると特定されている。よって、用言ノード「取って」と該用言に対する格ノード「資格を」との間の結合は、必須結合として設定されるため、図２０において、用言ノード「取って」と該用言に対する格ノード「資格を」との間の結合は、太線矢印で示されている。

次に、ステップＳ４００で、図２１に詳細を示す短縮文候補生成処理が実行される。図２１は、第２実施形態に係る短縮文候補生成処理の一例を示すフローチャートである。

図２１に示す短縮文候補生成処理のステップＳ４０１で、短縮文候補生成部３１７は、短縮対象文のツリー構造２３４に含まれる各ノード組３５に付与された結合確率積のうち、必須結合に設定されたノード組に付与された結合確率積を除く、結合確率積を、大きい順にソートする。そして、短縮文候補生成部３１７は、ソートした結合確率積を、配列に格納する。

図２２は、配列に格納された結合確率積の図である。図２２に示す通り、ノード組３５各々に付与された結合確率積、「−１．４２」「−２．１１」（２組）「−３．７２」「−１．９２」「−１．８１」「−１．６２」から、必須結合に設定されたノード組３６の結合確率積「−２．１１」「−１．６２」を除く、「−１．４２」「−２．１１」「−３．７２」「−１．９２」「−１．８１」が、値の大きい順にソートされている。

次に、短縮文候補生成部３１７が、ステップＳ４０２のループ処理で、配列に格納された結合確率積を１つずつ処理対象に設定し、ステップＳ４３、ステップＳ４０４、ステップＳ４５、ステップＳ４６、ステップＳ４７の処理を実行する。

ステップＳ４３で、短縮文候補生成部３１７が、処理対象の結合確率積を、第一の閾値として設定する。次に、ステップＳ４０４及びステップＳ４５で、短縮文候補生成部３１７が、第１実施形態における短縮文生成処理（図８）のステップＳ１２６及びステップＳ３１と同様の処理により、ステップＳ４３で設定した第一の閾値に応じた短縮文候補を生成する。

次に、ステップＳ４６で、短縮文候補生成部３１７が、上記ステップＳ４５で生成した短縮文候補が、既にバッファに格納されている短縮文候補と同一か否かを判定する。同一ではない場合には、処理はステップＳ４７へ移行する。ステップＳ４７では、短縮文候補生成部３１７が、生成した短縮文候補と、その短縮文候補の短縮文長とをバッファに格納する。一方、既にバッファに格納されている短縮文候補と同一の場合には、ステップＳ４７の処理はスキップされる。

ここでは、まず、結合確率積「−１．４２」が第一の閾値に設定されたものとする。図２３は、結合確率積「−１．４２」が第一の閾値に設定された場合の短文候補生成を説明するための図である。

図２３では、第一の閾値「−１．４２」以上の結合確率積で連結されているノード間の結合を太実線の矢印で、閾値未満の結合確率積で連結されているノード間の結合を細破線の矢印で示している。さらに、必須結合に設定されたノード間の結合を、太破線の矢印で示している。

例えば、図２３の例では、ルートノード「なった。」と連結されたノードのうち、ノード間の結合確率積が閾値以上のノードが存在しない。一方で、必須結合で結合されたノード「薬剤師に」が存在する。よって、ルートノード「なった。」とノード「薬剤師に」が抽出され、短縮対象文における出現順序に応じて、短縮文候補「薬剤師になった。」が生成される。現段階では、バッファは空であるので、生成された短縮文候補「薬剤師になった。」がバッファに格納される。なお、図２３では、抽出されたノードを太線枠で示している。

次に、ループ処理によりステップＳ４３に戻ると、短縮文候補生成部３１７が、配列に格納されている結合確率積のうち、次に大きい結合確率積を第一の閾値に設定する。例えば、図２４に示すように、第一の閾値が「−１．８１」に設定される。

図２４は、結合確率積「−１．８１」が第一の閾値に設定された場合の短文候補生成を説明するための図である。図２４では、第一の閾値「−１．８１」以上の結合確率積で連結されているノード間の結合を太実線の矢印で、閾値未満の結合確率積で連結されているノード間の結合を細破線の矢印で示している。さらに、必須結合に設定されたノード間の結合を、太破線の矢印で示している。

この場合、ルートノード「なった。」と連結されたノードのうち、ノード間の結合確率積が閾値以上のノード「取って」が存在する。さらに、当該ノード「取って」と必須結合で結合されたノード「資格を」が存在する。また、ルートノード「なった。」と連結されたノードのうち、必須結合で結合されたノード「薬剤師に」が存在する。

よって、ルートノード「なった。」、ノード「取って」、ノード「資格を」、ノード「薬剤師に」が抽出され、短縮対象文における出現順序に応じて、短縮文候補「資格を取って薬剤師になった。」が生成される。短縮文候補「資格を取って薬剤師になった。」は、バッファに格納済みの短縮文候補「薬剤師になった。」と異なる短縮文候補であるので、ステップＳ４７で否定判定され、生成した短縮文候補がバッファに格納され、再び、処理はステップＳ４３に戻る。

次に、ステップＳ４３で、短縮文候補生成部３１７が、図２５に示すように、結合確率積の閾値として「−１．９２」を設定すると、短縮文候補として「彼は卒業したあと、資格を取って薬剤師になった。」が生成される。図２５は、結合確率積「−１．９２」が第一の閾値に設定された場合の短文候補生成を説明するための図である。この短縮文候補はバッファにまだ格納されていないため、ステップＳ４７で否定判定され、生成した短縮文候補がバッファに格納され、再び、処理はステップＳ４３に戻る。

配列に格納された全ての結合確率積を順に第一の閾値に設定することで、ステップＳ４０２のループ処理が終了すると、短縮文候補生成処理は終了し、処理は短縮文生成処理（図１６Ｂ）に戻る。図２６に、この段階でバッファに格納されている短縮文候補の一覧を示す。

図２６は、バッファに格納されている短縮文候補の一覧を示す図である。

図２６に示されるとおり、段階的に異なる複数の結合確率積を第一の閾値に設定したことで、様々な短縮文長の短縮文候補が得られている。

次に、図１６Ｂに示す短縮文生成処理のステップＳ５０で、短縮文長設定部２１６が、短縮文長を設定する。そして、短縮文選択部１８が、バッファに格納された短縮文候補から、短縮文長が、設定された短縮文長の範囲内で最長となる短縮文候補を選択する。例えば、短縮文長として「３０」が設定され、図２６に示す短縮文候補が生成されている場合、短縮文長が３０以下の短縮文候補のうち、短縮文長が最長の「資格を取って薬剤師になった。」が選択される。ただし、短縮文長が、設定された短縮文長の範囲内となる短縮文候補が存在しない場合には、最も短い長さの短縮文候補を選択する。

次に、ステップＳ６０で、短縮文出力部１９が、上記ステップＳ５０で選択された短縮文を出力し、短縮文生成処理は終了する。

以上説明したように、第２実施形態に係る短縮文生成装置３００によれば、短縮対象文に含まれる文節間の概念構造に基づいて、各文節に対応するノードを連結したツリー構造を生成する。そして、連結された２つのノード間に、該ノード間が短縮文生成の際に枝刈りされずに短縮文に残存する確率を示す結合確率を付与する。さらに、連結された２つのノードのうち、片方のノードが用言である場合には、用言毎に、用言ノードと該用言に対する格ノードとの属性に応じて、当該２つのノードの間の連結が必須結合であるかを判定する。つまり、他方のノードが、用言の必須格であるかが判定される。

そして、ルートノードから閾値以上の結合確率で連結されたノード、または、必須結合を辿って抽出されたノードに基づいて、短縮文候補を生成する。このように、概念構造に基づく文節間の結合確率および、出現確率に基づく必須結合を用いて、ノード間を枝刈りするか否かを判断するため、例えば、必須格の欠落を招くような枝刈りが抑制され、自然な短縮文を生成することができる。

また、短縮文生成装置３００は、複数の異なる結合確率積を、第一の閾値に順次設定して、複数の短縮文候補を生成することができる。よって、ユーザが所望する短縮文長の範囲内で最長となる短縮文候補を選択することが可能となるため、設定された短縮文長の範囲内で、より長く、かつ自然な短縮文を、出力することができる。

ただし、第２実施形態では、短縮対象文のツリー構造に含まれるノード間に付与された結合確率積の各々を、短縮文候補を生成する際の第一の閾値として順次設定する場合について説明したが、これに限定されない。例えば、短縮対象文のツリー構造に含まれるノード間に付与された結合確率積の最大値と最小値との間で、段階的に異ならせた複数の値を第一の閾値として、順次設定してもよい。

また、第２実施形態のように、設定する第一の閾値を徐々に小さくする場合には、作成される短縮文候補の長さは徐々に長くなる。そこで、作成された短縮文候補の長さが、設定された短縮文長を超えた場合には、短縮文候補生成処理（図２１）のステップＳ４０２のループ処理を終了するようにしてもよい。

＜第３実施形態＞
次に、第３実施形態について説明する。なお、第３実施形態に係る短縮文生成装置について、第１実施形態に係る短縮文生成装置１００および第２実施形態に係る短縮文生成装置３００と同様の部分については、同一符号を付して詳細な説明を省略する。なお、第３実施形態を説明するにあたって、英語の短縮対象文を例に説明を行う。ただし、第１実施形態および第２実施形態同様に、日本語等、他の言語への適用も可能である。

また、第３実施例は、結合確率と出現確率とに基づく評価値を利用して、短縮文を生成する点が、第１実施形態および第２実施形態と異なる。以下では、複数の短縮文候補を生成する第２実施形態に、評価値を利用した実施形態を説明するが、第１実施形態のように、一定の閾値に基づき短縮文を生成する短縮文生成方法に、評価値を利用する実施形態を適用することも可能である。

図２７は、第３実施形態に係る短縮文生成装置の概略構成を示す機能ブロック図である。図２７に示すように、第３実施形態に係る短縮文生成装置５００は、文入力部１１と、形態素解析部１２と、概念構造解析部２１３と、結合確率テーブル生成部２１４と、結合確率付与部２１５と、短縮文長設定部２１６とを含む。また、短縮文生成装置５００は、短縮文選択部１８と、短縮文出力部１９とを含む。さらに、短縮文生成装置５００は、出現確率テーブル生成部３１１、評価値算出部５１３、短縮文候補生成部５１７を含む。

短縮文生成装置５００には、結合確率テーブル５２０、出現確率テーブル５１２、および重み値テーブル５１４が記憶される。なお、短縮文候補生成部５１７は、開示の技術の生成部の一例である。結合確率テーブル５２０は、第一の記憶部に記憶される情報の一例である。また、出現確率テーブル５１２は、第二の記憶部に記憶される情報の一例である。

結合確率テーブル生成部２１４は、第２実施形態と同様に、ノード組の属性毎の結合確率を導出する。ここで、対象の言語が英語である場合の、結合確率テーブル５２０は、例えば、図２８のようになる。図２８は、対象言語が英語である場合の、結合確率テーブルのデータ構成例である。なお、結合確率テーブル５２０の生成方法は、第１実施形態および第２実施形態と同様である。

出現確率テーブル生成部３１１は、第２実施形態と同様に、用言ごと、かつ、ノード組の属性毎の出現確率を導出する。ここで、対象の言語が英語である場合の、出現確率テーブル５１２は、例えば、図２９のようになる。図２９は、対象言語が英語である場合の、出現確率テーブルのデータ構成例である。なお、出現確率テーブル５１２の生成方法は、第１実施形態および第２実施形態と同様である。

評価値算出部５１３は、ノード組３５各々についての評価値を算出する。評価値算出部５１３は、例えば、以下の（４）式により、ノード組の評価値を算出する。

評価値＝結合確率積×重みＡ＋出現確率×重みＢ・・・（４）

つまり、評価値算出部５１３は、結合確率付与部２１５が算出した各ノード組３５の結合確率積と、ノード組３５が用言を含むノード組３６である場合の出現確率との各々に、重みを付与して、合算することで、評価値を算出する。さらに、結合確率積に付与される重みＡよりも、出現確率に付与される重みＢを、大きな値に設定する事で、用言を含むノード組３６が必須結合である場合に、ノード組３６が枝切りされることを防ぐことができる。

重み値テーブル５１４は、重み値を記憶する。図３０は、重み値テーブルのデータ構成例である。図３０に示される通り、結合確率積に適用される重みＡの値および、出現確率に適用される重みＢの値が記憶される。評価値算出部５１３は、重み値テーブル５１４を参照して、例えば、上記（４）式により、評価値を算出する。なお、重み値は、例えば、管理者により予め設定される。

短縮文候補生成部５１７は、第２実施例と同様に、複数の異なる第一の閾値の各々を設定し、設定した第一の閾値毎に、短縮文候補を生成する。ただし、第２実施例と異なり、短縮文候補生成部３１７は、第一の閾値以上の評価値で結合されているノードを辿り、中断なく辿ることができた経路上のノードを抽出することで、第一の閾値ごとの短縮文候補を生成する。つまり、第３実施形態においては、必須結合の設定が行われないため、第一の閾値以上の評価値で結合されているノードを辿ることで、短縮文候補が生成される。

短縮文生成装置５００は、例えば、図３１に示すコンピュータ８００で実現することができる。図３１は、第３実施形態に係る短縮文生成装置として機能するコンピュータの概略構成を示すブロック図である。コンピュータ８００はＣＰＵ８１、メモリ８２、及び不揮発性の記憶部８３を備える。また、コンピュータ８００は、入出力装置８８が接続される入出力Ｉ／Ｆ８４、記録媒体８９に対するデータの読み込みと書き込みとを制御するＲ／Ｗ部８５、及びネットワークＩ／Ｆ８６を備える。ＣＰＵ８１、メモリ８２、記憶部８３、入出力Ｉ／Ｆ８４、Ｒ／Ｗ部８５、及びネットワークＩ／Ｆ８６は、バス８７を介して互いに接続される。

記憶部８３は、ＨＤＤ、ＳＳＤ、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部８３には、コンピュータ８００を短縮文生成装置５００として機能させるための短縮文生成プログラム８５０が記憶される。また、記憶部８３は、結合確率テーブル５２０を構成する情報が記憶される結合確率情報記憶領域８５３、出現確率テーブル５１２を構成する情報が記憶される出現確率情報記憶領域８５４、重み値テーブル５１４を構成する情報が記憶される重み値情報記憶領域８５５を有する。

ＣＰＵ８１は、短縮文生成プログラム８５０を記憶部８３から読み出してメモリ８２に展開し、短縮文生成プログラム８５０が有するプロセスを順次実行する。また、ＣＰＵ８１は、結合確率情報記憶領域８５３から情報を読み出し、結合確率テーブル５２０をメモリ８２に展開する。さらに、ＣＰＵ８１は、出現確率情報記憶領域８５４から情報を読み出し、出現確率テーブル５１２をメモリ８２に展開する。

短縮文生成プログラム８５０は、文入力プロセス５１と、形態素解析プロセス５２と、概念構造解析プロセス２５３と、結合確率テーブル生成プロセス２５４と、出現確率テーブル生成プロセス７５１と、結合確率付与プロセス２５５と、評価値算出プロセス８５１と、短縮文長設定プロセス２５６とを有する。また、短縮文生成プログラム８５０は、短縮文候補生成プロセス８５２と、短縮文選択プロセス５８と、短縮文出力プロセス５９とを有する。

ＣＰＵ８１は、評価値算出プロセス８５１を実行することで、図２７に示す評価値算出部５１３として動作する。ＣＰＵ８１は、短縮文候補生成プロセス８５２を実行することで、図２７に示す短縮文候補生成部５１７として動作する。

なお、ＣＰＵ８１は、ハードウェアとしてのプロセッサーの一例である。よって、短縮文生成プログラム８５０により実現される機能は、ＣＰＵやＭＰＵなどの、ハードウェアとしてのプロセッサーにより実現される。また、短縮文生成プログラム８５０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ等で実現することも可能である。

次に、第３実施形態に係る短縮文生成装置５００の作用について説明する。結合確率テーブル５２０の生成時において、短縮文生成装置５００に複数の文例３１が入力されると、図６に示す結合確率テーブル生成処理が実行される。第３実施形態における結合確率テーブル５２０の生成方法は、第２実施形態と同様である。

次に、出現確率テーブル５１２の生成時において、短縮文生成装置５００に複数の文例３１が入力されると、図７に示す出現確率テーブル生成処理が実行される。第３実施形態における出現確率テーブル５１２の生成方法は、第２実施形態と同様である。

次に、短縮文生成時において、短縮文生成装置５００に短縮対象文が入力されると、図３２Ａおよび図３２Ｂに示す、第３実施例に係る短縮文生成処理が実行される。図３２Ａおよび図３２Ｂは、第３実施例に係る短縮文生成処理の一例を示すフローチャートである。

なお、短縮文生成装置５００において実行される短縮文生成処理は、開示の技術の短縮文生成方法の一例である。以下、各処理について説明する。なお、第１実施形態および第２実施形態における短縮文生成処理と同様の処理となるステップについては、同一符号を付して詳細な説明を省略する。

ステップＳ２１で、文入力部１１が、短縮文生成装置５００に入力された短縮対象文を受け付ける。ここでは、文入力部１１が、「Ｉｗｅｎｔｈｉｋｉｎｇｔｏａｐａｒｋｗｈｉｃｈｈａｓｍａｎｙｔｒｅｅｓｗｉｔｈａｂｏｘｌｕｎｃｈｂｅｃａｕｓｅｔｈｅｗｅａｔｈｅｒｗａｓｖｅｒｙｇｏｏｄ．」という短縮対象文を受け付けたものとする。

次に、ステップＳ２２で、形態素解析部１２が、短縮対象文を形態素解析する。次に、ステップＳ３３で、概念構造解析部２１３が、形態素解析結果に基づいて、短縮対象文の概念構造を解析し、短縮対象文の概念構造を表現したツリー構造２３４を生成する。なお、ツリー構造２３４においては、ノード間の関係種別も、各ノード間の結合を示す矢印の上に示される。ここでは、図３３に示すようなツリー構造２３４が生成されたものとする。図３３は、概念構造解析によるツリー構造の一例を示す図である。

なお、図３３に示すように、付属語に相当する語句は、ノードには含めず、各ノード間の結合を示す矢印の上に示されてもよい。つまり、自立語に相当する語が、ノードとして取り扱われる。さらに、短縮対象文で用いられている語と、対応する原型とを、併記する形態を採用してもよい。

なお、日本語のツリー構造においても、自立語のみをノードとして取り扱い、付属語はノード間の結合を示す矢印の上に示し、短縮対象文で用いられている語と対応する原型とを、併記してもよい。

次に、ステップＳ２００のループ処理で、結合確率付与部２１５が、上記ステップＳ３３で生成されたツリー構造２３４に含まれるノード組を１つずつ処理対象として設定し、ステップＳ２５の処理、ステップＳ２６のループ処理を実行する。

ここでは、まず、図３３に示すように、破線で囲んだノード組３５（ノード「Ｉ」、ノード「ｇｏ（ｗｅｎｔ）」）が、処理対象のノード組３５に設定されたものとする。

次に、ステップＳ２６のループ処理で、結合確率付与部２１５が、結合確率テーブル５２０に含まれる各エントリを１つずつ処理対象として設定し、第２実施形態と同様にステップＳ２７及びステップＳ２８の処理を実行する。

結合確率テーブル５２０に含まれる全てのエントリについて、ステップＳ２６のループ処理が終了すると、処理はステップＳ２０１へ移行する。

例えば、図３３に示すように、ＴＯノード「Ｉ」、ＦＲＯＭノード「ｇｏ（ｗｅｎｔ）」を含むノード組３５が処理対象の場合、結合確率積を示す変数ｘとして、図３４に示すように、処理対象のノード組３５について、そのノード組の属性に該当する結合確率を全て乗算（対数の場合、加算）した値が得られている。なお、変数ｘで示される結合確率積は、「−０．４６」である。なお、図３４は、評価値の導出を説明するための図である。

次に、ステップＳ２０１において、評価値算出部５１３は、処理対象のノード組３５について、出現確率テーブル５１２を参照し、出現確率ｙを取得する。例えば、図３３に示すように、ＴＯノード「Ｉ」、ＦＲＯＭノード「ｇｏ（ｗｅｎｔ）」を含むノード組３５が処理対象の場合、ノード組の属性が「動作主」であることから、出現確率ｙ「−０．１６」が取得される。

次に、ステップＳ２０２において、評価値算出部５１３は、重みＡ、重みＢ、結合確率積ｘ、出現確率ｙに基づき、評価値ｚを算出する。なお、評価値算出部５１３は、例えば、上記式（４）を利用する事で、評価値ｚを算出する。続いて、ステップＳ２０３では、評価値算出部５１３が、処理対象のノード組３５に含まれる２つのノードの間の評価値として、算出された評価値ｚを付与する。

上記ステップＳ３３で生成されたツリー構造２３４に含まれる全てのノード組３５に対して評価値ｚを付与する処理が終了すると、ループ処理ステップＳ２００が終了する。

図３５は、評価値が付与された後のツリー構造のイメージ図である。ループ処理ステップＳ２００が終了した段階では、図３５に示すように、ツリー構造２３４に含まれる各ノード間に評価値が付与された状態となる。なお、図３５において、ノードとノードとを連結する矢印に併記した数字が評価値である。

次に、ステップＳ５００で、図３６に詳細を示す短縮文候補生成処理が実行される。図３６は、第３実施形態に係る短縮文候補生成処理の一例を示すフローチャートである。

図３６に示す短縮文候補生成処理のステップＳ５０１で、短縮文候補生成部５１７は、短縮対象文のツリー構造２３４に含まれる各ノード組３５に付与された評価値を値の大きい順にソートする。そして、短縮文候補生成部５１７は、ソートした評価値を、配列に格納する。図３７は、配列に格納された評価値の図である。

次に、ステップＳ５０２のループ処理で、短縮文候補生成部５１７が、配列に格納された評価値を１つずつ処理対象に設定し、ステップＳ５０３、ステップＳ５０４、ステップＳ４５、ステップＳ４６、ステップＳ４７の処理を実行する。なお、第３実施形態においては、第一の閾値が、結合確率積ではなく、評価値の各々に設定される。

ステップＳ５０３で、短縮文候補生成部５１７が、処理対象の評価値を、第一の閾値として設定する。次に、ステップＳ５０４及びステップＳ４５で、短縮文候補生成部５１７が、ステップＳ４３で設定した第一の閾値に応じた短縮文候補を生成する。ただし、ステップＳ５０４において、短縮文候補生成部５１７は、第１実施形態および第２実施形態と異なり、評価値が閾値以上でルートノードからたどれるノードを抽出する。つまり、第３実施形態においては、第１実施形態および第２実施形態のように、必須結合も併せて抽出することは行われない。

次に、ステップＳ４６で、短縮文候補生成部５１７が、上記ステップＳ４５で生成した短縮文候補が、既にバッファに格納されている短縮文候補と同一か否かを判定する。同一ではない場合には、処理はステップＳ４７へ移行する。ステップＳ４７では、短縮文候補生成部５１７が、生成した短縮文候補と、その短縮文候補の短縮文長とをバッファに格納する。一方、既にバッファに格納されている短縮文候補と同一の場合には、ステップＳ４７の処理はスキップされる。

配列に格納された全ての評価値を順に第一の閾値に設定することで、ステップＳ５０２のループ処理が終了すると、短縮文候補生成処理は終了し、処理は短縮文生成処理（図３２Ｂ）に戻る。

図３８は、バッファに格納されている短縮文候補の一覧を示す図である。図３８に示される通り、段階的に異なる複数の評価値を、第一の閾値に設定したことで、様々な短縮文長の短縮文候補が得られている。

次に、図３２Ｂに示す短縮文生成処理のステップＳ５０で、短縮文長設定部２１６が、短縮文長を設定する。そして、短縮文選択部１８が、バッファに格納された短縮文候補から、短縮文長が、設定された短縮文長の範囲内で最長となる短縮文候補を選択する。ただし、短縮文長が、設定された短縮文長の範囲内となる短縮文候補が存在しない場合には、最も短い長さの短縮文候補を選択する。さらに、ステップＳ６０で、短縮文出力部１９が、上記ステップＳ５０で選択された短縮文を出力し、短縮文生成処理は終了する。

以上説明したように、第３実施形態に係る短縮文生成装置５００によれば、短縮対象文に含まれる文節間の概念構造に基づいて、各文節に対応するノードを連結したツリー構造を生成する。そして、連結された２つのノード間に、該ノード間が短縮文生成の際に枝刈りされずに短縮文に残存する確率を示す結合確率を付与する。さらに、結合確率と出現確率に基づく評価値を算出する。なお、このとき、出現確率をより重みづけする事で、必須結合が枝切りされないようにすることができる。

そして、ルートノードから閾値以上の評価値で連結されたノードに基づいて、短縮候補文を生成する。このように、概念構造に基づく文節間の結合確率および出現確率を用いて、ノード間を枝刈りするか否かを判断するため、例えば、必須格の欠落を招くような枝刈りが抑制され、自然な短縮文を生成することができる。

また、短縮文生成装置５００は、複数の異なる評価値を、第一の閾値に順次設定して、複数の短縮文候補を生成することができる。よって、ユーザが所望する短縮文長の範囲内で最長となる短縮文候補を選択することが可能となるため、設定された短縮文長の範囲内で、より長く、かつ自然な短縮文を、出力することができる。

ただし、第３実施形態では、短縮対象文のツリー構造に含まれるノード間に付与された評価値の各々を、短縮文候補を生成する際の第一の閾値として順次設定する場合について説明したが、これに限定されない。例えば、短縮対象文のツリー構造に含まれるノード間に付与された評価値の最大値と最小値との間で、段階的に異ならせた複数の値を第一の閾値として、順次設定してもよい。

また、第３実施形態のように、設定する第一の閾値を徐々に小さくする場合には、作成される短縮文候補の長さは徐々に長くなる。そこで、作成された短縮文候補の長さが、設定された短縮文長を超えた場合には、短縮文候補生成処理（図３６）のステップＳ５０２のループ処理を終了するようにしてもよい。

＜変型例＞
（変型例１）
第２実施形態および第３実施形態においても、第１実施形態のように、概念構造を解析したツリー構造に変えて、係り受け解析したツリー構造を用いてもよい。また、第１実施形態においても、第２実施形態や第３実施形態のように、係り受け解析したツリー構造に変えて、概念構造解析したツリー構造を用いてもよい。各実施形態の処理内容は、適宜組み合わせ可能である。

（変型例２）
上記実施形態では、ノード組の属性毎の結合確率として、（１）式に示すような確率を用いる場合について説明したが、これに限定されない。例えば、（１）式で得られる確率に係数を乗算した値や、確率に値に応じて段階的に設定した度合い（例えば、結合度「大」、「中」、「小」など）を用いてもよい。出現確率についても、同様である。

（変型例３）
上記実施形態では、結合確率テーブルの各エントリに対して、ノード組の属性が該当する全ての結合確率を乗算した（対数の場合、加算）結合確率積を用いる場合について説明したが、これに限定されない。各結合確率の重み付き和や平均等により、全ての結合確率を統合した結合確率を用いてもよい。

（変型例４）
第１実施形態及び第２実施形態では、ルートノードから結合確率積が閾値以上、または、必須結合で結合されたノードを辿って抽出されたノードに対応する構成要素を、短縮対象文での出現順に並べて、短縮文又は短縮文候補を生成する場合について説明したが、これに限定されない。言語の種類や、どのノードが枝刈りされたなどによっては、短縮後の文の語順が短縮対象文と異ならせた方が自然な場合も考えられる。そこで、短縮対象文のツリー構造において、抽出されたノードがどのように連結されているかに基づいて、文法的又は概念的関係を考慮して、抽出されたノードに対応する構成要素を並び替えた短縮文を生成してもよい。

同様に、第３実施形態では、ルートノードから評価値が閾値以上のノードを辿って抽出されたノードに対応する構成要素を、短縮対象文での出現順に並べて、短縮文又は短縮文候補を生成する場合について説明したが、これに限定されない。言語の種類や、どのノードが枝刈りされたなどによっては、短縮後の文の語順が短縮対象文と異ならせた方が自然な場合も考えられる。そこで、短縮対象文のツリー構造において、抽出されたノードがどのように連結されているかに基づいて、文法的又は概念的関係を考慮して、抽出されたノードに対応する構成要素を並び替えた短縮文を生成してもよい。

（変型例５）
上記実施形態では、結合確率テーブル生成部１４または結合確率テーブル生成部２１４を含む構成について説明したが、これに限定されない。短縮文生成装置以外の情報処理装置で生成された結合確率テーブルを、短縮文生成装置の所定の記憶領域に記憶したり、短縮文生成時に短縮文生成装置に読み込んだりしてもよい。この場合、短縮文生成装置の構成から、結合確率テーブル生成部１４または結合確率テーブル生成部２１４を省略することができる。

さらに、上記実施形態では、出現確率テーブル生成部１１１または出現確率テーブル生成部３１１を含む構成について説明したが、これに限定されない。短縮文生成装置以外の情報処理装置で生成された出現確率テーブルを、短縮文生成装置の所定の記憶領域に記憶したり、短縮文生成時に短縮文生成装置に読み込んだりしてもよい。この場合、短縮文生成装置の構成から、出現確率テーブル生成部１１１または出現確率テーブル生成部３１１を省略することができる。

（変型例６）
第１実施形態及び第２実施形態では、原文又は短縮対象文の構成要素を文節とし、文節間の係り受け関係や概念構造を解析する場合について説明したが、これに限定されない。原文又は短縮対象文の構成要素として、第３実施形態のように、単語や句などを用いてもよく、対象の言語や所望する短縮率などに応じて、適切な単位の構成要素を用いればよい。

（変型例７）
上記実施形態では、結合確率テーブル生成時または出現確率テーブル生成時には、複数の文例３１が入力される場合について説明したが、入力される文例３１は１つであってもよい。

（変型例８）
上記実施形態では、短縮文生成プログラム４５０、７５０、８５０が予め記憶（インストール）されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＵＳＢメモリ等の記録媒体に記録された形態で提供することも可能である。

（変型例９）
第２実施形態において、設定された短縮文長の範囲内となる短縮文候補が存在しない場合には、最も短い長さの短縮文候補を選択するとしたが、設定された短縮文長の範囲内となる短縮文候補が存在しない場合には、図３９に示す追加処理を実行してもよい。

図３９は、追加処理の一例を示すフローチャートである。短縮文選択部１８は、ステップＳ６００において、設定された短縮文長の範囲内となる短縮文候補が存在するかを判定する。設定された短縮文長の範囲内となる短縮文候補が存在する場合には、ステップＳ６００において肯定判定がなされ、ステップＳ６０が実行される。

一方、設定された短縮文長の範囲内となる短縮文候補が存在しない場合には、ステップ６００において否定判定がなされ、短縮文選択部１８は、ステップＳ６０１において、必須結合として設定されているノード組３６の出現確率を、値の大きい順位にソートして、配列に格納する。

次に、ループ処理ステップ６０２が、配列に格納されたすべての出現確率について、実行される。ステップＳ６０３において、短縮文選択部１８は、処理対象の出現確率を第三の閾値に設定する。そして、ステップＳ６０４において、短縮文選択部１８は、必須結合として設定されたノード組３６に対して、第三の閾値以下の必須結合を解除する。

短縮文選択部１８は、ステップＳ６０５において、必須結合が少なくとも一部解除されたツリー構造において、ルートのノードから辿れるノードを抽出する。そして、短縮文選択部１８は、ステップＳ６０６において、抽出したノードを含む仮短縮文を生成する。ステップＳ６０７において、短縮文選択部１８は、仮短縮文の長さが、設定された短縮文長以下であるかを判定する。仮短縮文の長さが、設定された短縮文長以下である場合には、ステップＳ６０７において肯定判定がなされ、ループ処理ステップＳ６０２を抜けて、ステップＳ６０に戻り、仮短縮文が、短縮文として出力される。一方、仮短縮文の長さが、設定された短縮文長よりも長い場合には、ステップＳ６０７において、否定判定がなされ、新たな出現確率を処理対象として、ステップＳ６０３乃至ステップＳ６０７の処理が繰り返される。

このように、追加処理によって、短縮文長が、設定された短縮文長の範囲内となる短縮文候補が存在しない場合には、設定された短縮文長の範囲内となる仮短縮文を生成し、ユーザへ提供することができる。

＜各実施例に係る効果＞
最後に、上記実施形態に係る効果を、具体例を用いて説明する。なお、具体例としては、第２実施例で用いた文例と第２実施例の手法を利用して説明するが、他の実施例も、同様の効果を奏する。

図４０および図４１は、比較例を説明するための図である。図４０および図４１では、比較例として、出現確率に基づく必須結合を考慮しない場合の短縮文候補の生成例が示されている。つまり、ツリー構造に含まれるノード間に結合確率積のみが付与されている。したがって、図４０および図４１では、複数の結合確率積の各々を第一の閾値として設定し、短縮文候補を生成した場合には、次のような短縮文候補が生成されることになる。

図４０において、例えば、第一の閾値として結合確率「−１．４２」が設定された場合には、ルートノード「なった。」のみが、短縮文候補に含めるノードとして抽出される。図２３と比較して、必須結合が設定されていないため、ノード「薬剤師に」が抽出されない。よって、この時の、短縮文候補は、「なった。」のみとなる。

図４１において、例えば、第一の閾値として結合確率「−１．８１」が設定された場合には、ルートノード「なった。」、第一の閾値以上の結合確率でルートノードと結合されたノード「取って」、第一の閾値以上の結合確率でルートノードと結合されたノード「薬剤師に」が、短縮文候補に含めるノードとして抽出される。よって、短縮文候補は、「取って薬剤師になった。」となる。

図４２は、比較例により生成される短縮文候補の一覧である。図４２には、「なった。」「取って薬剤師になった。」「彼は卒業したあと、取って薬剤師になった。」等の必須格が欠落した文も含まれている。したがって、出現確率を考慮しない場合には、必須格が欠落したような、不自然な短縮文が出力される可能性がある。

したがって、上記実施例で説明したように、用言毎、かつ、属性ごとの出現確率を用いて、必須結合を枝切りする可能性を低減させることで、各実施例は、用言毎、かつ、属性ごとの出現確率を用いない場合と比較して、より自然な短縮文を説明することができる。

１００、３００、５００短縮文生成装置
１１文入力部
１２形態素解析部
１３係り受け解析部
１４、２１４結合確率テーブル生成部
１５、２１５結合確率付与部
１６閾値設定部
１８短縮文選択部
１９短縮文出力部
２０、２２０、５２０結合確率テーブル
１１１、３１１出現確率テーブル生成部
１１２、３１２、５１２出現確率テーブル
１１３、３１３必須結合判定部
１１７短縮文生成部
２１３概念構造解析部
２１６短縮文長設定部
３１７、５１７短縮文候補生成部
５１３評価値算出部
５１４重み値テーブル

Claims

文を構成する複数の構成要素から一部の構成要素を除外した短縮文を生成する生成装置であって、
前記複数の構成要素のうち文法的又は概念的関係で連結される２つの構成要素間の特徴毎に、該２つの構成要素を組として前記短縮文に残すかを判断するための、第一の指標を記憶する第一の記憶部と、
前記２つの構成要素の一方が用言、他方が該用言に対する格である場合に、該用言が持つ意味に応じて、該２つの構成要素を組として前記短縮文に残すかを判断するための、第二の指標を記憶する第二の記憶部と、
前記文を構成する複数の構成要素において、前記文法的又は前記概念的関係に連結された２つの構成要素の組ごとに、前記第一の指標と前記第二の指標とに基づき、前記複数の構成要素から前記一部の構成要素を除外する事で、前記短縮文を生成する生成部と
を有することを特徴とする短縮文生成装置。
前記第二の指標が閾値以上である前記２つの構成要素の組の間の連結を、必須結合として判定する判定部を含み、
前記生成部は、前記判定部の判定結果に基づき、前記短縮文を生成することを特徴とする請求項１に記載の短縮文生成装置。
前記複数の構成要素を前記文法的又は前記概念的関係で表したツリー構造を生成する解析部を含み、
前記生成部は、前記ツリー構造における起点となる構成要素から、前記第一の指標が閾値以上となる構成要素、または、前記必須結合とされた構成要素を順次連結することで、前記短縮文を生成することを特徴とする請求項２記載の短縮文生成装置。
前記第一の指標と前記第二の指標に基づく評価値を、前記２つの構成要素の組ごとに算出する算出部を有し、
前記生成部は、前記評価値に基づき、前記短縮文を生成することを特徴とする請求項１記載の短縮文生成装置。
前記複数の構成要素を前記文法的又は前記概念的関係で表したツリー構造を生成する解析部を含み、
前記生成部は、前記ツリー構造における起点となる構成要素から、前記評価値が閾値以上となる構成要素を順次連結することで、前記短縮文を生成することを特徴とする請求項４記載の短縮文生成装置。
前記算出部は、前記第一の指標よりも前記第二の指標を重みづけした前記評価値を算出することを特徴とする請求項４または５記載の短縮文生成装置。
前記構成要素は、単語、文節、または句であることを特徴とする請求項１乃至６のいずれか一項に記載の短縮文生成装置。
文を構成する複数の構成要素から一部の構成要素を除外した短縮文を生成するコンピュータが、
前記複数の構成要素のうち文法的又は概念的関係で連結される２つの構成要素間の特徴毎に、該２つの構成要素を組として前記短縮文に残すかを判断するための、第一の指標を記憶する第一の記憶部と、前記２つの構成要素の一方が用言、他方が該用言に対する格である場合に、該用言が持つ意味に応じて、該２つの構成要素を組として前記短縮文に残すかを判断するための、第二の指標を記憶する第二の記憶部とを参照し、
前記文を構成する複数の構成要素において、前記文法的又は前記概念的関係に連結された２つの構成要素の組ごとに、前記第一の指標と前記第二の指標とに基づき、前記複数の構成要素から前記一部の構成要素を除外する事で、前記短縮文を生成する
処理を実行することを特徴とする短縮文生成方法。
文を構成する複数の構成要素から一部の構成要素を除外した短縮文を生成するコンピュータに
前記複数の構成要素のうち文法的又は概念的関係で連結される２つの構成要素間の特徴毎に、該２つの構成要素を組として前記短縮文に残すかを判断するための、第一の指標を記憶する第一の記憶部と、前記２つの構成要素の一方が用言、他方が該用言に対する格である場合に、該用言が持つ意味に応じて、該２つの構成要素を組として前記短縮文に残すかを判断するための、第二の指標を記憶する第二の記憶部とを参照し、
前記文を構成する複数の構成要素において、前記文法的又は前記概念的関係に連結された２つの構成要素の組ごとに、前記第一の指標と前記第二の指標とに基づき、前記複数の構成要素から前記一部の構成要素を除外する事で、前記短縮文を生成する
処理を実行させることを特徴とする短縮文生成プログラム。