JP2016186772A - 短縮文生成装置、方法、及びプログラム - Google Patents

短縮文生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP2016186772A
JP2016186772A JP2015067516A JP2015067516A JP2016186772A JP 2016186772 A JP2016186772 A JP 2016186772A JP 2015067516 A JP2015067516 A JP 2015067516A JP 2015067516 A JP2015067516 A JP 2015067516A JP 2016186772 A JP2016186772 A JP 2016186772A
Authority
JP
Japan
Prior art keywords
sentence
shortened
tree structure
degree
constituent elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015067516A
Other languages
English (en)
Other versions
JP6565262B2 (ja
Inventor
片江 伸之
Nobuyuki Katae
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015067516A priority Critical patent/JP6565262B2/ja
Priority to US15/068,698 priority patent/US9767193B2/en
Publication of JP2016186772A publication Critical patent/JP2016186772A/ja
Application granted granted Critical
Publication of JP6565262B2 publication Critical patent/JP6565262B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】自然な短縮文を生成する。
【解決手段】係り受け解析部13は、短縮対象文を、該短縮対象文に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現する。結合確率テーブル20には、原文と該原文を短縮した短縮文との1又は複数の組から、原文を表すツリー構造に含まれる構成要素間の連結が短縮文において残存する度合いとして得られた、構成要素間の文法的又は概念的関係を示す属性毎の結合度が格納される。結合確率付与部15は、結合確率テーブル20に基づいて、短縮対象文を表すツリー構造に含まれる連結した構成要素間の各々に結合度を付与する。短縮文生成部17は、付与された構成要素間の各々の結合度に基づいて、短縮文に含める構成要素を抽出して、短縮文を生成する。
【選択図】図1

Description

開示の技術は、短縮文生成装置、短縮文生成方法、及び短縮文生成プログラムに関する。
入力文書を自動的に短く簡潔な文書に変換する文書要約技術が存在する。文書要約技術では、入力文書から重要文を抽出し、抽出した重要文を短縮することにより、要約文を生成する方式が一般的である。
文を短縮する方法としては、入力文のツリー構造(係り受け構造など)において、不要な部分を枝刈りする方法が知られている。例えば、形態素解析及び係り受け解析済みの入力文の依存構造に基づいて、当該入力文を構成する文節を組み合わせて短縮文の候補を生成する技術が提案されている。この技術では、コーパスから得られる任意の単語の重要度、及び任意の文節間の連接確率を用いて各候補の生成確率を求め、予め指定された長さの範囲で最も生成確率が高い要約文の候補を出力する。
特開2010−140468号公報
しかしながら、従来技術では、単語の重要度及び前後の文節間の連接確率を用いて生成確率を求めているため、例えば、必須格が欠落しているような不自然な文であっても、生成確率が高くなる場合があり、その候補が短縮文として採用されてしまう可能性がある。また、一方で、候補の一部に、単語の重要度又は連接確率の低い部分が含まれる場合には、その候補が自然な文であっても、その候補に対する生成確率は低くなり、短縮文として採用されない可能性がある。
開示の技術は、自然な短縮文を生成することを目的とする。
開示の技術は、一つの態様として、短縮対象文を、該短縮対象文に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現する解析部を備える。また、開示の技術は、前記短縮対象文を表すツリー構造に含まれる連結した構成要素間の各々に結合度を付与する付与部を備える。結合度は、原文と該原文を短縮した短縮文との1又は複数の組から、前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いとして、構成要素間の文法的又は概念的関係を示す属性毎に得られたものである。また、開示の技術は、前記付与部により付与された構成要素間の各々の結合度に基づいて、短縮文に含める構成要素を抽出して、短縮文を生成する生成部を備える。
一つの側面として、自然な短縮文を生成することができる、という効果を有する。
第1実施形態に係る短縮文生成装置の概略構成を示す機能ブロック図である。 文例、ツリー構造、及びノード組を説明するための図である。 第1実施形態における結合確率テーブルの一例を示す図である。 第1実施形態に係る短縮文生成装置として機能するコンピュータの概略構成を示すブロック図である。 結合確率テーブル生成処理の一例を示すフローチャートである。 第1実施形態における短縮文生成処理の一例を示すフローチャートである。 短縮対象文のツリー構造の一例を示す図である。 ノード組の設定を説明するための図である。 結合確率積の導出を説明するための図である。 ノード間に結合確率積が付与されたツリー構造の一例を示す図である。 短縮文の生成を説明するための図である。 第2実施形態に係る短縮文生成装置の概略構成を示す機能ブロック図である。 短縮対象文のツリー構造の一例を示す図である。 ノード組の設定を説明するための図である。 第2実施形態における結合確率テーブルの一例を示す図である。 第2実施形態に係る短縮文生成装置として機能するコンピュータの概略構成を示すブロック図である。 第2実施形態における短縮文生成処理の一例を示すフローチャートである。 結合確率積の導出を説明するための図である。 ノード間に結合確率積が付与されたツリー構造の一例を示す図である。 短縮文候補生成処理の一例を示すフローチャートである。 配列に格納された結合確率積の一例を示す図である。 短縮文候補の生成を説明するための図である。 短縮文候補の生成を説明するための図である。 短縮文候補の生成を説明するための図である。 短縮文候補の生成を説明するための図である。 バッファに格納されている短縮文候補の一覧を示す図である。
以下、図面を参照して、開示の技術に関する実施形態の一例を詳細に説明する。
<第1実施形態>。
図1に示すように、第1実施形態に係る短縮文生成装置10は、文入力部11と、形態素解析部12と、係り受け解析部13と、結合確率テーブル生成部14と、結合確率付与部15と、閾値設定部16と、短縮文生成部17と、短縮文出力部19とを含む。また、短縮文生成装置10には、結合確率テーブル20が記憶される。なお、形態素解析部12及び係り受け解析部13は、開示の技術の解析部の一例である。また、結合確率テーブル生成部14は、開示の技術の導出部の一例である。また、結合確率付与部15は、開示の技術の付与部の一例である。また、短縮文生成部17は、開示の技術の生成部の一例である。
短縮文生成装置10には、複数の文例、又は短縮文を生成する対象となる入力文(以下、「短縮対象文」という)が入力される。より具体的には、後述する結合確率テーブル20の生成時には、複数の文例が入力され、短縮文生成時には、短縮対象文が入力される。図2に示すように、文例31は、原文32と、その原文を短縮した短縮文33とを組にしたものである。短縮文は、例えば、必須格の欠落が生じていないような自然な短縮文を人手により用意する。
文例31又は短縮対象文は、短縮文生成装置10に接続されたキーボード等の入力装置を介して入力したり、HDD(Hard Disk Drive)やUSBメモリやCD−ROMなどの記憶媒体、またはネットワークを介して接続された外部記憶装置等から読み込むことにより入力したりすることができる。なお、本実施形態では、文例31又は短縮対象文は、テキストデータで入力される場合について説明するが、音声データで入力し、音声認識によりテキストデータに変換する方式としてもよい。
文入力部11は、短縮文生成装置10に入力された複数の文例31又は短縮対象文を受け付け、形態素解析部12へ受け渡す。
形態素解析部12は、形態素解析辞書を参照して、文例31に含まれる原文の各々又は短縮対象文を形態素単位に分解し、各形態素に、その形態素の品詞等の情報を付与する。
係り受け解析部13は、形態素解析結果に基づいて、例えば、名詞と後置詞(助詞)とを1つにまとめるなどの処理により、原文32の各々又は短縮対象文の文節単位を解析し、係り受けの規則に従って、文節間の係り受け関係を解析する。これにより、原文32の各々又は短縮対象文を、原文32の各々又は短縮対象文に含まれる文節間を係り受け関係に基づいて連結したツリー構造で表現することができる。原文32を係り受け解析したツリー構造の一例を図2に示す。図2に示すように、原文32(又は短縮対象文)に含まれる文節の各々をノードで表し、係り受け関係にある文節間に対応するノード間を線で連結して、ツリー構造34を表現する。
結合確率テーブル生成部14は、短縮文生成装置10に複数の文例が入力された場合、すなわち、結合確率テーブル20の生成時に機能する機能部である。結合確率テーブル生成部14は、複数の文例31に基づいて、原文32を表すツリー構造34に含まれる各文節間の連結が、その原文32と組である短縮文33において残存する確率を、文節間の係り受け関係の属性毎に導出する。
具体的には、結合確率テーブル生成部14は、ツリー構造34の各々から、線で連結された2つのノードをノード組35として抽出する。結合確率テーブル生成部14は、ノード組35のうち、原文32において係り元となる文節に対応するノードをFROMノード、係り先となる文節に対応するノードをTOノードとして特定する。例えば、図2において、破線で囲んだノード組35Aでは、文節「論客が」に対応するノードがFROMノード、文節「去った」に対応するノードがTOノードとして特定される。なお、以下では、文節「A」に対応するノードをノード「A」と表記する。また、個々のノード組を区別なく説明する場合には、単に「ノード組35」と表記し、個々のノード組を区別する場合には、「ノード組35A」、「ノード組35B」、・・・のように、アルファベット記号を付加した符号で表記する。
結合確率テーブル生成部14は、全ての文例31の原文32の各々を表すツリー構造34の各々に含まれる全てのノード組35から、属性が同一のノード組35について、ノード組の属性毎の結合確率を導出する。ノード組の属性毎の結合確率とは、その属性に該当するノード組が枝刈りされずに短縮文に残存する確率である。また、ノード組の属性とは、ノード組35が有する文法的特徴であり、例えば、FROMノード又はTOノードに対応する文節に、特定の品詞の形態素が含まれるか又は含まれないか等の情報である。例えば、「FROMノードが助詞「が」を含む」、「FROMノードが助詞「が」を含まない」、「TOノードが動詞を含む」、「TOノードが動詞を含まない」などを、ノード組の属性とすることができる。なお、1つのノード組35が複数の属性に該当する場合がある。
結合確率テーブル生成部14は、例えば、下記(1)式により、属性iのノード組の結合確率を導出する。
Figure 2016186772
(1)式において、「属性iのノード組の数」とは、全てのノード組35のうち、属性iに該当するノード組35の数である。「短縮文に残存する属性iのノード組の数」とは、属性iに該当するノード組35であって、ノード組35に含まれる2つのノードに対応する文節が、そのノード組35を含む原文32を短縮した短縮文33に残存しているノード組の数である。短縮文33に残存しているノード組35、すなわち、短縮文33生成の際にノード間が枝刈りされなかったノード組35の数が多いほど、結合確率が高くなる。
図2を参照して、短縮文に残存するノード組35について説明する。なお、図2に示すツリー構造34では、短縮文に残存するノードを、太線枠のノードで示している。図2において、破線で囲んだノード組35A(FROMノード「論客が」、TOノード「去った」)は、両ノードとも短縮文に残存する。すなわち、ノード組35Aのノード間は枝刈りされない。一方、図2において、一点破線で囲んだノード組35B(FROMノード「日」、TOノード「去った」)は、ノード「去った」は短縮文33に残存するが、ノード「日」は短縮文に残存しない。すなわち、ノード「日」とノード「去った」との間で、枝刈りされる。なお、図2において、二点破線で囲んだノード組35Cのように、両ノードとも短縮文33に含まれない場合は、結合確率の導出に用いるノード組の対象としない。
結合確率テーブル生成部14は、複数の文例31を用いて、例えば上記(1)式により導出したノード組の属性毎の結合確率を、例えば図3に示すような結合確率テーブル20に格納する。図3の例では、1つのノード組の属性に対する1つの結合確率の値が、1エントリとして格納されている。なお、図3の例では、結合確率を対数表示している。結合確率テーブル生成部14は、生成した結合確率テーブル20を所定の記憶領域に記憶する。
以下の結合確率付与部15、閾値設定部16、短縮文生成部17、及び短縮文出力部19は、短縮文生成装置10に短縮対象文が入力された場合、すなわち、短縮文生成時に機能する機能部である。
結合確率付与部15は、結合確率テーブル20に格納されたノード組の属性毎の結合確率を用いて、係り受け解析部13により解析された短縮対象文のツリー構造34における各ノード間に結合確率を付与する。具体的には、結合確率付与部15は、結合確率テーブル生成部14と同様に、短縮対象文を解析したツリー構造34から、線で連結された2つのノードをノード組35として抽出し、FROMノード及びTOノードを特定する。そして、結合確率付与部15は、結合確率テーブル20から、各ノード組35が該当する属性の全ての結合確率を取得し、それらの積を、該当のノード組35の結合確率積として付与する。
閾値設定部16は、入力装置を介して入力されたり、予め所定の記憶領域に記憶されたりしている結合確率積の閾値を、短縮文生成部17に設定する。
短縮文生成部17は、短縮対象文のツリー構造34において、ルートノードから、閾値設定部16により設定された閾値以上の結合確率積で結合されているノードを辿り、中断なく辿ることができた経路上のノードを抽出する。なお、係り受け構造を表すツリー構造におけるルートノードは、短縮対象文において係り先を持たない文節に対応するノードである。短縮文生成部17は、抽出したノードに対応する文節を、短縮対象文における出現順に並べることにより、短縮文を生成する。
短縮文出力部19は、短縮文生成部17により生成された短縮文を、表示装置に表示したり、記憶媒体に記憶したり、プリンタで印字したりするなどして、出力する。
短縮文生成装置10は、例えば、図4に示すコンピュータ40で実現することができる。コンピュータ40はCPU41、一時記憶領域としてのメモリ42、及び不揮発性の記憶部43を備える。また、コンピュータ40は、表示装置及び入力装置等の入出力装置48が接続される入出力インターフェース(I/F)44を備える。また、コンピュータ40は、記録媒体49に対するデータの読み込みと書き込みとを制御するread/write(R/W)部45、及びインターネット等のネットワークに接続されるネットワークI/F46を備える。CPU41、メモリ42、記憶部43、入出力I/F44、R/W部45、及びネットワークI/F46は、バス47を介して互いに接続される。
記憶部43は、HDD(Hard Disk Drive)、SSD(solid state drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部43には、コンピュータ40を短縮文生成装置10として機能させるための短縮文生成プログラム50が記憶される。また、記憶部43は、結合確率テーブル20を構成する情報が記憶される結合確率情報記憶領域60を有する。
CPU41は、短縮文生成プログラム50を記憶部43から読み出してメモリ42に展開し、短縮文生成プログラム50が有するプロセスを順次実行する。また、CPU41は、結合確率情報記憶領域60から情報を読み出し、結合確率テーブル20をメモリ42に展開する。
短縮文生成プログラム50は、文入力プロセス51と、形態素解析プロセス52と、係り受け解析プロセス53と、結合確率テーブル生成プロセス54と、結合確率付与プロセス55と、閾値設定プロセス56とを有する。また、短縮文生成プログラム50は、短縮文生成プロセス57と、短縮文出力プロセス59とを有する。
CPU41は、文入力プロセス51を実行することで、図1に示す文入力部11として動作する。また、CPU41は、形態素解析プロセス52を実行することで、図1に示す形態素解析部12として動作する。また、CPU41は、係り受け解析プロセス53を実行することで、図1に示す係り受け解析部13として動作する。また、CPU41は、結合確率テーブル生成プロセス54を実行することで、図1に示す結合確率テーブル生成部14として動作する。また、CPU41は、結合確率付与プロセス55を実行することで、図1に示す結合確率付与部15として動作する。また、CPU41は、閾値設定プロセス56を実行することで、図1に示す閾値設定部16として動作する。また、CPU41は、短縮文生成プロセス57を実行することで、図1に示す短縮文生成部17として動作する。また、CPU41は、短縮文出力プロセス59を実行することで、図1に示す短縮文出力部19として動作する。これにより、短縮文生成プログラム50を実行したコンピュータ40が、短縮文生成装置10として機能することになる。
なお、短縮文生成プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
次に、第1実施形態に係る短縮文生成装置10の作用について説明する。結合確率テーブル20の生成時において、短縮文生成装置10に複数の文例31が入力されると、図5に示す結合確率テーブル生成処理が実行される。また、短縮文生成時において、短縮文生成装置10に短縮対象文が入力されると、図6に示す短縮文生成処理が実行される。なお、短縮文生成装置10において実行される短縮文生成処理は、開示の技術の短縮文生成方法の一例である。以下、各処理について説明する。
まず、結合確率テーブル生成処理について説明する。
図5に示す結合確率テーブル生成処理のステップS11で、文入力部11が、入力された複数の文例31を受け付ける。次に、ステップS12で、形態素解析部12が、文例31に含まれる原文32の各々を形態素解析する。次に、ステップS13で、係り受け解析部13が、形態素解析結果に基づいて、原文32の各々を係り受け解析し、図2に示すように、原文32の各々の文節間の係り受け関係を表現したツリー構造34を生成する。
次に、ステップS14で、結合確率テーブル生成部14が、全ての原文32のツリー構造34の各々から、全てのノード組35を抽出し、各ノード組のFROMノード及びTOノードを特定する。そして、結合確率テーブル生成部14が、各ノード組35の属性、及び各ノード組35が短縮文に残存するか又は短縮時に枝刈りされるかに基づいて、例えば、上記(1)式により、ノード組の属性毎の結合確率を導出する。
次に、ステップS15で、結合確率テーブル生成部14が、上記ステップS14で導出したノード組の属性毎の結合確率を、例えば図3に示すような結合確率テーブル20に格納し、所定の記憶領域に記憶し、結合確率テーブル生成処理は終了する。
次に、短縮文生成処理について説明する。
図6に示す短縮文生成処理のステップS21で、文入力部11が、短縮文生成装置10に入力された短縮対象文を受け付ける。ここでは、文入力部11が、「天気がとてもよかったので、お弁当を持って緑の多い公園にハイキングに行った。」という短縮対象文を受け付けたものとする。
次に、ステップS22で、形態素解析部12が、短縮対象文を形態素解析する。次に、ステップS23で、係り受け解析部13が、形態素解析結果に基づいて、短縮対象文を係り受け解析し、短縮対象文の文節間の係り受け関係を表現したツリー構造34を生成する。ここでは、図7に示すようなツリー構造34が生成されたものとする。なお、図7に示すツリー構造34における各ノードの右肩に付与した数字は、各ノードに対応する文節の短縮対象文での出現順を示す。
次に、ステップS24のループ処理で、結合確率付与部15が、上記ステップS23で生成されたツリー構造34に含まれるノード組を1つずつ処理対象として設定し、ステップS25の処理、ステップS26のループ処理、及びステップS29の処理を実行する。ここでは、まず、図8に示すように、破線で囲んだノード組35(ノード「天気が」、ノード「よかったので、」)が、処理対象のノード組に設定されたものとする。
ステップS25では、結合確率付与部15が、処理対象のノード組35の結合確率積を示す変数xに、初期値として「0.0」を設定する。
次に、ステップS26のループ処理で、結合確率付与部15が、結合確率テーブル20に含まれる各エントリを1つずつ処理対象として設定し、以下のステップS27及びS28の処理を実行する。
ステップS27では、結合確率付与部15が、処理対象のノード組35に含まれる各ノードに対応する文節の短縮対象文での出現順に基づいて、FROMノード及びTOノードを特定する。ここでは、ノード「天気が」がFROMノード、ノード「よかったので、」がTOノードとして特定される。そして、結合確率付与部15が、処理対象のノード組35の属性が、処理対象のエントリの属性に合致するか否かを判定する。合致する場合には、処理はステップS28へ移行し、合致しない場合には、ステップS28の処理はスキップされる。例えば、処理対象のエントリのノード組の属性が「FROMノードが助詞「が」を含む」であるとする。ここでは、処理対象のノード組35のFROMノード「天気が」は、助詞「が」を含むため、合致すると判定され、処理はステップS28へ移行する。
ステップS28では、変数xに処理対象のエントリの結合確率の値を加算する。ここでは、初期値である「0.0」に、処理対象のエントリの結合確率「−0.12」が加算されて、xが「−0.12」となる。なお、本実施形態では、結合確率を対数に変換して扱うため、ノード組の属性が合致するエントリの結合確率をxに加算しているが、結合確率を真数のまま用いる場合には、ノード組の属性が合致するエントリの結合確率とxとを乗算する。
結合確率テーブル20に含まれる全てのエントリについて、ステップS26のループ処理が終了すると、処理はステップS29へ移行する。この段階で、結合確率積xとして、図9に示すように、処理対象のノード組35について、そのノード組の属性に該当する結合確率を全て乗算(対数の場合、加算)した値が得られている。ステップS29では、結合確率付与部15が、処理対象のノード組35に含まれる2つのノード間の結合確率積として、xを付与する。
上記ステップS23で生成されたツリー構造34に含まれる全てのノード組に対して結合確率積を付与する処理が終了すると、ループ処理S24が終了する。この段階では、図10に示すように、ツリー構造34に含まれる各ノード間に結合確率積が付与された状態となる。なお、図10において、ノードとノードとを連結する線に併記した数字が結合確率積である。
次に、ステップS30で、閾値設定部16が、結合確率積の閾値を設定する。そして、短縮文生成部17が、短縮対象文のツリー構造34において、ルートノードから、設定された閾値以上の結合確率積で結合されているノードを辿り、中断なく辿ることができた経路上のノードを抽出する。
例えば、設定された閾値を「−4.0」とした場合の例を図11に示す。図11では、閾値以上の結合確率積で連結されているノード間の線を太実線で、閾値未満の結合確率積で連結されているノード間の線を破線で示している。まず、ルートノード「行った。」から、ルートノードとの結合確率積が閾値以上のノード「持って」、ノード「公園に」、及びノード「ハイキングに」の各々へ辿る。ルートノードとノード「よかったので、」との結合確率積は閾値未満であるため、ノードを辿る処理は、ルートノード「行った。」で中断する。さらに、ノード「持って」とノード「お弁当を」との間の結合確率積も閾値以上であるため、ノード「持って」からノード「お弁当を」へ辿る。一方、ノード「公園に」と連結されているノード「多い」との間の結合確率積は閾値未満であるため、ノードを辿る処理はノード「公園に」で中断する。さらに連結するノードが存在しないノード「ハイキングに」も同様である。従って、ルートノード「行った」を含み、ルートノードから中断なく辿ることができたノード「持って」、ノード「公園に」、ノード「ハイキングに」、ノード「お弁当を」が抽出される。
次に、ステップS31で、短縮文生成部17が、上記ステップS30で抽出したノードに対応する文節を、短縮対象文における出現順に並べることにより、短縮文を生成する。図11に示すように、閾値を「−4.0」とした例では、「お弁当を持って公園にハイキングに行った。」という短縮文が生成される。上記ステップS30で抽出されたノードを用いて短縮文を生成することで、ノードを辿る処理が中断された箇所(ノード間)で枝刈りされ短縮文が生成される。
次に、ステップS60で、短縮文出力部19が、上記ステップS31で生成された短縮文を出力し、短縮文生成処理は終了する。
以上説明したように、第1実施形態に係る短縮文生成装置10によれば、短縮対象文に含まれる文節間の係り受け関係を、各文節に対応するノードを連結したツリー構造で表現する。そして、連結された2つのノード間に、該ノード間が短縮文生成の際に枝刈りされずに短縮文に残存する確率を示す結合確率を付与する。そして、ルートノードから閾値以上の結合確率で連結されたノードを辿って抽出されたノードに基づいて、短縮文を生成する。このように、係り受け関係に基づく文節間の結合確率を用いて、ノード間を枝刈りするか否かを判断するため、例えば、必須格の欠落を招くような枝刈りが抑制され、自然な短縮文を生成することができる。
<第2実施形態>
次に、第2実施形態について説明する。なお、第2実施形態に係る短縮文生成装置について、第1実施形態に係る短縮文生成装置10と同様の部分については、同一符号を付して詳細な説明を省略する。
図12に示すように、第2実施形態に係る短縮文生成装置210は、文入力部11と、形態素解析部12と、概念構造解析部213と、結合確率テーブル生成部214と、結合確率付与部215と、短縮文長設定部216と、短縮文候補生成部217とを含む。また、短縮文生成装置210は、短縮文選択部18と、短縮文出力部19とを含む。さらに、短縮文生成装置210には、結合確率テーブル220が記憶される。なお、形態素解析部12及び概念構造解析部213は、開示の技術の解析部の一例である。また、結合確率テーブル生成部214は、開示の技術の導出部の一例である。また、結合確率付与部215は、開示の技術の付与部の一例である。また、短縮文候補生成部217及び短縮文選択部18は、開示の技術の生成部の一例である。
概念構造解析部213は、形態素解析部12による形態素解析結果に基づいて、原文32の各々又は短縮対象文の文節単位を解析し、語彙概念構造辞書を参照して、文節間の意味関係を特定し、原文32の各々又は短縮対象文の概念構造を解析する。これにより、原文32の各々又は短縮対象文を、原文32又は短縮対象文に含まれる文節間を概念構造に基づいて連結したツリー構造で表現することができる。原文32を概念構造解析したツリー構造の一例を図13に示す。図13に示すように、原文32(又は短縮対象文)に含まれる文節の各々をノードで表し、意味的に関係のある文節間に対応するノード間を矢印で連結して、ツリー構造234を表現する。また、矢印で連結されたノード間には、連結されたノード間の関係の種別を示す関係種別が付与されている。図13の例では、例えば、ノード「天気が」とノード「よかったので、」との間の関係種別は「形容対象」であることを表している。また、ノードの矢印の向きもノード間の関係を表しており、例えば、上記の例では、矢印の終点側のノード「天気が」が、矢印の始点側のノード「よかったので、」の「形容対象」であることを表している。
結合確率テーブル生成部214は、第1実施形態における結合確率テーブル生成部14と同様に、ノード組の属性毎の結合確率を導出する。以下、第1実施形態における結合確率テーブル生成部14と異なる点について説明する。
第2実施形態における結合確率テーブル生成部214は、結合確率テーブル220を生成する際、ノード組の属性として、概念構造におけるノード間の関係種別も用いる。また、結合確率テーブル生成部214は、矢印で連結された2つのノードからなるノード組35のうち、矢印の始点側のノードをFROMノード、矢印の終点側のノードをTOノードとして特定する。例えば、図14において、破線で囲んだノード組35では、ノード「よかったので、」がFROMノード、ノード「天気が」がTOノードとして特定される。
図15に、第2実施形態の結合確率テーブル生成部214により生成される結合確率テーブル220の一例を示す。ノード組の属性の各々についての結合確率の導出方法は、第1実施形態と同様である。
結合確率付与部215は、結合確率テーブル220に格納されたノード組の属性毎の結合確率を用いて、概念構造解析部213により解析された短縮対象文のツリー構造234における各ノード間に結合確率積を付与する。ノード組35の矢印の始点側か終点側かに応じて、FROMノード及びTOノードを特定する点、及びノード間に付与する結合確率積に、ノード間の関係種別に応じた結合確率も反映される点が第1実施形態と異なる。その他の点については、第1実施形態の結合確率付与部15と同様である。
短縮文長設定部216は、入力装置を介して入力されたり、予め所定の記憶領域に記憶されたりしている所望の短縮文長を、短縮文選択部18に設定する。短縮文長とは、短縮文の長さであり、短縮文の文字数やバイト数で設定することができる。なお、短縮文長を設定する変わりに、対象短縮文の長さに対する短縮文の長さの割合(短縮率)を設定してもよい。
短縮文候補生成部217は、複数の異なる閾値の各々を設定し、設定した閾値毎に、短縮文候補を生成する。短縮文候補の生成方法は、第1実施形態における短縮文生成部17による短縮文の生成方法と同様である。複数の異なる閾値は、例えば、短縮対象文のツリー構造234に含まれるノード組35に付与された結合確率積の各々とすることができる。この場合、短縮文候補生成部217は、ノード組35に付与された結合確率積の各々を大きい順にソートし、値が大きな結合確率積から順に閾値に設定して、各々の閾値に応じた短縮文候補を生成する。なお、短縮文候補に含めるノードを抽出する際のルートノードは、ツリー構造234において、矢印の終点側にならないノードである。短縮文候補生成部217は、生成した短縮文候補の各々と、各短縮文候補の短縮文長とをバッファに格納する。
短縮文選択部18は、バッファに格納された短縮文候補から、短縮文長設定部216により設定された短縮文長の範囲内で最長の短縮文長となる短縮文候補を選択する。短縮文選択部18は、選択した短縮文候補を、出力する短縮文として、短縮文出力部19へ受け渡す。
短縮文生成装置210は、例えば、図16に示すコンピュータ70で実現することができる。コンピュータ70はCPU71、メモリ72、及び不揮発性の記憶部73を備える。また、コンピュータ70は、入出力装置78が接続される入出力I/F74、記録媒体79に対するデータの読み込みと書き込みとを制御するR/W部75、及びネットワークI/F76を備える。CPU71、メモリ72、記憶部73、入出力I/F74、R/W部75、及びネットワークI/F76は、バス77を介して互いに接続される。
記憶部73は、HDD、SSD、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部73には、コンピュータ70を短縮文生成装置210として機能させるための短縮文生成プログラム250が記憶される。また、記憶部73は、結合確率テーブル220を構成する情報が記憶される結合確率情報記憶領域60を有する。
CPU71は、短縮文生成プログラム250を記憶部73から読み出してメモリ72に展開し、短縮文生成プログラム250が有するプロセスを順次実行する。また、CPU71は、結合確率情報記憶領域60から情報を読み出し、結合確率テーブル220をメモリ72に展開する。
短縮文生成プログラム250は、文入力プロセス51と、形態素解析プロセス52と、概念構造解析プロセス253と、結合確率テーブル生成プロセス254と、結合確率付与プロセス255と、短縮文長設定プロセス256とを有する。また、短縮文生成プログラム250は、短縮文候補生成プロセス257と、短縮文選択プロセス58と、短縮文出力プロセス59とを有する。
CPU71は、概念構造解析プロセス253を実行することで、図12に示す概念構造解析部213として動作する。また、CPU71は、結合確率テーブル生成プロセス254を実行することで、図12に示す結合確率テーブル生成部214として動作する。また、CPU71は、結合確率付与プロセス255を実行することで、図12に示す結合確率付与部215として動作する。また、CPU71は、短縮文長設定プロセス256を実行することで、図12に示す短縮文長設定部216として動作する。また、CPU71は、短縮文候補生成プロセス257を実行することで、図12に示す短縮文候補生成部217として動作する。また、CPU71は、短縮文選択プロセス58を実行することで、図12に示す短縮文選択部18として動作する。他のプロセスについては、第1実施形態における短縮文生成プログラム50と同様である。これにより、短縮文生成プログラム250を実行したコンピュータ70が、短縮文生成装置210として機能することになる。
なお、短縮文生成プログラム250により実現される機能は、例えば半導体集積回路、より詳しくはASIC等で実現することも可能である。
次に、第2実施形態に係る短縮文生成装置210の作用について説明する。結合確率テーブル220の生成時において、短縮文生成装置210に複数の文例31が入力されると、図5に示す結合確率テーブル生成処理が実行される。また、短縮文生成時において、短縮文生成装置210に短縮対象文が入力されると、図17に示す短縮文生成処理が実行される。なお、短縮文生成装置210において実行される短縮文生成処理は、開示の技術のの短縮文生成方法の一例である。以下、各処理について説明する。
第2実施形態における結合確率テーブル220の生成時には、第1実施形態と同様、図5に示す結合確率テーブル生成処理が実行される。ただし、以下の点が、第1実施形態における処理と異なる。
ステップS13では、概念構造解析部213が、原文32の各々の概念構造を解析したツリー構造234を生成する。
ステップS14で、ノード組のFROMノード及びTOノードを特定する際、ノード組に含まれる2つのノードが、2つのノード間を連結する矢印の始点側か終点側かに基づいて特定される。また、ノード組の属性毎の結合確率を導出する際、ノード組の属性として、概念構造解析により得られたノード間の関係種別も含まれる。
次に、短縮文生成処理について説明する。なお、第1実施形態における短縮文生成処理と同様の処理となるステップについては、同一符号を付して詳細な説明を省略する。
図17に示す短縮文生成処理のステップS21で、文入力部11が、短縮文生成装置10に入力された短縮対象文を受け付ける。ここでは、文入力部11が、「天気がとてもよかったので、お弁当を持って緑の多い公園にハイキングに行った。」という短縮対象文を受け付けたものとする。
次に、ステップS22で、形態素解析部12が、短縮対象文を形態素解析する。次に、ステップS33で、概念構造解析部213が、形態素解析結果に基づいて、短縮対象文の概念構造を解析し、短縮対象文の概念構造を表現したツリー構造234を生成する。ここでは、図13に示すようなツリー構造234が生成されたものとする。
次に、ステップS24のループ処理で、結合確率付与部215が、上記ステップS33で生成されたツリー構造234に含まれるノード組を1つずつ処理対象として設定し、ステップS25の処理、ステップS26のループ処理、及びステップS29の処理を実行する。ここでは、まず、図14に示すように、破線で囲んだノード組35(ノード「天気が」、ノード「よかったので、」)が、処理対象のノード組35に設定されたものとする。
ステップS25では、結合確率付与部215が、処理対象のノード組35の結合確率積を示す変数xに、初期値として「0.0」を設定する。
次に、ステップS26のループ処理で、結合確率付与部215が、結合確率テーブル220に含まれる各エントリを1つずつ処理対象として設定し、以下のステップS27及びS28の処理を実行する。
ステップS27では、結合確率付与部215が、処理対象のノード組35に含まれる2つのノード間を連結する矢印の向きに基づいて、FROMノード及びTOノードを特定する。ここでは、ノード「天気が」がTOノード、ノード「よかったので、」がFROMノードとして特定される。そして、結合確率付与部215が、処理対象のノード組の属性が、処理対象のエントリの属性に合致するか否かを判定する。合致する場合には、処理はステップS28へ移行し、合致しない場合には、ステップS28の処理はスキップされる。例えば、処理対象のエントリのノード組の属性が「ノード間の関係種別が「形容対象」」であるとする。ここでは、処理対象のノード組35には、関係種別として「形容対象」が付与されているため、合致すると判定され、処理はステップS28へ移行する。ステップS28では、変数xに処理対象のエントリの結合確率の値を加算する。
結合確率テーブル220に含まれる全てのエントリについて、ステップS26のループ処理が終了すると、処理はステップS29へ移行する。この段階で、結合確率積xとして、図18に示すように、処理対象のノード組35について、そのノード組の属性に該当する結合確率を全て乗算(対数の場合、加算)した値が得られている。ステップS29では、結合確率付与部215が、処理対象のノード組35に含まれる2つのノードの間の結合確率として、xを付与する。
上記ステップS33で生成されたツリー構造234に含まれる全てのノード組35に対して結合確率を付与する処理が終了すると、ループ処理S24が終了する。この段階では、図19に示すように、ツリー構造234に含まれる各ノード間に結合確率積が付与された状態となる。なお、図19において、ノードとノードとを連結する矢印に併記した数字が結合確率積である。
次に、ステップS40で、図20に詳細を示す短縮文候補生成処理が実行される。
図20に示す短縮文候補生成処理のステップS41で、短縮文候補生成部217は、短縮対象文のツリー構造234に含まれる各ノード組35に付与された結合確率積の各々を大きい順にソートして、図21に示すように、配列に格納する。
次に、ステップS42のループ処理で、短縮文候補生成部217が、配列に格納された結合確率積を1つずつ処理対象に設定し、ステップS43〜S47の処理を実行する。ここでは、まず、図22に示すように、結合確率積「−1.04」が処理対象に設定されたものとする。図22では、閾値以上の結合確率積で連結されているノード間の矢印を太実線で、閾値未満の結合確率積で連結されているノード間の線を破線で示している。
ステップS43で、短縮文候補生成部217が、処理対象の結合確率積を、結合確率積の閾値として設定する。次に、ステップS44及びS45で、短縮文候補生成部217が、第1実施形態における短縮文生成処理(図6)のステップS30及びS31と同様の処理により、S43で設定した閾値に応じた短縮文候補を生成する。
次に、ステップS46で、短縮文候補生成部217が、上記ステップS45で生成した短縮文候補が、既にバッファに格納されている短縮文候補と同一か否かを判定する。同一ではない場合には、処理はステップS47へ移行する。ステップS47では、短縮文候補生成部217が、生成した短縮文候補と、その短縮文候補の短縮文長とをバッファに格納する。一方、既にバッファに格納されている短縮文候補と同一の場合には、ステップS47の処理はスキップされる。
例えば、図22の例では、ルートノード「行った。」と連結されたノードのうち、ノード間の結合確率積が閾値以上のノードが存在しないため、ルートノード「行った」のみが抽出され、短縮文候補「行った。」が生成される。現段階では、バッファは空であるので、生成された短縮文候補「行った。」がバッファに格納される。なお、図22では、抽出されたノードを太線枠で示している。
処理がステップS43に戻ると、短縮文候補生成部217が、配列に格納されている結合確率積のうち、次に大きい結合確率積を閾値に設定する。例えば、図23に示すように、結合確率積の閾値が「−1.77」に設定される。この場合、既にバッファに格納済みの短縮文候補と同一の「行った。」が生成されるため、ステップS47で肯定判定され、生成した短縮文候補をバッファに格納することなく、再び、処理はステップS43に戻る。
次に、ステップS43で、短縮文候補生成部217が、結合確率積の閾値として「−1.99」を設定すると、図23の場合と同様、短縮文候補として「行った。」が生成される。従って、ステップS47で肯定判定され、生成した短縮文候補をバッファに格納することなく、再び、処理はステップS43に戻る。
次に、ステップS43で、短縮文候補生成部217が、図24に示すように、結合確率積の閾値として「−2.20」を設定すると、短縮文候補として「公園に行った。」が生成される。この短縮文候補はバッファにまだ格納されていないため、ステップS47で否定判定され、生成した短縮文候補がバッファに格納され、再び、処理はステップS43に戻る。
次に、ステップS43で、短縮文候補生成部217が、図25に示すように、結合確率積の閾値として「−3.77」を設定すると、短縮文候補として「公園にハイキングに行った。」が生成される。この短縮文候補はバッファにまだ格納されていないため、ステップS47で否定判定され、生成した短縮文候補がバッファに格納され、再び、処理はステップS43に戻る。
配列に格納された全ての結合確率積について、ステップS42のループ処理が終了すると、短縮文候補生成処理は終了し、処理は短縮文生成処理(図17)に戻る。図26に、この段階でバッファに格納されている短縮文候補の一覧を示す。段階的に異なる複数の結合確率積を設定したことで、設定した閾値に応じて、様々な短縮文長の短縮文候補が得られている。
次に、図17に示す短縮文生成処理のステップS50で、短縮文長設定部216が、短縮文長を設定する。そして、短縮文選択部18が、バッファに格納された短縮文候補から、短縮文長が、設定された短縮文長の範囲内で最長となる短縮文候補を選択する。例えば、短縮文長として「30」が設定され、図26に示す短縮文候補が生成されている場合、短縮文長が30以下の短縮文候補のうち、短縮文長が最長の「公園にハイキングに行った」が選択される。
次に、ステップS60で、短縮文出力部19が、上記ステップS50で選択された短縮文を出力し、短縮文生成処理は終了する。
以上説明したように、第2実施形態に係る短縮文生成装置210によれば、短縮対象文に含まれる文節間の概念構造に基づいて、各文節に対応するノードを連結したツリー構造で生成する。そして、連結された2つのノード間に、該ノード間が短縮文生成の際に枝刈りされずに短縮文に残存する確率を示す結合確率を付与する。そして、ルートノードから閾値以上の結合確率で連結されたノードを辿って抽出されたノードに基づいて、短縮文を生成する。このように、概念構造に基づく文節間の結合確率を用いて、ノード間を枝刈りするか否かを判断するため、例えば、必須格の欠落を招くような枝刈りが抑制され、自然な短縮文を生成することができる。
また、複数の異なる結合確率積の閾値を設定して、複数の短縮文候補を生成し、その中で所望の短縮文長の範囲内で最長となる短縮文候補を選択するため、設定された短縮文長の範囲内で、より長く、かつ自然な短縮文を生成することができる。
なお、第2実施形態では、短縮対象文のツリー構造に含まれるノード間に付与された結合確率積の各々を、短縮文候補を生成する際の閾値として設定する場合について説明したが、これに限定されない。例えば、短縮対象文のツリー構造に含まれるノード間に付与された結合確率積の最大値と最小値との間で、段階的に異ならせた複数の値を閾値として設定してもよい。
また、第2実施形態のように、設定する閾値を徐々に小さくする場合には、作成される短縮文候補の長さは徐々に長くなる。そこで、作成された短縮文候補の長さが、設定された短縮文長を超えた場合には、短縮文候補生成処理(図20)のステップS42のループ処理を終了するようにしてもよい。
また、第2実施形態においても、第1実施形態のように、概念構造を解析したツリー構造に変えて、係り受け解析したツリー構造を用いてもよい。また、第1実施形態においても、第2実施形態のように、複数の閾値の各々に応じた短縮文候補を生成し、設定された短縮文長に基づいて、出力する短縮文を選択するようにしてもよい。各実施形態の処理内容は、適宜組み合わせ可能である。
また、上記第1及び第2実施形態では、ノード組の属性毎の結合確率として、(1)式に示すような確率を用いる場合について説明したが、これに限定されない。例えば、(1)式で得られる確率に係数を乗算した値や、確率に値に応じて段階的に設定した度合い(例えば、結合度「大」、「中」、「小」など)を用いてもよい。
また、上記第1及び第2実施形態では、結合確率テーブルの各エントリに対して、ノード組の属性が該当する全ての結合確率を乗算した(対数の場合、加算)結合確率積を用いる場合について説明したが、これに限定されない。各結合確率の重み付き和や平均等により、全ての結合確率を統合した結合確率を用いてもよい。
また、上記第1及び第2実施形態では、ルートノードから結合確率積が閾値以上のノードを辿って抽出されたノードに対応する文節を、短縮対象文での出現順に並べて、短縮文又は短縮文候補を生成する場合について説明したが、これに限定されない。言語の種類や、どのノードが枝刈りされたなどによっては、短縮後の文の語順が短縮対象文と異ならせた方が自然な場合も考えられる。そこで、短縮対象文のツリー構造において、抽出されたノードがどのように連結されているかに基づいて、文法的又は概念的関係を考慮して、抽出されたノードに対応する文節を並び替えた短縮文を生成してもよい。
また、上記第1及び第2実施形態では、結合確率テーブル生成部も含む構成について説明したが、これに限定されない。短縮文生成装置以外の情報処理装置で生成された結合確率テーブルを、短縮文生成装置の所定の記憶領域に記憶したり、短縮文生成時に短縮文生成装置に読み込んだりしてもよい。この場合、短縮文生成装置の構成から、結合確率テーブル生成部を省略することができる。
また、上記第1及び第2実施形態では、原文又は短縮対象文の構成要素を文節とし、文節間の係り受け関係や概念構造を解析する場合について説明したが、これに限定されない。原文又は短縮対象文の構成要素として、単語や句などを用いてもよく、対象の言語や所望する短縮率などに応じて、適切な単位の構成要素を用いればよい。
また、上記第1及び第2実施形態では、結合確率テーブル生成時には、複数の文例31が入力される場合について説明したが、入力される文例31は1つであってもよい。
なお、上記では、短縮文生成プログラム50、250が記憶部43に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD−ROM、DVD−ROM、USBメモリ等の記録媒体に記録された形態で提供することも可能である。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
短縮対象文を、該短縮対象文に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現する解析部と、
原文と該原文を短縮した短縮文との1又は複数の組から、前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いとして得られた、構成要素間の文法的又は概念的関係を示す属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる連結した構成要素間の各々に結合度を付与する付与部と、
前記付与部により付与された構成要素間の各々の結合度に基づいて、短縮文に含める構成要素を抽出して、短縮文を生成する生成部と、
を含む短縮文生成装置。
(付記2)
前記解析部は、前記構成要素間の係り受け関係に基づいて、前記短縮対象文をツリー構造で表現し、
前記付与部は、前記構成要素間の係り受け関係を示す属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる構成要素間の各々に結合度を付与する
付記1記載の短縮文生成装置。
(付記3)
前記解析部は、前記構成要素間の概念構造に基づいて、前記短縮対象文をツリー構造で表現し、
前記付与部は、前記構成要素間の概念構造に基づく属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる構成要素間の各々に結合度を付与する
付記1記載の短縮文生成装置。
(付記4)
前記生成部は、前記短縮対象文のツリー構造におけるルートとなる構成要素から、設定された閾値以上の結合確率が付与された構成要素間を、中断なく辿ることができる経路上の構成要素を抽出して、短縮文を生成する付記1〜付記3のいずれか1項記載の短縮文生成装置。
(付記5)
前記生成部は、複数の異なる閾値の各々について、前記短縮対象文のツリー構造におけるルートとなる構成要素から、設定された閾値以上の結合確率で結合されている構成要素間を、中断なく辿ることができる経路上の構成要素を抽出し、抽出した構成要素から短縮文候補の各々を生成し、前記短縮文候補のうち、指定された短縮文の長さ又は短縮率の範囲内で最長の短縮文候補を短縮文とする付記1〜付記3のいずれか1項記載の短縮文生成装置。
(付記6)
前記解析部は、前記1又は複数の組に含まれる原文の各々を、該原文の各々に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現し、
前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いを示す結合度を、構成要素間の文法的又は概念的関係を示す属性毎に導出する導出部
を含む付記1〜付記5のいずれか1項記載の短縮文生成装置。
(付記7)
前記生成部は、抽出した構成要素を、前記短縮対象文のツリー構造における構成要素間の連結に基づいて並び替えて、前記短縮文を生成する付記1〜付記6のいずれか1項記載の短縮文生成装置。
(付記8)
前記付与部は、前記構成要素間の文法的又は概念的関係を示す属性毎の結合度のうち、前記短縮対象文を表すツリー構造に含まれる各構成要素間の属性に該当する全ての結合度を統合した結合度を、前記短縮対象文を表すツリー構造に含まれる構成要素間の各々に付与する付記1〜付記7のいずれか1項記載の短縮文生成装置。
(付記9)
前記構成要素は、単語、文節、または句である付記1〜付記8のいずれか1項記載の短縮文生成装置。
(付記10)
コンピュータに、
短縮対象文を、該短縮対象文に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現し、
原文と該原文を短縮した短縮文との1又は複数の組から、前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いとして得られた、構成要素間の文法的又は概念的関係を示す属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる連結した構成要素間の各々に結合度を付与し、
付与された構成要素間の各々の結合度に基づいて、短縮文に含める構成要素を抽出して、短縮文を生成する
ことを含む処理を実行させる短縮文生成方法。
(付記11)
前記短縮対象文をツリー構造で表現する際に、前記構成要素間の係り受け関係に基づいて、前記短縮対象文をツリー構造で表現し、
前記構成要素間の各々に結合度を付与する際に、前記構成要素間の係り受け関係を示す属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる構成要素間の各々に結合度を付与する
付記10記載の短縮文生成方法。
(付記12)
前記短縮対象文をツリー構造で表現する際に、前記構成要素間の概念構造に基づいて、前記短縮対象文をツリー構造で表現し、
前記構成要素間の各々に結合度を付与する際に、前記構成要素間の概念構造に基づく属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる構成要素間の各々に結合度を付与する
付記10記載の短縮文生成方法。
(付記13)
前記短縮文を生成する際に、前記短縮対象文のツリー構造におけるルートとなる構成要素から、設定された閾値以上の結合確率が付与された構成要素間を、中断なく辿ることができる経路上の構成要素を抽出して、短縮文を生成する付記10〜付記12のいずれか1項記載の短縮文生成方法。
(付記14)
前記短縮文を生成する際に、複数の異なる閾値の各々について、前記短縮対象文のツリー構造におけるルートとなる構成要素から、設定された閾値以上の結合確率で結合されている構成要素間を、中断なく辿ることができる経路上の構成要素を抽出し、抽出した構成要素から短縮文候補の各々を生成し、前記短縮文候補のうち、指定された短縮文の長さ又は短縮率の範囲内で最長の短縮文候補を短縮文とする付記10〜付記12のいずれか1項記載の短縮文生成方法。
(付記15)
前記コンピュータに、
前記1又は複数の組に含まれる原文の各々を、該原文の各々に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現し、
前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いを示す結合度を、構成要素間の文法的又は概念的関係を示す属性毎に導出する
ことをさらに含む処理を実行させる付記10〜付記14のいずれか1項記載の短縮文生成方法。
(付記16)
前記短縮文を生成する際に、抽出した構成要素を、前記短縮対象文のツリー構造における構成要素間の連結に基づいて並び替えて、前記短縮文を生成する付記10〜付記15のいずれか1項記載の短縮文生成方法。
(付記17)
前記構成要素間の各々に結合度を付与する際に、前記構成要素間の文法的又は概念的関係を示す属性毎の結合度のうち、前記短縮対象文を表すツリー構造に含まれる各構成要素間の属性に該当する全ての結合度を統合した結合度を、前記短縮対象文を表すツリー構造に含まれる構成要素間の各々に付与する付記10〜付記16のいずれか1項記載の短縮文生成方法。
(付記18)
前記構成要素は、単語、文節、または句である付記10〜付記17のいずれか1項記載の短縮文生成方法。
(付記19)
コンピュータに、
短縮対象文を、該短縮対象文に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現し、
原文と該原文を短縮した短縮文との1又は複数の組から、前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いとして得られた、構成要素間の文法的又は概念的関係を示す属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる連結した構成要素間の各々に結合度を付与し、
付与された構成要素間の各々の結合度に基づいて、短縮文に含める構成要素を抽出して、短縮文を生成する
ことを含む処理を実行させるための短縮文生成プログラム。
(付記20)
前記短縮対象文をツリー構造で表現する際に、前記構成要素間の係り受け関係に基づいて、前記短縮対象文をツリー構造で表現し、
前記構成要素間の各々に結合度を付与する際に、前記構成要素間の係り受け関係を示す属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる構成要素間の各々に結合度を付与する
付記19記載の短縮文生成プログラム。
(付記21)
前記短縮対象文をツリー構造で表現する際に、前記構成要素間の概念構造に基づいて、前記短縮対象文をツリー構造で表現し、
前記構成要素間の各々に結合度を付与する際に、前記構成要素間の概念構造に基づく属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる構成要素間の各々に結合度を付与する
付記19記載の短縮文生成プログラム。
(付記22)
前記短縮文を生成する際に、前記短縮対象文のツリー構造におけるルートとなる構成要素から、設定された閾値以上の結合確率が付与された構成要素間を、中断なく辿ることができる経路上の構成要素を抽出して、短縮文を生成する付記19〜付記21のいずれか1項記載の短縮文生成プログラム。
(付記23)
前記短縮文を生成する際に、複数の異なる閾値の各々について、前記短縮対象文のツリー構造におけるルートとなる構成要素から、設定された閾値以上の結合確率で結合されている構成要素間を、中断なく辿ることができる経路上の構成要素を抽出し、抽出した構成要素から短縮文候補の各々を生成し、前記短縮文候補のうち、指定された短縮文の長さ又は短縮率の範囲内で最長の短縮文候補を短縮文とする付記19〜付記21のいずれか1項記載の短縮文生成プログラム。
(付記24)
前記コンピュータに、
前記1又は複数の組に含まれる原文の各々を、該原文の各々に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現し、
前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いを示す結合度を、構成要素間の文法的又は概念的関係を示す属性毎に導出する
ことをさらに含む処理を実行させるための付記19〜付記23のいずれか1項記載の短縮文生成プログラム。
(付記25)
前記短縮文を生成する際に、抽出した構成要素を、前記短縮対象文のツリー構造における構成要素間の連結に基づいて並び替えて、前記短縮文を生成する付記19〜付記24のいずれか1項記載の短縮文生成プログラム。
(付記26)
前記構成要素間の各々に結合度を付与する際に、前記構成要素間の文法的又は概念的関係を示す属性毎の結合度のうち、前記短縮対象文を表すツリー構造に含まれる各構成要素間の属性に該当する全ての結合度を統合した結合度を、前記短縮対象文を表すツリー構造に含まれる構成要素間の各々に付与する付記19〜付記25のいずれか1項記載の短縮文生成プログラム。
(付記27)
前記構成要素は、単語、文節、または句である付記19〜付記26のいずれか1項記載の短縮文生成プログラム。
(付記28)
コンピュータに、
短縮対象文を、該短縮対象文に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現し、
原文と該原文を短縮した短縮文との1又は複数の組から、前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いとして得られた、構成要素間の文法的又は概念的関係を示す属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる連結した構成要素間の各々に結合度を付与し、
付与された構成要素間の各々の結合度に基づいて、短縮文に含める構成要素を抽出して、短縮文を生成する
ことを含む処理を実行させるための短縮文生成プログラムを記憶した記憶媒体。
10、210 短縮文生成装置
11 文入力部
12 形態素解析部
13 係り受け解析部
213 概念構造解析部
14、214 結合確率テーブル生成部
15、215 結合確率付与部
16 閾値設定部
216 短縮文長設定部
17 短縮文生成部
217 短縮文候補生成部
18 短縮文選択部
19 短縮文出力部
20、220 結合確率テーブル
31 文例
32 原文
33 短縮文
34、234 ツリー構造
35 ノード組
40、70 コンピュータ
41、71 CPU
42、72 メモリ
43、73 記憶部
50、250 短縮文生成プログラム

Claims (8)

  1. 短縮対象文を、該短縮対象文に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現する解析部と、
    原文と該原文を短縮した短縮文との1又は複数の組から、前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いとして得られた、構成要素間の文法的又は概念的関係を示す属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる連結した構成要素間の各々に結合度を付与する付与部と、
    前記付与部により付与された構成要素間の各々の結合度に基づいて、短縮文に含める構成要素を抽出して、短縮文を生成する生成部と、
    を含む短縮文生成装置。
  2. 前記解析部は、前記構成要素間の係り受け関係に基づいて、前記短縮対象文をツリー構造で表現し、
    前記付与部は、前記構成要素間の係り受け関係を示す属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる構成要素間の各々に結合度を付与する
    請求項1記載の短縮文生成装置。
  3. 前記解析部は、前記構成要素間の概念構造に基づいて、前記短縮対象文をツリー構造で表現し、
    前記付与部は、前記構成要素間の概念構造に基づく属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる構成要素間の各々に結合度を付与する
    請求項1記載の短縮文生成装置。
  4. 前記生成部は、前記短縮対象文のツリー構造におけるルートとなる構成要素から、設定された閾値以上の結合確率が付与された構成要素間を、中断なく辿ることができる経路上の構成要素を抽出して、短縮文を生成する請求項1〜請求項3のいずれか1項記載の短縮文生成装置。
  5. 前記生成部は、複数の異なる閾値の各々について、前記短縮対象文のツリー構造におけるルートとなる構成要素から、設定された閾値以上の結合確率で結合されている構成要素間を、中断なく辿ることができる経路上の構成要素を抽出し、抽出した構成要素から短縮文候補の各々を生成し、前記短縮文候補のうち、指定された短縮文の長さ又は短縮率の範囲内で最長の短縮文候補を短縮文とする請求項1〜請求項3のいずれか1項記載の短縮文生成装置。
  6. 前記解析部は、前記1又は複数の組に含まれる原文の各々を、該原文の各々に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現し、
    前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いを示す結合度を、構成要素間の文法的又は概念的関係を示す属性毎に導出する導出部
    を含む請求項1〜請求項5のいずれか1項記載の短縮文生成装置。
  7. コンピュータに、
    短縮対象文を、該短縮対象文に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現し、
    原文と該原文を短縮した短縮文との1又は複数の組から、前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いとして得られた、構成要素間の文法的又は概念的関係を示す属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる連結した構成要素間の各々に結合度を付与し、
    付与された構成要素間の各々の結合度に基づいて、短縮文に含める構成要素を抽出して、短縮文を生成する
    ことを含む処理を実行させる短縮文生成方法。
  8. コンピュータに、
    短縮対象文を、該短縮対象文に含まれる構成要素間を文法的又は概念的関係に基づいて連結したツリー構造で表現し、
    原文と該原文を短縮した短縮文との1又は複数の組から、前記原文を表すツリー構造に含まれる構成要素間の連結が前記短縮文において残存する度合いとして得られた、構成要素間の文法的又は概念的関係を示す属性毎の結合度に基づいて、前記短縮対象文を表すツリー構造に含まれる連結した構成要素間の各々に結合度を付与し、
    付与された構成要素間の各々の結合度に基づいて、短縮文に含める構成要素を抽出して、短縮文を生成する
    ことを含む処理を実行させるための短縮文生成プログラム。
JP2015067516A 2015-03-27 2015-03-27 短縮文生成装置、方法、及びプログラム Active JP6565262B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015067516A JP6565262B2 (ja) 2015-03-27 2015-03-27 短縮文生成装置、方法、及びプログラム
US15/068,698 US9767193B2 (en) 2015-03-27 2016-03-14 Generation apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015067516A JP6565262B2 (ja) 2015-03-27 2015-03-27 短縮文生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016186772A true JP2016186772A (ja) 2016-10-27
JP6565262B2 JP6565262B2 (ja) 2019-08-28

Family

ID=57203223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015067516A Active JP6565262B2 (ja) 2015-03-27 2015-03-27 短縮文生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6565262B2 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH064573A (ja) * 1992-06-19 1994-01-14 Kobe Nippon Denki Software Kk 機械翻訳装置
JPH1115830A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 文短縮装置及び文短縮プログラムを記録した媒体
US20020046018A1 (en) * 2000-05-11 2002-04-18 Daniel Marcu Discourse parsing and summarization
US20040117449A1 (en) * 2002-12-16 2004-06-17 Palo Alto Research Center, Incorporated Method and apparatus for generating overview information for hierarchically related information
JP2005038282A (ja) * 2003-07-17 2005-02-10 Tama Tlo Kk データ処理方法及びデータ処理装置
JP2007128401A (ja) * 2005-11-07 2007-05-24 Fuji Xerox Co Ltd 文書要約装置および方法
JP2008242612A (ja) * 2007-03-26 2008-10-09 Kyushu Institute Of Technology 文書要約装置、その方法及びプログラム
JP2010140468A (ja) * 2008-11-12 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 文短縮装置、その方法およびプログラム
JP2011150515A (ja) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、テキスト要約方法及びテキスト要約プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH064573A (ja) * 1992-06-19 1994-01-14 Kobe Nippon Denki Software Kk 機械翻訳装置
JPH1115830A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 文短縮装置及び文短縮プログラムを記録した媒体
US20020046018A1 (en) * 2000-05-11 2002-04-18 Daniel Marcu Discourse parsing and summarization
US20040117449A1 (en) * 2002-12-16 2004-06-17 Palo Alto Research Center, Incorporated Method and apparatus for generating overview information for hierarchically related information
JP2005038282A (ja) * 2003-07-17 2005-02-10 Tama Tlo Kk データ処理方法及びデータ処理装置
JP2007128401A (ja) * 2005-11-07 2007-05-24 Fuji Xerox Co Ltd 文書要約装置および方法
JP2008242612A (ja) * 2007-03-26 2008-10-09 Kyushu Institute Of Technology 文書要約装置、その方法及びプログラム
JP2010140468A (ja) * 2008-11-12 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 文短縮装置、その方法およびプログラム
JP2011150515A (ja) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、テキスト要約方法及びテキスト要約プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
福冨 諭 外2名: "確率的な手法による日本語文簡約", 言語処理学会第13回年次大会発表論文集, JPN6018044426, 19 March 2007 (2007-03-19), JP, pages 1145 - 1148, ISSN: 0003917060 *

Also Published As

Publication number Publication date
JP6565262B2 (ja) 2019-08-28

Similar Documents

Publication Publication Date Title
US11487939B2 (en) Systems and methods for unsupervised autoregressive text compression
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6175900B2 (ja) 翻訳装置、方法、及びプログラム
US9767193B2 (en) Generation apparatus and method
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
US6188977B1 (en) Natural language processing apparatus and method for converting word notation grammar description data
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
JP4931958B2 (ja) テキスト要約方法、その装置およびプログラム
EP2950306A1 (en) A method and system for building a language model
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2020118929A (ja) 要約生成装置、方法、プログラム、及び記憶媒体
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
JP6300601B2 (ja) 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム
JP6565262B2 (ja) 短縮文生成装置、方法、及びプログラム
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
CN105895091B (zh) 一种eswfst构建方法
JP6619932B2 (ja) 形態素解析装置およびプログラム
JP6569543B2 (ja) 短縮文生成装置、方法およびプログラム。
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
JP4735958B2 (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP4940251B2 (ja) 文書処理プログラム及び文書処理装置
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190715

R150 Certificate of patent or registration of utility model

Ref document number: 6565262

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150