JP7511381B2 - 文生成装置、文生成方法および文生成プログラム - Google Patents

文生成装置、文生成方法および文生成プログラム Download PDF

Info

Publication number
JP7511381B2
JP7511381B2 JP2020083255A JP2020083255A JP7511381B2 JP 7511381 B2 JP7511381 B2 JP 7511381B2 JP 2020083255 A JP2020083255 A JP 2020083255A JP 2020083255 A JP2020083255 A JP 2020083255A JP 7511381 B2 JP7511381 B2 JP 7511381B2
Authority
JP
Japan
Prior art keywords
sentence
sentence generation
specific
summary element
generation device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020083255A
Other languages
English (en)
Other versions
JP2021179673A (ja
JP2021179673A5 (ja
Inventor
美沙 佐藤
孝介 柳井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020083255A priority Critical patent/JP7511381B2/ja
Publication of JP2021179673A publication Critical patent/JP2021179673A/ja
Publication of JP2021179673A5 publication Critical patent/JP2021179673A5/ja
Application granted granted Critical
Publication of JP7511381B2 publication Critical patent/JP7511381B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、文を生成する文生成装置、文生成方法および文生成プログラムに関する。
文を要約したり、文から質問文を生成したりするなど、文を適切な形に変換したいニーズがある。文を観点ごとに要約する技術として、たとえば、下記特許文献1のテキスト要約装置がある。
このテキスト要約装置では、部分木保持ZDD作成部がZDDを構築する。観点情報抽出部が、複数の観点の各々について、文書に含まれる単語毎に、観点との関連度を算出し、単語毎に観点の各々について算出された関連度に基づいて、文書における複数の観点の比率を算出する。観点部分木保持ZDD生成部が、観点の比率に応じた長さ上限と、ノードの各々に対応する単語の観点との関連度と、単語の長さとに基づいて、構築されたZDDが表す部分木の集合のうちの部分木の部分集合を表すZDDを、観点に対応する観点ZDDとして生成する。最適部分木算出部が、観点ZDDが表す部分木の部分集合に共通する部分木を表す共通ZDDのパスのうち、要約の長さ上限を満たす最適なパスを探索し、探索されたパスが表す前記部分木を出力する。要約出力部が、部分木に基づいて、入力テキストの要約を出力する。
また、文から要約語を抽出する技術として、たとえば、下記特許文献2の情報処理装置がある。この情報処理装置は、1又は複数の文からなる文書を取得する取得部と、文章に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部と、文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部と、各語の重みに基づいて文書の要約語を選択する要約語選択部と、選択した要約語を出力する出力部と、を備える。
特開2018-81463号公報 特開2019-204445号公報
特許文献1のテキスト要約装置のように文を観点ごとに要約する場合、文の長さや文内の単語数により制限されるが、実際の文では、名詞の長さにばらつきがあるなど、文の長さと文に含まれる情報量とは一致しないため適切でない。また、特許文献1のテキスト要約装置は、要約の長さ上限に基づき、観点の比率で按分して各部分木の長さを決めているため、観点ごとの情報量を文法的な条件で制御することができない。加えて、議事録の要約や対話資材の生成では、実用上、文の長さについて数値的な制約はない。また、特許文献2の情報処理装置は、文の主題を一言で表す要約語を生成するため、文を生成したり、出力したりすることができない。このようなことは、要約などの文短縮に限らず、質問文や回答文の生成、見出しの生成などについても同様である。
本発明は、文を適切な形に変換することを目的とする。
本願において開示される発明の一側面となる文生成装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する文生成装置であって、前記プロセッサは、入力文を木構造解析して前記入力文を構成する単語列である1以上の要約要素からなる木構造解析結果を出力する木構造解析処理と、前記要約要素を抽出する抽出条件を含む抽出ルールを用いて、前記木構造解析処理によって出力された木構造解析結果から、前記抽出条件に該当する特定の要約要素を取得する取得処理と、前記要約要素を指定して当該要約要素から内容語または特定の品詞の単語を抽出する1以上の指定要素によって文のひな型を構成する文生成テンプレートを参照して、前記特定の要約要素ごとに、前記特定の要約要素を指定した特定の指定要素に該当する特定の単語を前記特定の要約要素から抽出して前記文生成テンプレートに適用することにより、出力文を生成する生成処理と、を実行することを特徴とする。
本発明の代表的な実施の形態によれば、文を適切な形に変換することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
図1は、実施例1にかかる文生成装置による文生成例を示す説明図である。 図2は、文生成装置のハードウェア構成例を示すブロック図である。 図3は、抽出ルールDB(データベース)の一例を示す説明図である。 図4は、文生成テンプレートDBの一例を示す説明図である。 図5は、実施例1にかかる文生成装置による文生成処理手順例を示すフローチャートである。 図6は、実施例1にかかる木構造解析(ステップS501)による入力文100の木構造解析結果の一例を示す説明図である。 図7は、実施例1にかかる要約要素の取得(ステップS502)による要約要素の取得結果を示す説明図である。 図8は、実施例1にかかる要約要素の修正(ステップS503)による枝刈り結果を示す説明図である。 図9Aは、要約要素からの単語列の抽出(ステップS504)による抽出結果例1を示す。 図9Bは、要約要素からの単語列の抽出(ステップS504)による抽出結果例2を示す。 図9Cは、要約要素からの単語列の抽出(ステップS504)による抽出結果例3を示す。 図9Dは、要約要素からの単語列の抽出(ステップS504)による抽出結果例4を示す。 図9Eは、要約要素からの単語列の抽出(ステップS504)による抽出結果例5を示す。 図9Fは、要約要素からの単語列の抽出(ステップS504)による抽出結果例6を示す。 図10は、実施例1にかかる文生成テンプレートによる連結(ステップS505)での連結結果を示す説明図である。 図11Aは、実施例1にかかる活用語尾の変換(ステップS506)の例1を示す説明図である。 図11Bは、実施例1にかかる活用語尾の変換(ステップS506)の例2を示す説明図である。 図12Aは、文生成装置による文生成の具体例1を示す説明図である。 図12Bは、文生成装置による文生成の具体例2を示す説明図である。 図12Cは、文生成装置による文生成の具体例3を示す説明図である。 図13は、実施例2にかかる時制の検出例を示す説明図である。 図14は、実施例2にかかる否定形の検出例を示す説明図である。 図15は、実施例2にかかる仮定形の検出例を示す説明図である。 図16は、実施例3にかかる照応関係の推定例を示す説明図である。 図17は、実施例3にかかるゼロ代名詞の補完例を示す説明図である。 図18は、英語の入力文の一例を示す説明図である。 図19は、実施例4にかかる抽出ルールDBの一例を示す説明図である。 図20は、実施例4にかかる文生成テンプレートDBの一例を示す説明図である。 図21は、実施例4にかかる木構造解析(ステップS501)による入力文の木構造解析結果の一例を示す説明図である。 図22は、実施例4にかかる要約要素の取得(ステップS502)による要約要素の取得結果を示す説明図である。 図23は、実施例4にかかる要約要素の修正(ステップS503)による枝刈り結果を示す説明図である。 図24は、実施例4にかかる文生成テンプレートによる連結(ステップS505)での連結結果を示す説明図である。
本明細書では、一例として、会議における発言の書き起こしからの議事録を自動作成する場合の文短縮について説明する。ここで、議事録とは、会議での決定事項や会議で出た意見、質問等をコンパクトにまとめた文書であり、情報共有や認識合わせのために必須である。
議事録の要約では、会議で話された内容をまんべんなく記録するよりも、決定事項などの会議として重要な種類の情報を読みやすい形でまとめることが求められる。また、短時間で会議の内容を把握可能であることが重視されるため、議事録の要約では、不要な語が可能な限り少ないことが重要である。
また、文書要約の手法として、重要な文を特定しその文をそのまま使うことが考えられるが、発話文は長くなることが多く、1つの文に複数の情報が含まれることもある。このため、重要な種類の情報に該当する箇所だけを用いた短い文を作成する必要がある。
このことから、以下に示す各実施例にかかる文生成装置は、まず議事録に残したい種類の情報を抽出し、その結果を結合することにより議事録に適した文を生成する。これにより、議事録作成を可能な限り自動化して人的作業の低減を図る。なお、以下に示す各実施例では、議事録の作成を例に挙げて説明するが、要約などの文短縮のほか、質問文や回答文の生成、見出しの生成など、文の平易化に有用であれば、議事録に限られない。以下、添付図面を用いて各実施例にかかる文生成装置について説明する。
<文生成例>
図1は、実施例1にかかる文生成装置による文生成例を示す説明図である。図1は、会議の音声から平易化された文を生成し、議事録を作成する例である。(1)まず、議事録の作成担当者が、会議の音声を手作業により書き起こす。この書き起こしは、既存の音声テキスト変換装置が会議の録音音声を文に変換してもよい。
(2)文生成装置は、(1)で得られた文から抽出ルールを適用して、関係抽出を実行する。関係抽出とは、事物間の特定の関係について、その要素を文から抽出することである。たとえば、情報の種類ごとに必須の要素があるため、決定の内容に関する要素を文から抽出したい場合には、決定事項の抽出に特化した抽出ルールが適用される。
関係抽出を実行する場合、文生成装置は、議事録生成元の文を木構造解析(形態素解析および係り受け解析により文の木構造を生成する処理)し、木構造パターンである抽出ルールに該当する要素を、木構造解析結果から抽出する。たとえば、議事録生成元となる入力文100は、『運用については今後ということで、当事者の方の御意見なども明日聞いてやっていただきたいと思います。』という文字列とする。入力文100は、指示を含む文である。
文生成装置は、要約要素を抽出する抽出ルールを適用する。要約要素とは、入力文100を構成する単語列を抽出ルールによって要約した単語列である。単語列とは、1以上の単語が連続する文字列である。入力文100の内容が指示を示す場合に適用可能な指示抽出ルールの1つとして、文生成装置は、たとえば、指示抽出ルールir1を適用する。これにより、「運用については」要約要素#a1として、「当事者の方の御意見なども」要約要素#a2として、「明日聞いてやっていただきたい」要約要素#a0として、抽出される(図1中、点線矩形で表記)。
(3)文生成装置は、文生成テンプレートにより平化された文を生成する。具体的には、たとえば、文生成装置は、(2)で抽出された要約要素#a1,#a2,#a0を文生成テンプレートtp1に適用する。文生成テンプレートtp1は、「♯a1は♯a2♯a2.case♯a0.lemma」である。文生成テンプレートtp1で指定する要約要素♯a1,♯a2,♯a2.case,♯a0.lemmaを、(2)で抽出された要約要素と区別するため、指定要素と称す。
文生成装置は、要約要素#a1の「運用については」から指定要素#a1として「運用」を抽出し、要約要素#a2の「当事者の方の御意見なども」から指定要素#a2として「当事者の方の御意見」を抽出し、要約要素#a2の「当事者の方の御意見なども」から指定要素#a2.caseとして助詞(case)の「も」を抽出し、指定要素#a0の「聞いてやっていただきたい」から要約要素a0.lemmaとして要約要素#a0の内容語(動詞)を示す「聞い」の基本形「聞く」を抽出する。
そして、文生成装置は、抽出した指定要素♯a1,♯a2,♯a2.case,♯a0.lemmaを文生成テンプレートtp1に適用して、入力文100を短縮した文(以下、出力文)101として『運用は当事者の方の御意見を聞く』を生成する。出力文101は、入力文100ごとに生成される。ただし、入力文100が抽出ルールに該当しなければ要約要素が抽出されず、文生成テンプレートに適用できないため、出力文101は生成されない場合もある。また、該当する抽出ルールや文生成テンプレートが異なれば、出力文101の内容も異なる。なお、出力文101は、どの抽出ルールや文生成テンプレートtpで作成されたかが関連付けられた状態で出力される。この例では、出力文101は、指示抽出ルールから作られていることから、「指示」ラベルが付加された状態で出力される。
(4)議事録の作成担当者は、(3)で得られた複数の出力文101を、出力文101に関連付けられたラベルも参考にして選択したり、並び替えたりして、議事録102を作成する。これにより、会議における発言から議事録に残すべき情報を特定し、読みやすい文にまとめる作業労力の軽減を図ることができる。
<文生成装置のハードウェア構成例>
図2は、文生成装置のハードウェア構成例を示すブロック図である。文生成装置200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF)205と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バス206により接続される。プロセッサ201は、文生成装置200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信IF205は、ネットワークと接続し、データを送受信する。
なお、文生成装置200は、クライアントサーバシステムのサーバでもよい。この場合、クライアントが入力文100を文生成装置200に送信し、文生成装置200が出力文101をクライアントに送信する。また、文生成装置200は、スタンドアロン型でもよい。たとえば、文生成装置200は、文生成プログラムがインストールされたスマートフォンやパーソナルコンピュータでもよい。クライアントサーバシステムまたはスタンドアロン型のいずれであっても、文生成装置200は、たとえば、入力音声から入力文100を生成(入力文100のテキスト入力でもよい)し、出力文101を音声出力(画面表示でもよい)するチャットボットに利用可能である。また、文生成装置200にインストールされる文生成プログラムは、外部装置の記憶媒体からネットワーク経由で、および/または、可搬型記憶媒体経由で導入されてもよい。
<データベース>
図3は、抽出ルールDB(データベース)の一例を示す説明図である。抽出ルールDB300は、各種抽出ルールを記憶するデータベースである。抽出ルールDB300は、文生成装置200の記憶デバイス202に記憶される。また、抽出ルールDB300は、文生成装置200と通信可能なコンピュータに記憶されていてもよい。
抽出ルールDB300は、たとえば、指示抽出ルールir1,ir2,…(ir1,ir2,…を区別しない場合は、単にirと表記)と、決定抽出ルールdr1,…(dr1,…を区別しない場合は、単にdrと表記)と、意見抽出ルールor1,…(or1,…を区別しない場合は、単にorと表記)と、質問抽出ルールqr1,…(qr1,…を区別しない場合は、単にqrと表記)と、共通抽出ルールcr1,…(cr1,…を区別しない場合は、単にcrと表記)とを記憶する。
決定抽出ルールdrは、入力文100の内容が決定を示す場合に適用可能な抽出ルールである。意見抽出ルールorは、入力文100の内容が意見を示す場合に適用可能な抽出ルールである。質問抽出ルールqrは、入力文100の内容が意見を示す場合に適用可能な抽出ルールである。共通抽出ルールcrは、入力文100の内容にかかわらず適用可能な抽出ルールである。
入力文100自体には、入力文100がどのような内容を示すかというインデックスは付与されていない。たとえば、指示抽出ルールir1が入力文100に適用されれば、指示に関する要約要素が入力文100から抽出され、決定抽出ルールdr1が入力文100に適用されれば、決定に関する要約要素が入力文100から抽出される。意見抽出ルールor1や質問抽出ルールqr1についても同様である。
ここで、指示抽出ルールir1の詳細について具体的に説明する。1行目の「((id.instruction_01))」は、指示抽出ルールir1のインデックスを示す。
2行目の「(♯a0.suf=たい&.POS=動詞 *…*)」は、動詞と、助動詞「たい」と、を含む文節を、要約要素a0として入力文100から抽出する抽出条件C1である。「*」は、その親の文節を係り受け先とする文節がどのようなものでも存在してもよいことを示す。入力文100の場合、要約要素#a0として、「明日聞いてやっていただきたい」が抽出される。
3行目の「.lemma=こと&.POS=名詞&.POS2=非自立*」は、2行目の抽出条件の子ノードとなる条件であるが、抽出条件ではない。具体的には、たとえば、内容語(lemma)である非自立な名詞「こと」が、#a0のノードを係り先とする子ノードとして存在することを検出するための検出条件Dである。入力文100の場合、「こと」の存在が検出される。
4行目の「♯a1.case=については&.POS=名詞*」は、3行目の検出条件Dの子ノードとなる抽出条件C2であり、具体的には、たとえば、名詞と、助詞等の「については」と、を含む文節を、要約要素#a1として入力文100から抽出する。入力文100の場合、要約要素#a1として、「運用については」が抽出される。
6行目の「♯a2.case=も&.POS=名詞*」は、名詞と、助詞「も」と、を含む文節を、要約要素a2として入力文100から抽出する抽出条件C3である。入力文100の場合、要約要素#a2として、「当事者の方の御意見なども」が抽出される。
また、共通抽出ルールcr1は、対象となる要約要素#a0から削除対象の単語列を特定して削除、いわゆる枝刈りをおこなうための削除ルール(枝刈り条件)である。共通抽出ルールcr1となる文節は、形態素解析で副詞可能に分類された語を先頭に持つ文節である。この文節を根に持つ部分木が枝刈りされる。要約要素#a0の「明日聞いてやっていただきたい」の場合、「明日」が削除、すなわち、枝刈りされて、要約要素#a0は「聞いてやっていただきたい」になる。
このように、文生成装置200は、抽出ルールを適用することにより、入力文100の文節間の修飾関係(係り受け解析結果)と形態素解析結果とを手掛かりとして要約要素を抽出することが可能になる。
図4は、文生成テンプレートDBの一例を示す説明図である。文生成テンプレートDB400は、文生成テンプレートtp1,tp2,tp3,tp4,tp5,…(tp1,tp2,tp3,tp4,tp5,…を区別しない場合は、単にtp)を記憶するデータベースである。文生成テンプレートDB400は、文生成装置200の記憶デバイス202に記憶される。また、文生成テンプレートDB400は、文生成装置200と通信可能なコンピュータに記憶されていてもよい。
文生成テンプレートtpは、抽出した要約要素から指定要素の単語列を抽出して文生成テンプレートtp内の当該構成要素の位置に設定することにより、出力文101を生成するためのテンプレートである。文生成テンプレートtp1の場合、指定要素#a1,#a2,#a2.caseおよび#a0.lemmaが適用される。
なお、図示はしないが、文生成装置200は、単語辞書を参照する。単語辞書は、単語ごとに、品詞、基本形、活用形、読みなど、形態素解析に必要な情報を記憶する。単語辞書は、文生成装置200の記憶デバイス202に記憶される。また、単語辞書は、文生成装置200と通信可能なコンピュータに記憶されていてもよい。
<文生成処理手順>
図5は、実施例1にかかる文生成装置200による文生成処理手順例を示すフローチャートである。文生成装置200は、木構造解析(ステップS501)、要約要素の取得(ステップS502)、要約要素の修正(ステップS503)、要約要素からの単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行して、一連の処理を終了する。木構造解析(ステップS501)~活用語尾の変換(ステップS506)の処理は、具体的には、たとえば、記憶デバイス202に記憶された文生成プログラムにしたがって、プロセッサが実行する。以下、ステップS501~S506について順に説明する。
図6は、実施例1にかかる木構造解析(ステップS501)による入力文100の木構造解析結果の一例を示す説明図である。木構造解析結果600は、抽出ルールの抽出対象となるデータである。木構造解析(ステップS501)では、文生成装置200は、入力文100を木構造解析する。具体的には、たとえば、文生成装置200は、入力文100に対して文節単位で形態素解析および係り受け解析を実行する。これにより、木構造解析結果600が得られる。
図7は、実施例1にかかる要約要素の取得(ステップS502)による要約要素の取得結果を示す説明図である。要約要素の取得(ステップS502)では、文生成装置200は、たとえば、抽出ルールDB300のすべての抽出ルールを木構造解析結果600に適用して、要約要素を抽出する。具体的には、たとえば、文生成装置200は、指示抽出ルールir1の2行目の抽出条件C1を木構造解析結果600から特定し、抽出条件C1に該当する要約要素#a0として「明日聞いてやっていただきたい」を抽出する。
また、文生成装置200は、指示抽出ルールir1の3行目の抽出条件C2を木構造解析結果600から特定し、抽出条件C2に該当する要約要素#a1として「運用については」を抽出する。また、文生成装置200は、指示抽出ルールir1の4行目の抽出条件C3を木構造解析結果600から特定し、抽出条件C3に該当する要約要素#a2として「当事者の方の御意見なども」を抽出する。また、文生成装置200は、入力文100が検出条件Dを充足することを検出する。
また、要約要素の取得(ステップS502)では、文生成装置200は、抽出した要約要素について共通抽出ルールcr1に該当する場合には、枝刈りを実行する。なお、文生成装置200は、要約要素#a0~#a2を、文生成装置200と通信可能な他のコンピュータから取得してもよい。
図8は、実施例1にかかる要約要素の修正(ステップS503)による枝刈り結果を示す説明図である。図8では、要約要素#a0から、形態素解析結果が副詞可能である「明日」が枝刈りされる。以降、特に指定しない限り、実施例1において、要約要素#a0は、枝刈り後の「聞いてやっていただきたい」とする。
図9A~図9Fは、要約要素からの単語列の抽出(ステップS504)による抽出結果例1~6を示す。要約要素からの単語列の抽出(ステップS504)では、文生成装置200は、要約要素#a0~#a2から、文生成テンプレートを構成する要約要素(以下、指定要素)に従って、単語列を抽出する。指定要素には、たとえば、#an(nは0以上の整数)、#an.lemma、#an.case、#an.suf、#an.tenseがある。
たとえば、#anは、要約要素#anに含まれるルートの文節の内容語(たとえば、動詞、名詞、形容詞。助詞および助動詞は除外)および子ノードの語を抽出する指定要素である。#an.lemmaは、要約要素#anからそのルートの文節の内容語を抽出する指定要素である。
#anと#an.lemmaとの相違は、子ノードの語を抽出するかしないかである。たとえば、要約要素#a2の「当事者の方の御意見」に指定要素#a2が適用されると、ルートとなる「御意見」の子ノード「当事者の方の」も含めて、「当事者の方の御意見」が抽出される。一方、要約要素#a2の「当事者の方の御意見」に指定要素#a2.lemmaが適用されると、ルートとなる「御意見」の子ノード「当事者の方の」を含まずに、ルートである「御意見」のみが抽出される。
#an.caseは、要約要素#anからルートの文節の特定の助詞を抽出する指定要素である。このとき,副助詞の「など」や副助詞の「ばかり」等の文意へ大きな影響を与えない助詞は、特定の助詞には含めず抽出しない。#an.sufは、要約要素#anからルートの文節の特定の助動詞を抽出する指定要素である。#an.tenseは、要約要素#anからルートの文節の時制を表す助動詞を抽出する指定要素である。
文生成テンプレートtp1の場合、指定要素は、#a1、#a2、#a2.case、#a0.lemmaである。
図9Aに示したように、文生成装置200は、要約要素#a1の「運用については」から、指定要素#a1により、名詞「運用」を抽出する。すなわち、「について」および「は」は形態素解析により助詞と判断されたため、抽出対象外となる。
図9Bに示したように、文生成装置200は、要約要素#a2の「当事者の方の御意見なども」から、指定要素#a2により、名詞句「当事者の方の御意見」を抽出する。すなわち、「など」および「も」は形態素解析により内容語ではないと判断されたため、抽出対象外となる。
図9Cに示したように、文生成装置200は、要約要素#a2の「当事者の方の御意見なども」から、指定要素#a2.caseにより、「も」を抽出する。「など」も助詞であるが、上述した特定の助詞以外であるため抽出対象外となる。
図9Dに示したように、文生成装置200は、要約要素#a0の「聞いてやっていただきたい」から、指定要素#a0.lemmaにより、ルートの文節の内容語である動詞「聞い」の基本形「聞く」を抽出する。すなわち、2つの「て」は助詞、「たい」は助動詞であると形態素解析により判断されたため、また、「やっ」および「いただき」は内容語ではないと判定されるため、抽出対象外となる。
図9Eおよび図9Fは、文生成テンプレートtp1には含まれていない指定要素による単語列の抽出を示す。図9Eおよび図9Fに限り、要約要素#a0の「聞いてやっていただきたい」を、例として、過去形の「聞いてやっていただきたかった」とする。文生成装置200は、要約要素#a0の「聞いてやっていただきたかった」から、指定要素#a0.tenseにより、過去を表す助動詞「た」を抽出する。図9Fの場合、文生成装置200は、要約要素#a0の「聞いてやっていただきたかった」から、指定要素#a0.sufにより、希望を表す助動詞「たかっ」の基本形「たい」を抽出する。
図10は、実施例1にかかる文生成テンプレートによる連結(ステップS505)での連結結果を示す説明図である。文生成テンプレートによる連結(ステップS505)では、文生成装置200は、要約要素からの単語列の抽出(ステップS504)によって抽出された「運用」、「は」、「当事者の方の御意見」、「も」、および「聞く」(図9A~図9Dを参照)を、文生成テンプレートtp1に適用することにより、連結結果1000として「運用は当事者の方の御意見も聞く」を生成する。
活用語尾の変換(ステップS506)では、文生成装置200は、文生成テンプレートによる連結(ステップS505)での連結結果1000について活用語尾を変換し、出力文101を出力する。
図11Aは、実施例1にかかる活用語尾の変換(ステップS506)の例1を示す説明図である。連結結果1000の場合、動詞「聞く」は文末に位置し、かつ、動詞「聞く」の基本形は終止形と同じであるため、動詞「聞く」の活用語尾「く」は変換されない。これにより、文生成装置200は、出力文101として「運用は当事者の方の御意見も聞く」を出力する。
図11Bは、実施例1にかかる活用語尾の変換(ステップS506)の例2を示す説明図である。図11Bの連結結果1100の場合、各々基本形である動詞「聞く」と「まとめる」とが連結されている。このような場合、動詞「聞く」は文末に位置せず、かつ、後続に動詞「まとめる」が存在するため、文生成装置200は、動詞「聞く」の活用語尾「く」を連用形の「い」に変換し、かつ、動詞「まとめる」と接続するための接続助詞「て」を追加する。
動詞「まとめる」は文末に位置し、かつ、動詞「まとめる」の基本形は終止形と同じであるため、動詞「まとめる」の活用語尾「る」は変換されない。これにより、文生成装置200は、出力文1101として「運用は当事者の方の御意見も聞いてまとめる」を出力する。
<文生成の具体例>
図12A~図12Cは、文生成装置200による文生成の具体例1~3を示す説明図である。図12A~図12Cでは、同一の入力文1211の『○○首相が一昨日Xが慌ただしく出国したと昨日未明に発表した』に対し異なる文生成テンプレートを適用した場合の出力文の違いを示す。
図12Aは、上述した出力文101と同様、文短縮の文生成テンプレートtp2を適用した場合の例である。なお、適用された抽出ルールで抽出する関係は、「発表」である。抽出ルールによって抽出された要約要素の取得結果1212は、#a1が「○○首相」、#a2が「一昨日Xが慌ただしく出国した」、#a0が「昨日未明に発表した」とする。したがって、文生成テンプレートtp2が適用されると、出力文1213として『○○首相が一昨日Xが出国したと発表した』が出力される。
図12Bは、質問文および回答文を生成するための文生成テンプレートtp3,tp4が適用した場合の例である。なお、適用された抽出ルールで抽出する関係は、「発表」である。図12Bでは、図12Aと同じ取得結果1212とする。したがって、文生成テンプレートtp3が適用されると、出力文1223として『○○首相が昨日未明に発表したのはなんですか?』という質問文が出力される。また、文生成テンプレートtp4が適用されると、出力文1224として『一昨日Xが慌ただしく出国したことです』という回答文が出力される。
図12Cは、見出しを生成するための文生成テンプレートtp5を適用した場合の例である。なお、適用された抽出ルールで抽出する関係は、「出国」である。抽出ルールによって抽出された要約要素の取得結果1232は、#a1が「X」、#a0が「慌ただしく出国した」とする。したがって、文生成テンプレートtp5が適用されると、出力文1233として『X出国』が出力される。
このように、実施例1によれば、入力文を平易化した出力文を出力することにより、可能な限り文生成を自動化して人間の人的作業の低減を図ることができる。
実施例2について説明する。実施例2は、実施例1において、入力文に複文が含まれる場合に、複文から抽出された要約要素#anの時制や、要約要素#anにおける否定形および仮定形を検出し、要約要素#an間で整合性をとる例である。実施例2では、実施例1との相違点を中心に説明するため、実施例1についての説明は省略する。なお、実施例2では、複文を例に挙げて説明するが、重文でも同様である。
図13は、実施例2にかかる時制の検出例を示す説明図である。文生成装置200は、入力文1300に対し木構造解析(ステップS501)を実行することにより、入力文1300が、先行文『Aが社内システムに関する資料を速やかに配布し、』と後続文『休憩後にBがその資料を使ってプレゼンした。』との複文であることを検出する。また、文生成装置200は、要約要素の取得(ステップS502)を実行することにより、抽出結果1301を出力する。抽出結果1301は、要約要素#anとして要約要素1311~1315を含む。
要約要素の修正(ステップS503)において、文生成装置200は、複文の各々の文の動詞「配布し」および「説明し」を含む要約要素1313,1315を比較し、要約要素1313には、動詞「配布し」の時制を表す助動詞が存在せず、要約要素1315には、動詞「説明し」の時制を表す助動詞「た」が存在することを検出する。この場合、要約要素1313の動詞「配布し」の意味としては、現在形の「配布する」ではなく、過去形の「配布した」が正しい。したがって、文生成装置200は、先行文の要約要素1313の動詞「配布し」の時制を過去形にするために、過去を表す助動詞「た」を要約要素1313に追加して、「速やかに配布した。」に修正する。
このあと、文生成装置200は、修正後の時制に基づいて、後続の要約要素からの単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行する。これにより、文生成装置200は、あたかも入力文100の意図を読み取って、出力文101を適切な時制で表現することができる。
図14は、実施例2にかかる否定形の検出例を示す説明図である。文生成装置200は、入力文1400に対し木構造解析(ステップS501)を実行することにより、入力文1400が、先行文『会議の出席者は、社内システムに関する資料を社外に持ち出し、』と後続文『本日の会議の内容を社外の人に漏らさないでください。』との複文であることを検出する。また、文生成装置200は、要約要素の取得(ステップS502)を実行することにより、抽出結果1401を出力する。抽出結果1401は、要約要素#anとして要約要素1411~1415を含む。
要約要素の修正(ステップS503)において、文生成装置200は、複文の各々の文の動詞「持ち出し」および「漏らさ」を含む要約要素1413,1415を比較し、要約要素1413には、動詞「持ち出し」の否定を表す助動詞が存在せず、要約要素1415には、動詞「漏らさ」の否定を表す助動詞「ない」が存在することを検出する。この場合、要約要素1413の動詞「持ち出し」の意味としては、肯定形の「持ち出す」ではなく、否定形の「持ち出さない」が正しい。したがって、文生成装置200は、先行文の要約要素1413の動詞「持ち出し」を否定形にするために、否定を表す助動詞「ない」を、要約要素1413に追加して、「持ち出さない」に修正する。
このあと、文生成装置200は、修正後の時制に基づいて、後続の要約要素からの単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行する。活用語尾の変換(ステップS506)では、「持ち出さない」は「持ち出さず」に変換される。これにより、文生成装置200は、あたかも入力文1400の意図を読み取って、出力文を適切な用法で表現することができる。
図15は、実施例2にかかる仮定形の検出例を示す説明図である。文生成装置200は、入力文1500に対し木構造解析(ステップS501)を実行することにより、入力文1500の『社内システムに関する資料のデータを自宅に持ち帰り、自宅のパソコンに保存すれば、』が、先行文『社内システムに関する資料のデータを自宅に持ち帰り、』と後続文『自宅のパソコンに保存すれば、』との複文であることを検出する。また、文生成装置200は、要約要素の取得(ステップS502)を実行することにより、抽出結果1501を出力する。抽出結果1501は、要約要素#anとして要約要素1511~1515を含む。
要約要素の修正(ステップS503)において、文生成装置200は、複文の各々の文の動詞「持ち帰り」および「保存すれ」を含む要約要素1512,1513を比較し、要約要素1512には、動詞「持ち帰り」の仮定を表す接続助詞が存在せず、要約要素1513には、動詞「保存すれ」の仮定を表す接続助詞「ば」が存在することを検出する。この場合、要約要素1512の動詞「持ち帰り」の意味としては、断定形の「持ち帰る」ではなく、仮定形の「持ち帰れば」が正しい。したがって、文生成装置200は、先行文の要約要素1512の動詞「持ち帰り」を仮定形にするために、仮定を表す接続助詞「ば」を、要約要素1512に追加して、「持ち帰れば」に修正する。
このあと、文生成装置200は、修正後の時制に基づいて、後続の要約要素からの単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行する。活用語尾の変換(ステップS506)では、連結結果の「自宅に持ち帰れば 自宅のパソコンに保存すれば」は「自宅に持ち帰ったり、自宅のパソコンに保存したりすれば」に変換される。これにより、文生成装置200は、あたかも入力文1500の意図を読み取って、出力文を適切な用法で表現することができる。
このように、実施例2によれば、複文内の複数の動詞の時制や否定形、仮定形を一致させ、出力文の適正化を図ることができる。なお、実施例2では、複文内の動詞を例に挙げて説明したが、形容詞や形容動詞でも同様である。
実施例3は、実施例1または実施例2において、入力文に対し照応解析を実行する例である。照応解析とは、代名詞や指示詞といった照応詞の指示対象を推定したり、省略された名詞句(ゼロ代名詞)を補完したりする処理である。実施例3では、実施例1および実施例2との相違点を中心に説明するため、実施例1および実施例2についての説明は省略する。
図16は、実施例3にかかる照応関係の推定例を示す説明図である。文生成装置200は、先行入力文1601の『Aが社内システムに関する資料を配布した。』と後続入力文1602の『その後、彼が社内システムを説明した。』とのそれぞれに対し、木構造解析(ステップS501)を実行する。木構造解析(ステップS501)では、「A」は、人名の固有名詞であると特定され、「彼」は、代名詞であると特定される。
また、文生成装置200は、要約要素の取得(ステップS502)を実行することにより、先行入力文1601に関する抽出結果1610と、後続入力文1602に関する抽出結果1620とを出力する。先行入力文1601に関する抽出結果1610は、要約要素#anとして要約要素1611~1613を含む。後続入力文1602に関する抽出結果1620は、要約要素#anとして要約要素1621,1622を含む。
要約要素の修正(ステップS503)において、文生成装置200は、照応解析を実行することにより、先行入力文1601に関する抽出結果1610と後続入力文1602に関する抽出結果1620との間で照応関係を特定する。具体的には、たとえば、文生成装置200は、先行入力文1601に関する抽出結果1610の要約要素1611内の「A」の代名詞「彼」を、後続入力文1602に関する抽出結果1620から特定する。文生成装置200は、「A」と照応関係のある代名詞「彼」を「A」に変換する。これにより、要約要素1621の「彼が」は、要約要素1631の「Aが」に修正される。
このあと、文生成装置200は、抽出結果1610と修正後の抽出結果1620とに基づいて、単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行する。このように、文生成装置200は、照応関係から代名詞を固有名詞に変換して、適切な出力文を生成することができる。
図17は、実施例3にかかるゼロ代名詞の補完例を示す説明図である。文生成装置200は、先行入力文1601の『Aが社内システムに関する資料を配布した。』と後続入力文1702の『その後、社内システムを説明した。』とのそれぞれに対し、木構造解析(ステップS501)を実行する。木構造解析(ステップS501)では、「A」は、人名の固有名詞であると特定される。
また、文生成装置200は、要約要素の取得(ステップS502)を実行することにより、先行入力文1601に関する抽出結果1610と、後続入力文1602に関する抽出結果1720とを出力する。先行入力文1601に関する抽出結果1610は、要約要素#anとして要約要素1611~1613を含む。後続入力文1702に関する抽出結果1720は、要約要素#anとして要約要素1622を含む。
要約要素の修正(ステップS503)において、文生成装置200は、照応解析を実行することにより、先行入力文1601に関する抽出結果1610と後続入力文1702に関する抽出結果1720との間で照応関係を特定する。具体的には、たとえば、文生成装置200は、後続入力文1702には主語が存在しないため、後続文の主語は先行文の主語「Aが」であると特定する。したがって、文生成装置200は、抽出結果1610内の主語「Aが」を含む要約要素1611をゼロ代名詞として抽出結果1620に追加する。これにより、ゼロ代名詞が補完される。
このあと、文生成装置200は、抽出結果1610と要約要素1611が追加された補完後の抽出結果1720とに基づいて、単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行する。このように、文生成装置200は、ゼロ代名詞を補完して、適切な出力文を生成することができる。
実施例4について説明する。実施例1~実施例3では、文生成装置200は、日本語の入力文に対して日本語の出力文を生成する例について説明した。実施例4では、文生成装置200は、英語の入力文に対して英語の出力文を生成する例について説明する。実施例4では、実施例1~実施例3との相違点を中心に説明するため、実施例1についての説明は省略する。
図18は、英語の入力文の一例を示す説明図である。入力文1800は、日本語の『運用については今後ということで、当事者の方の御意見なども聞いてやっていただきたいと思います。』の英訳文である。
図19は、実施例4にかかる抽出ルールDB300の一例を示す説明図である。抽出ルールDB1900は、入力文1800の言語が英語である場合に対応可能な抽出ルールを記憶するデータベースである。抽出ルールDB1900は、各種抽出ルールを記憶するデータベースである。抽出ルールDB1900は、文生成装置200の記憶デバイス202に記憶される。また、抽出ルールDB1900は、文生成装置200と通信可能なコンピュータに記憶されていてもよい。
抽出ルールDB1900は、図3の抽出ルールDB300と同様、たとえば、指示抽出ルールire1,ire2,…(ir1e,ir2e,…を区別しない場合は、単にireと表記)と、決定抽出ルールdr1e,…(dr1e,…を区別しない場合は、単にdreと表記)と、意見抽出ルールor1e,…(or1e,…を区別しない場合は、単にoreと表記)と、質問抽出ルールqr1,…(qr1e,…を区別しない場合は、単にqreと表記)と、共通抽出ルールcr1e,…(cr1e,…を区別しない場合は、単にcreと表記)とを記憶する。
ここで、指示抽出ルールir1eの詳細について具体的に説明する。2行目の「.type=root&.POS=VBN&.lemma=discuss」は、係り受けの種類(type)がルートであり、かつ、品詞が動詞の過去分詞形(VBN)であり、かつ、その内容語(動詞)が「discuss」を指定する記述である。これにより、文生成装置200は、議論された内容に関する英語の入力文を要約要素の取得対象とすることができる。
3行目の「♯a1.type=nsubjpass&.POS=NN*」は、2行目の記述の子ノードとして、係り受けの種類(type)が受動態の主語となる名詞(nsubjpass)であり、かつ、品詞が名詞の単数形(NN)である要約要素♯a1を抽出する抽出条件である。
4行目の「.type=aux&.POS=MD&.lemma=will」は、2行目の記述の子ノードとして、係り受けの種類(type)が動詞に係る助動詞(aux)であり、かつ、品詞が助動詞(MD)である内容語「will」を指定する記述である。
6行目の「♯a0.type=advcl&.POS=VB&.lemma=like」は、係り受けの種類(type)が副詞節修飾語(advcl)であり、かつ、品詞が動詞の原形(VB)である内容語「like」を、要約要素#a0として抽出する抽出条件である。
8行目の「.type=nsubj&.POS=PRP&.lemma=I」は、6行目の抽出条件の子ノードとして、係り受けの種類(type)が能動態の主語となる名詞(nsubj)であり、かつ、品詞が代名詞(PRP)である内容語「I」を指定する記述である。
9行目の「.type=aux&.POS=MD&.lemma=would」は、6行目の抽出条件の子ノードとして、係り受けの種類(type)が動詞に係る助動詞(aux)であり、かつ、品詞が助動詞(MD)である内容語「would」を指定する記述である。
10行目の「.type=xcomp&.POS=VB」は、6行目の抽出条件の子ノードとして、係り受けの種類(type)が開放句補語(xcomp)である動詞の原形(VB)を指定する記述である。
11行目の「.type=aux&.POS=TO&.lemma=to」は、10行目の記述の子ノードとして、係り受けの種類(type)が動詞に係る助動詞(aux)であり、かつ、品詞がTO不定詞(TO)である内容語「to」を指定する記述である。
12行目の「♯a2.type=dobj&.POS=N.**)」は、10行目の記述の子ノードとして、係り受けの種類(type)が直接目的語(dobj)であり、かつ、名詞である要約要素#a2を抽出する抽出条件である。
また、共通抽出ルールcr1eは、共通抽出ルールcr1と同様、対象となる要約要素#a0から削除対象の語を特定するという、いわゆる枝刈りをおこなうための枝刈り条件である。共通抽出ルールcr1eの「(type_pruned.dobj)」は、係り受けの種類(type)が直接目的語(dobj)であるという条件式であり、「(POS_pruned.IN)」は、品詞が前置詞または従属接続詞(IN)であることを示す。すなわち、共通抽出ルールcr1eは、要約要素#a0から直接目的語(dobj)と、前置詞または従属接続詞と、を削除するという枝刈り条件である。
図20は、実施例4にかかる文生成テンプレートDB400の一例を示す説明図である。文生成テンプレートDB2000は、図4の文生成テンプレートDB400と同様、たとえば、文生成テンプレートtp1e,tp2e,tp3e,…(tp1e,tp2e,tp3e,…を区別しない場合は、単にtpe)を記憶するデータベースである。文生成テンプレートDB400は、文生成装置200の記憶デバイス202に記憶される。また、文生成テンプレートDB2000は、文生成装置200と通信可能なコンピュータに記憶されていてもよい。
文生成テンプレートtpは、抽出した要約要素を文生成テンプレートtpe内の当該構成要素の位置に設定することにより、出力文を生成するためのテンプレートである。文生成テンプレートtp1eの場合、要約要素#a1,#a2,#a0が適用される。
<文生成処理手順>
実施例4にかかる文生成装置200による文生成処理手順例では、文生成装置200は、図5に示した木構造解析(ステップS501)、要約要素の取得(ステップS502)、要約要素の修正(ステップS503)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行して、一連の処理を終了する。
図21は、実施例4にかかる木構造解析(ステップS501)による入力文1800の木構造解析結果の一例を示す説明図である。木構造解析結果2100は、抽出ルールの抽出対象となるデータである。木構造解析(ステップS501)では、文生成装置200は、入力文1800を木構造解析する。具体的には、たとえば、文生成装置200は、入力文100に対して単語単位で形態素解析および係り受け解析を実行する。これにより、木構造解析結果2100が得られる。
なお、図21の木構造解析結果2100において、図19で示したもののほか、「det」は限定詞、「prep」は前置詞、「pobj」は前置詞の目的語、「DT」は冠詞、「mark」は接続詞、「NNS」は名詞(複数形)、「rcmod」は関係詞節、「WPはWh代名詞(単数形)である。
図22は、実施例4にかかる要約要素の取得(ステップS502)による要約要素の取得結果を示す説明図である。要約要素の取得(ステップS502)では、文生成装置200は、たとえば、抽出ルールDB1900のすべての抽出ルールを木構造解析結果2100に適用して、要約要素を抽出する。具体的には、たとえば、文生成装置200は、指示抽出ルールir1eの3行目の抽出条件C1eを木構造解析結果2100から特定し、抽出条件C1eに該当する要約要素#a1として、動詞の受動態「discussed」の主語である「the operation」を抽出する。
また、文生成装置200は、指示抽出ルールir1eの6行目の抽出条件C2eを木構造解析結果600から特定し、抽出条件C2eに該当する要約要素#a0として「so I would like to hear the opinion of those who are involved in the project」を抽出する。また、文生成装置200は、指示抽出ルールir1eの12行目の抽出条件C2eを木構造解析結果2100から特定し、抽出条件C2eに該当する要約要素#a2として「the opinion of those who are involved in the project.」を抽出する。
また、要約要素の取得(ステップS502)では、文生成装置200は、抽出した要約要素について共通抽出ルールcr1eに該当する場合には、枝刈りを実行する。
図23は、実施例4にかかる要約要素の修正(ステップS503)による枝刈り結果を示す説明図である。図23では、要約要素#a0から、共通抽出ルールcr1eに規定された直接目的語である「the opinion of those who are involved in the project」と、前置詞または従属接続詞である「so」を削除して、要約要素#a0を「I would like to hear」にする。以降、特に指定しない限り、実施例4において、要約要素#a0は、枝刈り後の「I would like to hear」とする。
実施例4では、要約要素の修正(ステップS503)のあと、文生成装置200は、木構造解析(ステップS501)において単語単位で木構造解析を実行したため、要約要素からの単語列の抽出(ステップS504)を実行せずに、文生成テンプレートによる連結(ステップS505)を実行する。
図24は、実施例4にかかる文生成テンプレートによる連結(ステップS505)での連結結果を示す説明図である。文生成テンプレートによる連結(ステップS505)では、文生成装置200は、要約要素#a0~#a2を、文生成テンプレートtp1eに適用することにより、連結結果2400として「About the operation,I would like to hear the opinion of those who are involved in the project.」を生成する。
活用語尾の変換(ステップS506)では、文生成装置200は、文生成テンプレートによる連結(ステップS505)での連結結果2400について活用語尾を変換し、出力文を出力する。活用語尾の変換(ステップS506)としては、主語に合わせて動詞に三単現のs(es)を付与したり削除したりする処理があるが、連結結果2400ではその必要がないため、文生成装置200は、連結結果2400を出力文として出力する。
このように、入力文1800の言語が英語であっても、実施例1と同様、入力文1800を平易化した出力文を出力することにより、可能な限り文生成を自動化して人間の人的作業の低減を図ることができる。また、複文間の時制、否定形および仮定形の検出およびその検出結果に関する要約要素の修正(ステップS503)についても、実施例4にかかる文生成装置200は、実施例2で示した処理に従って、実行することができる。また、照応解析(照応およびゼロ代名詞)およびその照応解析結果に関する要約要素の修正(ステップS503)についても、実施例4にかかる文生成装置200は、実施例3で示した処理に従って、実行することができる。
また、上述した実施例1~実施例4では、言語が日本語または英語の例について説明したが、文法が共通する他の言語については、文法が共通する範囲で実施例1~実施例4を適用することができる。
また、上述した実施例1~実施例4にかかる文生成装置200は、下記(1)~(11)のように構成することもできる。
(1)プログラムを実行するプロセッサ201と、プログラムを記憶する記憶デバイス202と、を有する文生成装置200では、プロセッサ201は、入力文100を構成する単語列である1以上の要約要素(#a0,#a1,#a2)を取得する取得処理(ステップS502)と、単語列の少なくとも一部を指定する1以上の指定要素によって文のひな型を構成する文生成テンプレートtpを参照して、取得処理(ステップS502)によって取得された要約要素(#a0,#a1,#a2)の単語列の少なくとも一部を指定可能な文生成テンプレートtp内の指定要素(♯a1、♯a2、♯a2.case、♯a0.lemma)で指定することにより、出力文101を生成する生成処理(ステップS505)と、を実行する。
あらかじめ文生成テンプレートtpを設定しておくことにより、入力文100を適切な形に変換することができる。これにより、入力文100に基づく出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
(2)上記(1)の文生成装置200において、プロセッサ201は、入力文100を木構造解析して木構造解析結果を出力する木構造解析処理(ステップS501)を実行し、取得処理(ステップS502)では、プロセッサ201は、要約要素(#a0,#a1,#a2)を抽出する抽出ルールirを用いて、木構造解析処理(ステップS501)によって出力された木構造解析結果600に基づいて、入力文100から要約要素(#a0,#a1,#a2)を抽出する(S502)。
あらかじめ抽出ルールirおよび文生成テンプレートtpを設定しておくことにより、抽出ルールirによって入力文100から抽出された要約要素の単語列を用いて、入力文100を適切な形に変換することができる。これにより、入力文100に基づく出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
(3)上記(1)の文生成装置200において、プロセッサ201は、要約要素(#a0,#a1,#a2)を修正する修正処理(ステップS503)を実行し、生成処理(ステップS505)では、プロセッサ201は、文生成テンプレートtpを参照して、修正処理(ステップS503)による修正後の要約要素の単語列(「聞いてやっていただきたい」)を指定可能な文生成テンプレートtp内の指定要素(#a0.lemma)で指定することにより、出力文101を生成する。
これにより、修正済みの要約要素を用いて、入力文100を入力文100よりも平易化された適切な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
(4)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、要約要素の一部の単語列を削除する削除ルール(共通抽出ルールcr1)に基づいて、要約要素(「聞いてやっていただきたい」)の一部の単語列(「明日」)を削除する。
これにより、文生成テンプレートtpの適用前に不要な単語を削除することができるため、入力文100を入力文100よりも簡素化された適切な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
(5)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、入力文100に含まれている複文の先行文を構成する第1述語(「配布し」)を含む第1要約要素1313と、複文の後続文を構成する第2述語(「説明した」)を含む第2要約要素1315と、について、第1述語の時制と第2述語の時制とが異なる場合、第1述語の時制を第2述語の時制に変更する。
これにより、文生成テンプレートtpの適用前に時制の一致が実行されるため、入力文100をより意味が明確な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
(6)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、入力文100に含まれている複文の先行文を構成する第1述語(「持ち出して」)を含む第1要約要素1413と、複文の後続文を構成する第2述語(「漏らさないでください」)を含む第2要約要素1415と、について、第1述語が肯定形であり、かつ、第2述語が否定形である場合、第1述語を否定形に変更する。
これにより、文生成テンプレートtpの適用前に否定表現の一致が実行されるため、入力文100をより意味が明確な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
(7)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、入力文100に含まれている複文の先行文を構成する第1述語(「持ち帰って」)を含む第1要約要素1512と、複文の後続文を構成する第2述語(「保存すれば」)を含む第2要約要素1513と、について、第1述語が断定形であり、かつ、第2述語が仮定形である場合、第1述語を仮定形に変更する
これにより、文生成テンプレートtpの適用前に仮定表現の一致が実行されるため、入力文100をより意味が明確な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
(8)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、先行入力文1601に含まれる特定の名詞の第1単語列(「A」)と、先行入力文1601に後続する後続入力文1602に含まれる照応詞の第2単語列(「彼」)と、が照応することを検出し、第2単語列(「彼」)を、第1単語列(「A」)に変更する。
これにより、文生成テンプレートtpの適用前に照応解析が実行されるため、入力文100を照応関係が明確な形に変換することができる。したがって、出力文の作成を可能な限り自動化し、人的作業の低減を図ることができる。
(9)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、第1入力文1601に含まれる特定の名詞の単語列(「A」)またはその照応詞(「彼」または「彼女」)が、第1入力文1601に後続する第2入力文1602に含まれていないことを検出し、特定の名詞の単語列(「A」)を含む要約要素1611を、第2入力文1602の1以上の要約要素の集合に追加する。
これにより、文生成テンプレートtpの適用前に照応解析が実行されるため、入力文100をゼロ代名詞の単語列を補完して明確な形に変換することができる。したがって、出力文の作成を可能な限り自動化し、人的作業の低減を図ることができる。
(10)上記(1)の文生成装置200において、プロセッサ201は、出力文101において2つの動詞(「聞く」と「まとめる」)が連結されている場合、先頭側の動詞(「聞く」)の活用語尾(「く」)を変換する変換処理(ステップS506)を実行する。
これにより、入力文100を文法的に正しくて違和感のない適切な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
(11)上記(1)の文生成装置200において、プロセッサ201は、出力文101における主語と述語との関係に基づいて、述語内の動詞の活用語尾を変換する変換処理(ステップS506)を実行する。
これにより、入力文100を文法的に正しくて違和感のない適切な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサ201がそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Intetpated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
cr 共通抽出ルール
dr 決定抽出ルール
ir 指示抽出ルール
or 意見抽出ルール
qr 質問抽出ルール
tp 文生成テンプレート
300 抽出ルールDB
400 文生成テンプレートDB
100 入力文
101 出力文
102 議事録
200 文生成装置
201 プロセッサ
202 記憶デバイス
600 木構造解析結果
1900 抽出ルールDB

Claims (13)

  1. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する文生成装置であって、
    前記プロセッサは、
    入力文を木構造解析して前記入力文を構成する単語列である1以上の要約要素からなる木構造解析結果を出力する木構造解析処理と、
    前記要約要素を抽出する抽出条件を含む抽出ルールを用いて、前記木構造解析処理によって出力された木構造解析結果から、前記抽出条件に該当する特定の要約要素を取得する取得処理と、
    前記要約要素を指定して当該要約要素から内容語または特定の品詞の単語を抽出する1以上の指定要素によって文のひな型を構成する文生成テンプレートを参照して、前記特定の要約要素ごとに、前記特定の要約要素を指定した特定の指定要素に該当する特定の単語を前記特定の要約要素から抽出して前記文生成テンプレートに適用することにより、出力文を生成する生成処理と、
    を実行することを特徴とする文生成装置。
  2. 請求項1に記載の文生成装置であって、
    前記プロセッサは、
    前記生成処理では、前記プロセッサは、前記特定の指定要素と前記特定の単語との組み合わせを出力する、
    ことを特徴とする文生成装置。
  3. 請求項1に記載の文生成装置であって、
    前記プロセッサは、
    前記要約要素を修正する修正処理を実行し、
    前記生成処理では、前記プロセッサは、前記文生成テンプレートを参照して、前記修正処理による修正後の特定の要約要素ごとに、前記修正後の特定の要約要素を指定した特定の指定要素に該当する特定の単語を前記修正後の特定の要約要素から抽出して前記文生成テンプレートに適用することにより、前記出力文を生成する、
    ことを特徴とする文生成装置。
  4. 請求項3に記載の文生成装置であって、
    前記修正処理では、前記プロセッサは、前記要約要素の一部の単語列を削除する削除ルールに基づいて、前記要約要素の一部の単語列を削除する、
    ことを特徴とする文生成装置。
  5. 請求項3に記載の文生成装置であって、
    前記修正処理では、前記プロセッサは、前記入力文に含まれている複文の先行文を構成する第1述語を含む第1要約要素と、前記複文の後続文を構成する第2述語を含む第2要約要素と、について、前記第1述語の時制と前記第2述語の時制とが異なる場合、前記第1述語の時制を前記第2述語の時制に変更する、
    ことを特徴とする文生成装置。
  6. 請求項3に記載の文生成装置であって、
    前記修正処理では、前記プロセッサは、前記入力文に含まれている複文の先行文を構成する第1述語を含む第1要約要素と、前記複文の後続文を構成する第2述語を含む第2要約要素と、について、前記第1述語が肯定形であり、かつ、前記第2述語が否定形である場合、前記第1述語を否定形に変更する、
    ことを特徴とする文生成装置。
  7. 請求項3に記載の文生成装置であって、
    前記修正処理では、前記プロセッサは、前記入力文に含まれている複文の先行文を構成する第1述語を含む第1要約要素と、前記複文の後続文を構成する第2述語を含む第2要約要素と、について、前記第1述語が断定形であり、かつ、前記第2述語が仮定形である場合、前記第1述語を仮定形に変更する、
    ことを特徴とする文生成装置。
  8. 請求項3に記載の文生成装置であって、
    前記修正処理では、前記プロセッサは、第1入力文に含まれる特定の名詞の第1単語列と、前記第1入力文に後続する第2入力文に含まれる照応詞の第2単語列と、が照応することを検出し、前記第2単語列を、前記第1単語列に変更する、
    ことを特徴とする文生成装置。
  9. 請求項3に記載の文生成装置であって、
    前記修正処理では、前記プロセッサは、第1入力文に含まれる特定の名詞の単語列またはその照応詞が、前記第1入力文に後続する第2入力文に含まれていないことを検出し、前記特定の名詞の単語列を含む要約要素を、前記第2入力文の1以上の要約要素の集合に追加する、
    ことを特徴とする文生成装置。
  10. 請求項1に記載の文生成装置であって、
    前記プロセッサは、
    前記出力文において2つの動詞が連結されている場合、先頭側の動詞の活用語尾を変換する変換処理を実行する、
    ことを特徴とする文生成装置。
  11. 請求項1に記載の文生成装置であって、
    前記プロセッサは、
    前記出力文における主語と述語との関係に基づいて、前記述語内の動詞の活用語尾を変換する変換処理を実行する、
    ことを特徴とする文生成装置。
  12. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する文生成装置が実行する文生成方法であって、
    前記文生成方法は、
    前記プロセッサが、
    入力文を木構造解析して前記入力文を構成する単語列である1以上の要約要素からなる木構造解析結果を出力する木構造解析処理と、
    前記要約要素を抽出する抽出条件を含む抽出ルールを用いて、前記木構造解析処理によって出力された木構造解析結果から、前記抽出条件に該当する特定の要約要素を取得する取得処理と、
    前記要約要素を指定して当該要約要素から内容語または特定の品詞の単語を抽出する1以上の指定要素によって文のひな型を構成する文生成テンプレートを参照して、前記特定の要約要素ごとに、前記特定の要約要素を指定した特定の指定要素に該当する特定の単語を前記特定の要約要素から抽出して前記文生成テンプレートに適用することにより、出力文を生成する生成処理と、
    を実行することを特徴とする文生成方法。
  13. プロセッサに、
    入力文を木構造解析して前記入力文を構成する単語列である1以上の要約要素からなる木構造解析結果を出力する木構造解析処理と、
    前記要約要素を抽出する抽出条件を含む抽出ルールを用いて、前記木構造解析処理によって出力された木構造解析結果から、前記抽出条件に該当する特定の要約要素を取得する取得処理と、
    前記要約要素を指定して当該要約要素から内容語または特定の品詞の単語を抽出する1以上の指定要素によって文のひな型を構成する文生成テンプレートを参照して、前記特定の要約要素ごとに、前記特定の要約要素を指定した特定の指定要素に該当する特定の単語を前記特定の要約要素から抽出して前記文生成テンプレートに適用することにより、出力文を生成する生成処理と、
    を実行させることを特徴とする文生成プログラム。
JP2020083255A 2020-05-11 2020-05-11 文生成装置、文生成方法および文生成プログラム Active JP7511381B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020083255A JP7511381B2 (ja) 2020-05-11 2020-05-11 文生成装置、文生成方法および文生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020083255A JP7511381B2 (ja) 2020-05-11 2020-05-11 文生成装置、文生成方法および文生成プログラム

Publications (3)

Publication Number Publication Date
JP2021179673A JP2021179673A (ja) 2021-11-18
JP2021179673A5 JP2021179673A5 (ja) 2023-02-10
JP7511381B2 true JP7511381B2 (ja) 2024-07-05

Family

ID=78511524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020083255A Active JP7511381B2 (ja) 2020-05-11 2020-05-11 文生成装置、文生成方法および文生成プログラム

Country Status (1)

Country Link
JP (1) JP7511381B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7474295B2 (ja) 2022-09-01 2024-04-24 三菱電機インフォメーションシステムズ株式会社 情報処理システム、情報処理方法、およびプログラム
JP7474296B2 (ja) 2022-09-01 2024-04-24 三菱電機インフォメーションシステムズ株式会社 情報処理システム、情報処理方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003701A (ja) 2010-06-21 2012-01-05 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
JP2013196504A (ja) 2012-03-21 2013-09-30 Toshiba Corp 要点抽出装置およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003701A (ja) 2010-06-21 2012-01-05 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
JP2013196504A (ja) 2012-03-21 2013-09-30 Toshiba Corp 要点抽出装置およびプログラム

Also Published As

Publication number Publication date
JP2021179673A (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
US20140350913A1 (en) Translation device and method
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
Novák et al. Creation of an annotated corpus of Old and Middle Hungarian court records and private correspondence
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
JP7511381B2 (ja) 文生成装置、文生成方法および文生成プログラム
Hämäläinen et al. Development of an open source natural language generation tool for finnish
Lingam et al. Rule-based machine translation from English to Telugu with emphasis on prepositions
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
Paul et al. English to Nepali statistical machine translation system
KR102182248B1 (ko) 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램
Torjmen et al. Translation system from Tunisian Dialect to Modern Standard Arabic
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Jain et al. Codeswitched sentence creation using dependency parsing
Fashwan et al. A morphologically annotated corpus and a morphological analyzer for Egyptian Arabic
JP4869281B2 (ja) 機械翻訳装置、プログラム及び方法
JP4041875B2 (ja) 文章語文体変換システムおよび文章語文体変換処理プログラム
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
Tajalli et al. Developing an Informal-Formal Persian Corpus
Rodrigues et al. Arabic data science toolkit: An api for arabic language feature extraction
Srithirath et al. An approach to Lao-English rule based machine translation
Marzouk et al. An Evaluation of the Morphological Analysis of Egyptian Arabic TreeBank

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230202

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240625