JP3921523B2

JP3921523B2 - テキスト生成方法及びテキスト生成装置

Info

Publication number: JP3921523B2
Application number: JP2001395618A
Authority: JP
Inventors: 清貴内元; 均井佐原
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2001-12-27
Filing date: 2001-12-27
Publication date: 2007-05-30
Anticipated expiration: 2021-12-27
Also published as: JP2003196280A; US20050050469A1; WO2003056451A1; EP1469398A1; EP1469398A4

Description

【０００１】
【発明の属する技術分野】
本発明は自然言語処理方法及び装置に関する。特に、いくつかのキーワードからテキストを生成する手法に特徴を有する。
【０００２】
【従来の技術】
近年、コンピュータによって言語のテキストを解析する技術、或いは生成する技術の開発が進んでいる。特にテキストの生成においては、いかに自然なテキストを生成できるかが、課題となっており、人間が生成したものと遜色のない生成方法の提供が求められている。
例えば、いくつかのキーワードを入力したときに、それらのキーワードを用いて自然なテキストを生成する技術は、外国人など、文章作成の苦手な者への作成支援を行うことに寄与する。
また、単語を列挙することで相手への意思を伝達できるため、機械翻訳に近い使い方も可能である。
【０００３】
例えば、失語症患者の文生成支援では、現在、日本全国でおよそ１０万人程度の失語症患者がおり、その８割程度の人はとぎれとぎれの文（単語の列）を発声できる、あるいは単語の候補を提示してあげると言いたいことを表現するためにその中からいくつか単語を選択することができると言われている。
そこで、例えば「彼女公園行った」などを発声あるいは選択し、そこから自然な文「彼女が公園へ行った」、「彼女と公園へ行った」などを生成して提示することによって、患者のコミュニケーションを支援する。
【０００４】
このように、１つ以上のキーワードを入力して、自然なテキストを生成する従来の技術として、テンプレートをもとに文を生成する技術や、キーワードをもとにデータベースから文を検索する技術はすでに存在する。
しかし、これらの技術ではテンプレートに合致する場合のみ、あるいはデータベース中に含まれる文と合致する場合のみにしか有効でなく、いずれも限られた型の文しか生成できない。
また、検索の際、適合しやすくなるようにキーワードを類義語などに置き換える技術も提案されているが、キーワードから生成されるべき文のバリエーションは多岐に亙るため、十分であるとはいえない。
【０００５】
【発明が解決しようとする課題】
本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、その目的は、１つ以上のキーワードを基に、そのキーワードから自然なテキストを生成する生成方法・生成装置を提供することである。
【０００６】
【課題を解決するための手段】
本発明は、上記の課題を解決するために、次のようなテキスト生成方法を創出する。
すなわち、次の各ステップに基づいてテキストの生成を行う。
まず、入力手段から１個以上のキーワードとなる単語を入力する入力ステップで、「彼女」「公園」「行った」などを入力する。
そして、該キーワードに係るテキストを、データベースから抽出する抽出ステップに進む。データベースには多くの例文が搭載されており、例えば「彼女」という単語を含むテキストや語句を探して抽出手段により抽出する。
次に、抽出されたテキストを組み合わせて、テキスト生成手段が入力したキーワードを用いる最適なテキストを生成する。このテキスト生成ステップでは、例えば「彼女」、「〜へ」、「行った」を含むテキストがデータベース中にあるときに、「彼女は公園へ行った」というように組み合わせてテキストを生成する。
【０００７】
ここで、前記テキスト生成ステップにおいて、解析手段が抽出されたテキストを形態素解析及び構文解析し、該テキストの係り受け構造を得る。そして、係り受け構造形成手段がキーワードを含む係り受け構造を形成することによって、より自然なテキスト生成を実現することができる。
さらに、キーワードを含む係り受け構造を形成する過程で、係り受けモデルを用いてテキスト全体の係り受け確率を求め、該確率の最大のものを最適なテキストとして生成してもよい。
【０００８】
本発明では、語順についても語順モデルを用いて、自然な文の並びとなるテキストの生成を図ることもできる。テキスト生成ステップにおいて、係り受け構造を形成する過程あるいは形成した後で用いることができる。
また、テキスト生成ステップにおいて、キーワードの全ての配列について、任意の２つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定することもできる。学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで繰り返す。キーワードには補完した単語を編入することができるので、補完された単語間にもさらに補完することもできる。このとき、補完した単語をキーワードに編入し、又は編入せずに全文について補完される確率を算出し、各積算することによって、全文について最も確率の高くなる補完組み合わせを得ることができる。これにより、好適な補完が実現できるので、与えるキーワードが少ない場合でも、自然なテキスト生成を図ることができる。
【０００９】
また、本発明では、上記のデータベースに、特徴的なテキストパターンを有するテキストを備え、テキスト生成ステップがその特徴を反映したテキストを生成する構成をとることもできる。
例えば、文体や言い回しなどについて特徴のあるテキストをデータベースに備えておくことで、生成されるテキストが、その特徴に準拠したテキストになる。
【００１０】
本発明は、文又は文章のテキストを生成するテキスト生成装置として提供することもできる。該テキスト生成装置には、１個以上のキーワードとなる単語を入力する入力手段、複数のテキストで構成されるテキストデータベース、該キーワードに係るテキストを、該テキストデータベースから検索し、抽出する抽出手段、抽出されたテキストを組み合わせて、入力したキーワードを用いる最適なテキストを生成するテキスト生成手段を備える。
【００１１】
そして、抽出されたテキストを形態素解析及び構文解析し、該テキストの係り受け構造を得る解析手段と、前記キーワードを含む係り受け構造を形成する係り受け構造形成手段とをテキスト生成手段に含む。
特に、テキスト生成手段において、係り受け構造形成手段が、係り受けモデルを用いてテキスト全体の係り受け確率を求め、該確率の最大のものを最適なテキストとして生成するとよい。
【００１２】
テキスト生成手段において、係り受け構造を形成する過程あるいは形成した後で、語順モデルを用いて自然な文の並びとなる最適なテキストを生成することもできる。
また、テキスト生成手段において、前記キーワードの全ての配列について、任意の２つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定し、学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで、補完した単語をキーワードに編入し、又は編入しない処理を繰り返し、全文について最も確率の高くなる補完組み合わせを得る単語補完手段を含んでもよい。
【００１３】
テキスト生成装置においても、上記同様、データベースに特徴的なテキストパターンを有するテキストを備え、テキスト生成手段がその特徴を反映したテキストを生成するようにしてもよい。
さらに、パターン選択手段を設けることで、複数のテキストパターンを適宜選択切換することもできる。
【００１４】
【発明の実施の形態】
以下、本発明の実施方法を図面に示した実施例に基づいて説明する。なお、本発明の実施形態は以下に限定されず、適宜変更可能である。
図１には本発明におけるテキスト生成装置（１）の説明図を示す。該装置には、キーワード入力部（１０）、テキスト語句検索抽出部（１１）、テキスト生成部（１２）と共に、データベース（１３）を備える。データベース（１３）には予め複数のテキストがテーブルとして備えられており、該テーブルの内容については適宜変更させることもできる。内容を変更することで様々なテキストの生成を実現できるが、この点については後述する。
【００１５】
そして、例えば「彼女」「公園」「行った」の３つのキーワード（２）をキーワード入力部（１０）から入力すると、テキスト語句検索抽出部（１１）がデータベース（１３）からキーワードの少なくとも１つを含むテキストや語句を検索して、それらを抽出する。
さらにテキスト生成部（１２）では抽出されたテキストや語句に基づき、それらを組み合わせることで、自然なテキスト、ここでは「彼女は公園へ行った」（３）を出力する。
【００１６】
各過程をさらに詳述する。まず、キーワード入力部（１０）において入力されたキーワードについて、テキスト語句検索抽出部（１１）でデータベース（１３）からキーワードｎ個を含む文を抽出する。ここで、キーワードは１つでも含めばよい。抽出された文はテキスト生成部（１２）に送られる。
テキスト生成部（１２）は、解析部（１２ａ）と形成部（１２ｂ）、評価部（１２ｃ）から成り、解析部（１２ａ）においてまず抽出した文の形態素解析及び構文解析を行う。
【００１７】
形態素解析には、例えば本件出願人らが特願２００１−１３９５６３号で出願中のＭＥモデルによる形態素の解析方法を用いることができる。
ここで、形態素解析をＭＥモデルに適用するために、形態素としての尤もらしさを確率として表す。
すなわち、文が与えられたとき、その文を形態素解析するという問題は文を構成する各文字列に、２つの識別符号のうち１つ、つまり、形態素であるか否かを示す「１」又は「０」を割り当てる問題に置き換えることができる。
さらに、形態素である場合には文法的属性を付与するために「１」を文法的属性の数だけ分割する。すると、文法的属性の数がｎ個のとき、各文字列に「０」から「ｎ」までのうちいずれかの識別符号を割り当てる問題に置き換えることができる。
【００１８】
したがって、形態素解析にＭＥモデルを用いた手法では、文字列が、形態素であって、かついずれかの文法的属性を持つとしたときの尤もらしさをＭＥモデルにおける確率分布の関数に適用することで求められる。形態素解析においてはこの尤もらしさを表す確率に、規則性を見いだすことで処理を行っている。
用いる素性としては、着目している文字列の字種の情報、その文字列が辞書に登録されているかどうか、１つ前の形態素からの字種の変化、１つ前の形態素の品詞などの情報を用いる。１個の文が与えられたとき、文全体で確率の積が最大になるよう形態素に分割し文法的属性を付与する。最適解の探索には適宜公知のアルゴリズムを用いることができる。
【００１９】
このように、ＭＥモデルを用いた形態素解析方法は、例えば未知語を含んでいても有効な形態素解析ができるなど、優位性の高い方法である。本発明の実施においては、上記方法によることが特に効果的であるが、必ずしも限定されるものではなく、任意の形態素解析方法を用いることができる。
【００２０】
さらに、解析部（１２ａ）における構文解析についてもＭＥモデルを用いた解析手法を導入することができる。構文解析についても、他の任意の手法に置き換えることができるが、一実施例として以下の手法を示す。前記データベース（１３）はテキスト生成部（１２）からも参照が可能であり、本ＭＥモデルではデータベースに含まれる複数のテキストから学習を行うことができる。
構文解析のうち、係り受け解析についての導入をする。どの文節がどの文節を修飾するかという日本語の係り受け関係には、主に以下の特徴があるとされている。すなわち、
（１）係り受けは前方から後方に向いている。
（２）係り受け関係は交差しない。（以下、これを非交差条件と呼ぶ。）
（３）係り要素は受け要素を1 つだけもつ。
（４）ほとんどの場合、係り先の決定には前方の文脈を必要としない。
本実施例では、これらの特徴に着目し、統計的手法と文末から文頭に向けて解析する方法を組み合わせることにより高い解析精度を得ることを実現した。
【００２１】
まず、文末から順に２つずつ文節を取り上げ、それらが係り受けの関係にあるかどうかを統計的に決定する。その際、文節あるいは文節間にみられる情報を素性として利用するが、どのような素性を利用するかが精度に影響する。
文節は、前の主辞にあたる部分と後ろの助詞や活用形にあたる部分に分けて考え、それぞれの素性とともに文節間の距離や句読点の有無なども素性として考慮する。
さらに括弧の有無や文節間の助詞「は」の有無、係り側の文節と同じ助詞や活用形が文節間にもあるか否か、素性間の組み合わせについても考慮している。
【００２２】
ＭＥモデルによればこういった様々な素性を扱うことができる。
そして、この方法では決定木や最尤推定法などを用いた従来の手法に比べて学習データの大きさが１０分の１程度であるにも関わらず、同程度以上の精度が得られる。この手法は学習に基づくシステムとして、最高水準の精度を得られる手法である。
さらに、従来は、学習データから得られる情報を基に、２つの文節が係り受け関係にあるか否かを予測するのに有効な素性を学習していたが、新たに前文節が「後文節を越えて先にある文節に係る」「後文節に係る」「後文節との間にある文節に係る」の３つの状態のどれであるかを予測するのに有効な情報を学習する方法によって、より高精度な係り受け解析を可能にしている。
【００２３】
このように、ＭＥモデルを用いた形態素解析方法、構文解析方法を採用することによって、解析部（１２ａ）ではデータベース（１３）から検索抽出されたテキストを正確に解析し、該テキストの係り受け構造を得る。該係り受け構造は部分的な係り受け関係の集合である部分グラフとして表すことができる。ここで、グラフ構造のノードが文節、アークが係り受けとする。
各キーワードを少なくとも一つ含む部分グラフをすべて抽出し、頻度を調べる。ノードは汎化した情報(人名、組織名などの固有表現や品詞)のみを持つものも考慮する。
【００２４】
データベース（１３）から上記のキーワードに基づいて抽出され、解析した結果のうち、頻度が高かったものが図２のａとｂである。例えばａにおいて、キーワード「彼女は」をノード（親ノード１）（２０）とすると、「＜名詞＞＋へ」がノード（親ノード２）（２１）、「＜動詞＞。」がノード（子ノード）（２２）として係り受け関係（２３）をもつ。
【００２５】
この過程より先はテキスト生成部（１２）のうち形成部（１２ｂ）における処理に移行する。ただし、本実施例では、テキスト生成部（１２）における解析と形成は以下に示すように一体的な処理であり、相互に連係して動作する。
入力するキーワードｎ個は係り受け関係にあると仮定し、入力単語ｎ個を含むような係り受け構造木を生成する。木の生成には上記の部分グラフを組み合わせて用いる。
すなわち、図２の a でキーワード「彼女」を含むテキスト（以下では第１テキストと呼ぶ）から得られる部分的な係り受け関係は上述した通り、「彼女は」と「＜名詞＞へ」や、「彼女は」と「＜動詞＞」、「＜名詞＞へ」と「＜動詞＞」の３種類になる。
【００２６】
同様に、キーワード「公園」を含むテキスト（同、第２テキスト）から得られる部分的な係り受け関係も図２の通り、「＜名詞＞は」と「公園へ」や、「＜名詞＞は」と「＜動詞＞」、「公園へ」と「＜動詞＞」の３種類になる。キーワード「行った」を含むテキスト（同、第３テキスト）についても３種類の部分的な係り受け関係が得られる。もちろんこれは一例であって、実際にはキーワードとテキストによって様々な種類の係り受け関係が得られる。
【００２９】
以上の３つの係り受け関係から、１文全体で「彼女は」「公園へ」「行った」という図３ａの係り受け構造が確定する。
図２ｂはさらに別のテキスト（仮に第４テキスト〜第６テキストと呼ぶことができる）からこのような部分グラフが得られるのであり、それを上記のように部分的な係り受け関係に分けて組み合わせることで、「彼女の」「公園へ」「行った」という係り受け構造が確定する。
【００３０】
ここで、生成された２つの木（図３ａ・ｂ）のうち、いずれが適当であるかを再び上記の係り受けモデルを用いて選択する。
順序付けの際には、組み合わせた部分グラフ間での一致する割合、頻度、係り受け関係を考慮する。特にｎが３以上の場合、単語ｎ個間の係り受け関係には曖昧性があるが、曖昧性の解消には、係り受けモデルを利用する。係り受けモデルによって求められる確率値が大きなものを優先して順序付けする。
【００３１】
その結果、ａの木における確率値により高い結果が得られ、最適な係り受け関係はａであることが選択される。
日本語においては、語順の制限が比較的緩やかであり、係り受け関係が決定されると自然なテキストに近い結果が得られるが、本発明の対象とする言語は必ずしも日本語に限られず、他の言語で用いることも考えられる。
また、日本語においてもより自然なテキストに寄与するためには最も自然な語順が選択されることが望ましく、本発明では、次のように並べ替えることができる。
【００３２】
まず、優先順位の高い木から、自然な文の並びに置き換えて出力する。その際、依存構造から自然な並びの文を生成するＭＥモデルを用いた語順モデルを利用する。語順モデルの学習についてもデータベース（１３）を参照して行うことができる。
語順が自由であると言われる日本語でも、これまでの言語学的な調査によると、時間を表す副詞の方が主語より前に来やすい、長い修飾句を持つ文節は前に来やすいといった何らかの傾向がある。もしこの傾向をうまく整理することができれば、それは自然な文を生成する際に有効な情報となる。ここで語順とは、係り相互間の語順、つまり同じ文節に係っていく文節の順序関係を意味するものとする。語順を決定する要因にはさまざまなものがあり、例えば、修飾句の長い文節は短い文節より前に来やすい、「それ」などの文脈指示語を含む文節は前に来やすい、などがあげられる。
【００３３】
本実施例においては、上記のような要素と語順の傾向との関係、すなわち規則性を所定のテキストから学習する手法を考案した。この手法では、語順の決定にはどの要素がどの程度寄与するかだけでなく、どのような要素の組み合わせのときにどのような傾向の語順になるかということも学習に用いるテキストから演繹的に学習することができる。個々の要素の寄与の度合はＭＥモデルを用いて効率良く学習する。係り文節の数によらず２つずつ取り上げてその順序を学習する。
【００３４】
文を生成する際には、この学習したモデルを用いて、係り受け関係にある文節を入力とし、その係り文節の順序を決めることができる。語順の決定は次の手順で行なう。
まず、係り文節について可能性のある並びをすべて考える。次に、それぞれの並びについて、その係り文節の順序が適切である確率を学習したモデルを用いて求める。この確率は、順序が適切であるか否かの「０」または「１」に置き換え、ＭＥモデルにおける確率分布の関数に適用することで求められる。
そして、全体の確率が最大となる並びを解とする。全体の確率は、係り文節を２つずつ取り上げたときその順序が適切である確率を計算し、それらの積として求める。
【００３５】
例えば、「昨日／テニスを／太郎は／した。」という文で最適な語順の決定を説述する。上記と同様に係り受け構造木を作成すると、最も確率値の高い構造木が図４のように得られる。
すなわち、動詞「した。」（４３）に係る文節は「昨日」（４０）、「テニスを」（４１）、「太郎は」（４２）の３つである。この３つの係り文節の順序を決定する。
【００３６】
図５に係り文節の順序が適切である確率の計算例（５０）を示す。
まず、２個の文節ずつ、すなわち「昨日」と「太郎は」、「昨日」と「テニスを」、「太郎は」と「テニスを」の３つの組み合わせを取り上げ、学習した規則性によりそれぞれこの語順が適切である各確率を求める。
例えば、図において「昨日」「太郎は」の語順になる確率は「ｐ＊（昨日，太郎は）」で表され、その確率は０．６とする。同様に、「昨日」「テニスを」は０．８、「太郎は」「テニスを」は０．７とすると、図５における１段目の語順（５１）の確率は各確率を積算し、０．３３６となる。
次に、６つの語順（５１ないし５６）の可能性すべてについて全体の確率を計算し、最も確率の高いもの「昨日／太郎は／テニスを／した。」（５１）が最も適切な語順であるとする。
【００３７】
同様に、前記したテキスト「彼女は／公園へ／行った。」ではさらに少ない組み合わせの確率を計算することで、「彼女は公園へ行った。」が最も自然で最適なテキストであると求められる。
また、該語順モデルについては、汎化したノードが含まれる場合、そのまま提示することによって、人名や地名、日付などが入り易い場所が分かる。
ここで、上記における語順モデルでは係り受け構造を入力としているが、本発明の実施においては係り受け構造の形成過程においても語順モデルを用いることができる。
【００３８】
以上により、テキスト生成部（１２）の形成部（１２ｂ）では、係り受けモデル、語順モデルなどにより最適と考えられる複数のテキストが候補として形成される。本発明ではこれらをそのままテキスト生成装置（１）から出力することもできるが、以下では、さらにテキスト生成部（１２）に評価部（１２ｃ）を配置し、テキストの候補を評価することにより再順序付けする構成を示す。
【００３９】
評価部（１２ｃ）では、入力されたキーワードの順番や、抽出したパターンの頻度、係り受けモデルや語順モデルから計算されるスコアなど様々な情報を総合してテキストの候補の評価を行う。評価部（１２ｃ）においてもデータベース（１３）を参照することができる。
例えば、キーワードの順番が上位のものについてはより重要なキーワードとして、該キーワードの役割が特に重要な候補中のテキストを、より最適なテキストとして評価したり、前記では係り受けモデルや語順モデルといったモデル毎に確率を求めたが、それらを勘案して、総合的な評価を行うようにする。
【００４０】
本評価部（１２ｃ）の働きによって、自然なテキストとして形成された候補のうちでも、特に最適と考えられるテキストを例えば順位を付けて複数出力することができるようになる。
本発明によるテキスト生成装置（１）は、さらに別の言語処理システムに導入することも可能であって、このように複数の出力を行っても良いし、上記順位が最も高いものを１つ出力してもよい。
また、順位が一定以上に高いもの、あるいは確率やスコアなどで一定の閾値以上のものを出力し、人手によって選択する構成をとってもよい。
【００４１】
上記評価部（１２ｃ）の構成では形成部（１２ｂ）で形成された候補を入力するのみの構成であるが、さらに評価部（１２ｃ）において複数のテキストからなる文章全文について各テキストの候補のいずれを選択するか、全文の流れから評価し、各テキストの候補から１つを決定してもよい。
この時、文章全文中の少数のテキストが前後の文との整合性において不自然な場合には、再び解析部（１２ａ）や形成部（１２ｂ）における処理に差し戻し、全文に亘って自然なテキストが出力できるように別の候補を形成させるようにしてもよい。
【００４２】
テキスト生成部（１２）によって最適な構文、語順で生成されたテキスト「彼女は公園へ行った。」（３）は以上に説述したテキスト生成装置（１）から出力される。ここでは、最も自然と考えられるテキスト（３）を１つ出力した。
このように、本発明では、１つ以上のキーワード（２）を入力することで、データベース（１３）を参照しながらも、従来の技術とは異なる構成で自然なテキストを生成することができる。
【００４３】
さらに、本発明ではキーワードが十分でない場合の、補完方法についても提供する。
すなわち、キーワードｎ個が入力されたとき、その単語間をＭＥモデルを用いて補完する。モデルに対してはｎ個のうちの２個を入力し、該２キーワード間を補完する。
そして、任意の２キーワード間について、補完すべき単語があるか否か、補完できる単語が複数ある場合には、各単語について生起する確率を求めていく。確率の最も高い単語から順に補完し、すべての２キーワード間についてこの処理を繰り返す。なお、基本的には補完する単語をキーワードとして編入するが、周知のＭＥモデルの特性の通り、一文全文における確率算出時には、各単語のうちのいくつかはキーワードとして編入しない場合も算出する。
最後にどの２キーワード間についても「補完しない」が最も確率が高くなるとき補完を止める。
【００４４】
このような補完処理によれば、キーワードが十分に与えられていない場合であっても、ＭＥモデルによってある程度までキーワードを補うことができるので、入力されたキーワードだけでは自然なテキストが生成出来ない場合にも、有効なテキストを出力できるようになる。
【００４５】
本補完方法では、さらに上記テキスト生成部においてテキスト生成に用いることも可能である。
例えば、上記例で示したように、「彼女」「公園」「行った。」が与えられたときに、「彼女」と「公園」の間には「は」「が」「と」などが生起し、その中で最も生起する確率の高い「は」を補完する。
同様に「彼女」と「行った。」の間には「は」「が」「と」などが生起し、ここでも最も確率の高い「は」を補完する。「公園」と「行った」の間では「へ」「に」等が生起し、確率の高い「へ」を補完する。
【００４６】
これらの補完を繰り返して、最終的に全文について補完される確率を算出し、各積算することによって、全文について最も確率の高くなる補完組み合わせを採り、テキストを生成する。この場合には、「彼女は公園へ行った。」となり、前述した本発明に係る方法と同様の効果が得られる。
本発明では、このように前述のテキスト生成方法を基本としながら、キーワードの補完、さらにはこの補完方法を用いたテキストの生成を実現する。
【００４７】
以上のような本発明によるテキストの生成技術は次のような場合に特に好適に用いることができる。
まず、失語症患者の文生成支援に用いることができる。とぎれとぎれの文(単語の列)、例えば「彼女公園行った」、から自然な文を生成し、文の候補、「彼女が公園へ行った」、「彼女と公園へ行った」などを提示する。患者は提示されたテキストを承認するだけで、自分の表現したい内容を伝達することができ、患者のコミュニケーションの機会が増す。
また、キーワードが不足する場合も、上記の補完技術を用いたり、複数のテキストを提示し、患者が選択することで、十分に効果を奏することができる。
【００４８】
人間と対話する装置に組み込むことによりコミュニケーションを助けることにも利用できる。すなわち、人間の発話文から適当にキーワードを抜き出して新たに文を作り、言い返す。文を生成したとき、典型的な情報、例えば５Ｗ１Ｈの情報などが抜けていることが分かれば、「いつ行ったのですか？」のようにその部分を尋ねる文を作るということも考えられる。
【００４９】
類似の構成で、音声認識して自然な文を生成し、聞き直すシステムとして提供することもできる。人間ははっきりと聞き取っているわけではなく、聞き取れなかった部分を補完して理解している。認識できた部分をもとに文を生成し、聞き直す。間違っている部分は強調して発話し直してくれることが期待できるので、何度かやり取りをする間に正しい文が生成される。
【００５０】
また、上記の補完技術を組み合わせて、新しいストーリーを自動的に作出するシステムを実現してもよい。例えば、「おじいさん・おばあさん・山・亀」が入力されたときに、桃太郎と浦島太郎の昔話を少なくともデータベースに備えることにより、両昔話に類似するもののそれらとは異なった新しいストーリーが作出できる。この場合、新たに補完される単語で、キーワードとして再構成されるものとしては「川・桃・竜宮城」などが考えられる。
特に、データベースに備えるストーリーが多くなればなるほど、新規性に富むストーリーが作出されるため、一読しても原文との関係が分かりにくくなる。
【００５１】
また、文とその文内での重要キーワードを与え、そのキーワードを含み、適切な長さの文を生成することもできるので、作文システムを実現することもできる。元の文より短ければ要約となる。文に典型的な情報を付け加えてより詳細な文を生成することも考えられる。これによって、従来の要約システムとは異なり、重要なキーワードから主体的に文を生成するため、より自然な要約が得られる。
文の苦手な者が作成した冗長な文章を修正することもできるし、語句を補い、流ちょうな文に改めることもできる。
【００５２】
これと関連して、文体の変換に用いることも可能である。文章からキーワードを取り出し、そのキーワードを基に文章を生成し直す。基にするデータベースに依存してそのデータベースに特有の表現に書き換えられる。例えば、ある作家の小説をデータベースにすれば、その作家風に文章を書き換えることもできるようになる。
【００５３】
近年急速に普及した携帯端末での文章入力支援に用いると、入力のし難い携帯端末でも、読みやすい文章を作成することができる。例えば、単語をいくつか入力すると、文候補を提示し、それから選ぶことによって、人手によって作成したのと同等の文章を作成できる。入力者は単語のみを入力するだけなので、細かく文章を作成する労がない。
また、メール作成用には、データベースに使用者の実際に作成したメールを備えることで、自己の書き方が生かされた作文が可能になる。
【００５４】
このように、本発明では、データベースに文体や言い回しなど、様々なテキストパターンを備えることにより、自動的に生成されるテキストがそのテキストパターンを反映するため、簡便にかつ個性的なテキストを生成することも可能である。
特に、データベースに複数の特徴的なテキストパターンを有するテキストを備えたり、多種のデータベースを備え、それらを使用者が適宜指定し、切り換えることで任意のテキストパターンを示すテキストの生成が可能である。
【００５５】
その他、箇条書きしたメモからキーワードとして入力し、講演用の原稿を作成したり、論文を構成することもできる。また、履歴書を入力してその人の紹介文を作成することも考えられる。
【００５６】
【発明の効果】
本発明は、以上の構成を備えるので、次の効果を奏する。
いくつかのキーワードを入力ステップで入力し、抽出ステップでデータベースからテキストや語句を抽出する。抽出されたテキスト又は語句を組み合わせて、入力したキーワードを用いる最適なテキストを生成することができる。
抽出されたテキストを形態素解析及び構文解析し、該テキストの係り受け構造を得れば、より自然で正確なテキスト生成を実現することも可能となる。
さらに、キーワードを含む係り受け構造を形成する過程で、係り受けモデルを用いてテキスト全体の係り受け確率を求め、該確率の最大のものを最適なテキストとして生成することで、さらに自然なテキスト生成を行える。
【００５７】
また、従来の構成では難しかった語順についても、語順モデルを用いて、自然な文の並びとなるテキストの生成を図ることもできる。
また、テキスト生成ステップにおいて、キーワードの全ての配列について、任意の２つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定することもできる。学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで繰り返すことで、好適な補完が実現できるので、与えるキーワードが少ない場合でも、自然なテキスト生成を図ることができる。
【００５８】
さらに、本発明によるテキスト生成方法では、データベースに特徴的なテキストパターンを有するテキストを備えるだけで、その特徴を反映したテキストの生成ができるため、読み手にとってより違和感がなく、自然なテキスト生成方法を提供することができる。
本発明は、上記のように優れたテキスト生成方法を提供するテキスト生成装置を創出し、自然言語処理技術の向上に寄与することが出来る。
【図面の簡単な説明】
【図１】本発明によるテキスト生成装置の説明図である。
【図２】テキスト生成部において解析された係り受け構造の部分グラフである。
【図３】テキスト生成部において生成された係り受け構造木である。
【図４】別の例文における係り受け構造木である。
【図５】係り文節の順序が適切である確率の計算例である。
【符号の説明】
１テキスト生成装置
２入力するキーワード
３出力されたテキスト
１０キーワード入力部
１１テキスト語句検索抽出部
１２テキスト生成部
１２ａ解析部
１２ｂ形成部
１２ｃ評価部
１３データベース

Claims

文又は文章のテキストを生成するテキスト生成方法であって、
入力手段により１個以上のキーワードとなる単語を入力する入力ステップ、
抽出手段により該キーワードに係るテキストを、データベースから抽出する抽出ステップ、
解析手段と係り受け構造形成手段とを含むテキスト生成手段により、抽出されたテキストを各テキストに含まれる部分的な係り受け関係から組み合わせ、入力したキーワードを用いたテキストを生成するテキスト生成ステップを有し、
該テキスト生成ステップにおいて、
解析手段が、抽出されたテキストを形態素解析及び構文解析して該テキストの係り受け構造を得ると共に、
係り受け構造形成手段が、該係り受け構造におけるキーワードを含む少なくとも１個のノードと、それ以外のノードとの部分的な係り受け関係を複数抽出し、部分的な係り受け関係を組み合わせることでキーワードを含む１文全体の係り受け構造を形成してテキストを生成する
ことを特徴とするテキスト生成方法。
前記テキスト生成ステップにおいて、
前記キーワードを含む係り受け構造を形成する過程で、
係り受け構造形成手段により係り受けモデルを用いてテキスト全体の係り受け確率を求め、
テキスト生成手段により該確率が最大となるテキストを生成する
請求項１に記載のテキスト生成方法。
前記テキスト生成ステップにおいて、
係り受け構造を形成する過程あるいは形成した後で、
テキスト生成手段により語順モデルを用いてテキスト全体の正しい文の並びである確率を求め、該確率が最大となるテキストを生成する
請求項１又は２に記載のテキスト生成方法。
前記テキスト生成ステップにおいて、
単語補完手段により、
前記キーワードの全ての配列について、任意の２つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定し、
学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、
該補完する単語をキーワードに編入し、又は編入せずに、
いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで繰り返す
単語補完処理を行う請求項１ないし３に記載のテキスト生成方法。
前記データベースに、特徴的なテキストパターンを有するテキストを備える構成において、
テキスト生成手段により、
該特徴的なテキストパターンに準拠したテキストを生成する
請求項１ないし４に記載のテキスト生成方法。
文又は文章のテキストを生成するテキスト生成装置において、
１個以上のキーワードとなる単語を入力する入力手段、
複数のテキストから構成されるテキストデータベース、
該キーワードに係るテキストを、該テキストデータベースから検索し、抽出する抽出手段、
抽出されたテキストを各テキストに含まれる部分的な係り受け関係から組み合わせ、入力したキーワードを用いたテキストを生成するテキスト生成手段
を備え、
該テキスト生成手段が、
抽出されたテキストを形態素解析及び構文解析して該テキストの係り受け構造を得る解析手段と、
該係り受け構造におけるキーワードを含む少なくとも１個のノードと、それ以外のノードとの部分的な係り受け関係を複数抽出し、部分的な係り受け関係を組み合わせることでキーワードを含む１文全体の係り受け構造を形成する係り受け構造形成手段と
を含むことを特徴とするテキスト生成装置。
前記テキスト生成手段において、
前記係り受け構造形成手段が、係り受けモデルを用いてテキスト全体の係り受け確率を求め、
該確率が最大となるテキストとして生成する
請求項６に記載のテキスト生成装置。
前記テキスト生成手段において、
係り受け構造を形成する過程あるいは形成した後で、
語順モデルを用いてテキスト全体の正しい文の並びである確率を求め、該確率が最大となるテキストを生成する
請求項６又は７に記載のテキスト生成装置。
前記テキスト生成手段において、
前記キーワードの全ての配列について、任意の２つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定し、
学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、
該補完する単語をキーワードに編入し、又は編入せずに、
いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで繰り返す
単語補完手段を含む請求項６ないし８に記載のテキスト生成装置。
前記データベースに、特徴的なテキストパターンを有するテキストを備える構成において、
前記テキスト生成手段が、
該特徴的なテキストパターンに準拠したテキストを生成する
請求項６ないし９に記載のテキスト生成装置。
前記テキスト生成装置において、
特徴的な複数のテキストパターンを有するテキストを備えるデータベースを１つないし複数を備える一方、
該複数のテキストパターンから所望のテキストパターンを選択するパターン選択手段を備えた
請求項１０に記載のテキスト生成装置。