JP2003196280A

JP2003196280A - テキスト生成方法及びテキスト生成装置

Info

Publication number: JP2003196280A
Application number: JP2001395618A
Authority: JP
Inventors: Seiki Uchimoto; 清貴内元; Hitoshi Isahara; 均井佐原
Original assignee: Communications Research Laboratory
Current assignee: Communications Research Laboratory
Priority date: 2001-12-27
Filing date: 2001-12-27
Publication date: 2003-07-11
Anticipated expiration: 2021-12-27
Also published as: US20050050469A1; JP3921523B2; EP1469398A1; EP1469398A4; WO2003056451A1

Abstract

(57)【要約】【課題】１つ以上のキーワードを基に、そのキーワー
ドから自然なテキストを生成する生成方法・生成装置を
提供すること。【解決手段】キーワード２をキーワード入力部１から
入力し、キーワード２を１つでも含むテキストや語句を
データベース１３からテキスト語句検索抽出部１１で抽
出する。テキスト生成部１２では抽出されたテキストな
どを形態素解析・構文解析し、テキストなどにキーワー
ド２を組み合わせることで自然なテキスト３を出力す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は自然言語処理方法及
び装置に関する。特に、いくつかのキーワードからテキ
ストを生成する手法に特徴を有する。

【０００２】

【従来の技術】近年、コンピュータによって言語のテキ
ストを解析する技術、或いは生成する技術の開発が進ん
でいる。特にテキストの生成においては、いかに自然な
テキストを生成できるかが、課題となっており、人間が
生成したものと遜色のない生成方法の提供が求められて
いる。例えば、いくつかのキーワードを入力したとき
に、それらのキーワードを用いて自然なテキストを生成
する技術は、外国人など、文章作成の苦手な者への作成
支援を行うことに寄与する。また、単語を列挙すること
で相手への意思を伝達できるため、機械翻訳に近い使い
方も可能である。

【０００３】例えば、失語症患者の文生成支援では、現
在、日本全国でおよそ１０万人程度の失語症患者がお
り、その８割程度の人はとぎれとぎれの文（単語の列）
を発声できる、あるいは単語の候補を提示してあげると
言いたいことを表現するためにその中からいくつか単語
を選択することができると言われている。そこで、例え
ば「彼女公園行った」などを発声あるいは選択し、
そこから自然な文「彼女が公園へ行った」、「彼女と公
園へ行った」などを生成して提示することによって、患
者のコミュニケーションを支援する。

【０００４】このように、１つ以上のキーワードを入力
して、自然なテキストを生成する従来の技術として、テ
ンプレートをもとに文を生成する技術や、キーワードを
もとにデータベースから文を検索する技術はすでに存在
する。しかし、これらの技術ではテンプレートに合致す
る場合のみ、あるいはデータベース中に含まれる文と合
致する場合のみにしか有効でなく、いずれも限られた型
の文しか生成できない。また、検索の際、適合しやすく
なるようにキーワードを類義語などに置き換える技術も
提案されているが、キーワードから生成されるべき文の
バリエーションは多岐に亙るため、十分であるとはいえ
ない。

【０００５】

【発明が解決しようとする課題】本発明は、上記従来技
術の有する問題点に鑑みて創出されたものであり、その
目的は、１つ以上のキーワードを基に、そのキーワード
から自然なテキストを生成する生成方法・生成装置を提
供することである。

【０００６】

【課題を解決するための手段】本発明は、上記の課題を
解決するために、次のようなテキスト生成方法を創出す
る。すなわち、次の各ステップに基づいてテキストの生
成を行う。まず、１個以上のキーワードとなる単語を入
力する入力ステップで、「彼女」「公園」「行った」な
どを入力する。そして、該キーワードに係るテキスト又
は語句を、データベースから抽出する抽出ステップに進
む。データベースには多くの例文が搭載されており、例
えば「彼女」という単語を含むテキストや語句を探して
抽出する。次に、抽出されたテキスト又は語句を組み合
わせて、入力したキーワードを用いる最適なテキストを
生成する。このテキスト生成ステップでは、例えば「彼
女」、「〜へ」、「行った」を含むテキストがデータベ
ース中にあるときに、「彼女は公園へ行った」というよ
うに組み合わせてテキストを生成する。

【０００７】ここで、前記抽出ステップでテキストだけ
を抽出する構成とし、前記テキスト生成ステップにおい
て、抽出されたテキストを形態素解析及び構文解析し、
該テキストの係り受け構造を得てもよい。そして、キー
ワードを含む係り受け構造を形成することによって、よ
り自然なテキスト生成を実現することもできる。さら
に、キーワードを含む係り受け構造を形成する過程で、
係り受けモデルを用いてテキスト全体の係り受け確率を
求め、該確率の最大のものを最適なテキストとして生成
してもよい。

【０００８】本発明では、語順についても語順モデルを
用いて、自然な文の並びとなるテキストの生成を図るこ
ともできる。テキスト生成ステップにおいて、係り受け
構造を形成する過程あるいは形成した後で用いることが
できる。また、テキスト生成ステップにおいて、キーワ
ードの全ての配列について、任意の２つのキーワード間
に補完すべき単語があるか否かを学習モデルを用いて判
定することもできる。学習モデルにおいて補完すべき確
率の高い単語から順に補完するとき、いずれのキーワー
ド間についても補完すべき単語がない確率が最も高くな
るまで繰り返す。キーワードには補完した単語を編入す
ることができるので、補完された単語間にもさらに補完
することもできる。これにより、好適な補完が実現でき
るので、与えるキーワードが少ない場合でも、自然なテ
キスト生成を図ることができる。

【０００９】また、本発明では、上記のデータベース
に、特徴的なテキストパターンを有するテキストを備
え、テキスト生成ステップがその特徴を反映したテキス
トを生成する構成をとることもできる。例えば、文体や
言い回しなどについて特徴のあるテキストをデータベー
スに備えておくことで、生成されるテキストが、その特
徴に準拠したテキストになる。

【００１０】本発明は、文又は文章のテキストを生成す
るテキスト生成装置として提供することもできる。該テ
キスト生成装置には、１個以上のキーワードとなる単語
を入力する入力手段、複数のテキストで構成されるテキ
ストデータベース、該キーワードに係るテキスト又は語
句を、該テキストデータベースから検索し、抽出する抽
出手段、抽出されたテキスト又は語句を組み合わせて、
入力したキーワードを用いる最適なテキストを生成する
テキスト生成手段を備える。

【００１１】抽出手段がテキストだけを抽出する構成で
は、抽出されたテキストを形態素解析及び構文解析し、
該テキストの係り受け構造を得る解析手段と、前記キー
ワードを含む係り受け構造を形成する係り受け構造形成
手段とをテキスト生成手段に含むこともできる。特に、
テキスト生成手段において、係り受け構造形成手段が、
係り受けモデルを用いてテキスト全体の係り受け確率を
求め、該確率の最大のものを最適なテキストとして生成
するとよい。

【００１２】テキスト生成手段において、係り受け構造
を形成する過程あるいは形成した後で、語順モデルを用
いて自然な文の並びとなる最適なテキストを生成するこ
ともできる。また、テキスト生成手段において、前記キ
ーワードの全ての配列について、任意の２つのキーワー
ド間に補完すべき単語があるか否かを学習モデルを用い
て判定し、学習モデルにおいて補完すべき確率の高い単
語から順に補完するとき、いずれのキーワード間につい
ても補完すべき単語がない確率が最も高くなるまで繰り
返す単語補完手段を含んでもよい。

【００１３】テキスト生成装置においても、上記同様、
データベースに特徴的なテキストパターンを有するテキ
ストを備え、テキスト生成手段がその特徴を反映したテ
キストを生成するようにしてもよい。さらに、パターン
選択手段を設けることで、複数のテキストパターンを適
宜選択切換することもできる。

【００１４】

【発明の実施の形態】以下、本発明の実施方法を図面に
示した実施例に基づいて説明する。なお、本発明の実施
形態は以下に限定されず、適宜変更可能である。図１に
は本発明におけるテキスト生成装置（１）の説明図を示
す。該装置には、キーワード入力部（１０）、テキスト
語句検索抽出部（１１）、テキスト生成部（１２）と共
に、データベース（１３）を備える。データベース（１
３）には予め複数のテキストがテーブルとして備えられ
ており、該テーブルの内容については適宜変更させるこ
ともできる。内容を変更することで様々なテキストの生
成を実現できるが、この点については後述する。

【００１５】そして、例えば「彼女」「公園」「行っ
た」の３つのキーワード（２）をキーワード入力部（１
０）から入力すると、テキスト語句検索抽出部（１１）
がデータベース（１３）からキーワードの少なくとも１
つを含むテキストや語句を検索して、それらを抽出す
る。さらにテキスト生成部（１２）では抽出されたテキ
ストや語句に基づき、それらを組み合わせることで、自
然なテキスト、ここでは「彼女は公園へ行った」（３）
を出力する。

【００１６】各過程をさらに詳述する。まず、キーワー
ド入力部（１０）において入力されたキーワードについ
て、テキスト語句検索抽出部（１１）でデータベース
（１３）からキーワードｎ個を含む文を抽出する。ここ
で、キーワードは１つでも含めばよい。抽出された文は
テキスト生成部（１２）に送られる。テキスト生成部
（１２）は、解析部（１２ａ）と形成部（１２ｂ）、評
価部（１２ｃ）から成り、解析部（１２ａ）においてま
ず抽出した文の形態素解析及び構文解析を行う。

【００１７】形態素解析には、例えば本件出願人らが特
願２００１−１３９５６３号で出願中のＭＥモデルによ
る形態素の解析方法を用いることができる。ここで、形
態素解析をＭＥモデルに適用するために、形態素として
の尤もらしさを確率として表す。すなわち、文が与えら
れたとき、その文を形態素解析するという問題は文を構
成する各文字列に、２つの識別符号のうち１つ、つま
り、形態素であるか否かを示す「１」又は「０」を割り
当てる問題に置き換えることができる。さらに、形態素
である場合には文法的属性を付与するために「１」を文
法的属性の数だけ分割する。すると、文法的属性の数が
ｎ個のとき、各文字列に「０」から「ｎ」までのうちい
ずれかの識別符号を割り当てる問題に置き換えることが
できる。

【００１８】したがって、形態素解析にＭＥモデルを用
いた手法では、文字列が、形態素であって、かついずれ
かの文法的属性を持つとしたときの尤もらしさをＭＥモ
デルにおける確率分布の関数に適用することで求められ
る。形態素解析においてはこの尤もらしさを表す確率
に、規則性を見いだすことで処理を行っている。用いる
素性としては、着目している文字列の字種の情報、その
文字列が辞書に登録されているかどうか、１つ前の形態
素からの字種の変化、１つ前の形態素の品詞などの情報
を用いる。１個の文が与えられたとき、文全体で確率の
積が最大になるよう形態素に分割し文法的属性を付与す
る。最適解の探索には適宜公知のアルゴリズムを用いる
ことができる。

【００１９】このように、ＭＥモデルを用いた形態素解
析方法は、例えば未知語を含んでいても有効な形態素解
析ができるなど、優位性の高い方法である。本発明の実
施においては、上記方法によることが特に効果的である
が、必ずしも限定されるものではなく、任意の形態素解
析方法を用いることができる。

【００２０】さらに、解析部（１２ａ）における構文解
析についてもＭＥモデルを用いた解析手法を導入するこ
とができる。構文解析についても、他の任意の手法に置
き換えることができるが、一実施例として以下の手法を
示す。前記データベース（１３）はテキスト生成部（１
２）からも参照が可能であり、本ＭＥモデルではデータ
ベースに含まれる複数のテキストから学習を行うことが
できる。構文解析のうち、係り受け解析についての導入
をする。どの文節がどの文節を修飾するかという日本語
の係り受け関係には、主に以下の特徴があるとされてい
る。すなわち、（１）係り受けは前方から後方に向いている。（２）係り受け関係は交差しない。（以下、これを非交
差条件と呼ぶ。）（３）係り要素は受け要素を1 つだけもつ。（４）ほとんどの場合、係り先の決定には前方の文脈を
必要としない。本実施例では、これらの特徴に着目し、統計的手法と文
末から文頭に向けて解析する方法を組み合わせることに
より高い解析精度を得ることを実現した。

【００２１】まず、文末から順に２つずつ文節を取り上
げ、それらが係り受けの関係にあるかどうかを統計的に
決定する。その際、文節あるいは文節間にみられる情報
を素性として利用するが、どのような素性を利用するか
が精度に影響する。文節は、前の主辞にあたる部分と後
ろの助詞や活用形にあたる部分に分けて考え、それぞれ
の素性とともに文節間の距離や句読点の有無なども素性
として考慮する。さらに括弧の有無や文節間の助詞
「は」の有無、係り側の文節と同じ助詞や活用形が文節
間にもあるか否か、素性間の組み合わせについても考慮
している。

【００２２】ＭＥモデルによればこういった様々な素性
を扱うことができる。そして、この方法では決定木や最
尤推定法などを用いた従来の手法に比べて学習データの
大きさが１０分の１程度であるにも関わらず、同程度以
上の精度が得られる。この手法は学習に基づくシステム
として、最高水準の精度を得られる手法である。さら
に、従来は、学習データから得られる情報を基に、２つ
の文節が係り受け関係にあるか否かを予測するのに有効
な素性を学習していたが、新たに前文節が「後文節を越
えて先にある文節に係る」「後文節に係る」「後文節と
の間にある文節に係る」の３つの状態のどれであるかを
予測するのに有効な情報を学習する方法によって、より
高精度な係り受け解析を可能にしている。

【００２３】このように、ＭＥモデルを用いた形態素解
析方法、構文解析方法を採用することによって、解析部
（１２ａ）ではデータベース（１３）から検索抽出され
たテキストを正確に解析し、該テキストの係り受け構造
を得る。該係り受け構造は部分グラフとして表すことが
できる。ここで、グラフ構造のノードが文節、アークが
係り受けとする。各キーワードを少なくとも一つ含む部
分グラフをすべて抽出し、頻度を調べる。ノードは汎化
した情報(人名、組織名などの固有表現や品詞)のみを持
つものも考慮する。

【００２４】データベース（１３）から上記のキーワー
ドに基づいて抽出され、解析した結果のうち、頻度が高
かったものが図２のａとｂである。例えばａにおいて、
キーワード「彼女は」をノード（親ノード１）（２０）
とすると、「＜名詞＞＋へ」がノード（親ノード２）
（２１）、「＜動詞＞。」がノード（子ノード）（２
２）として係り受け関係（２３）をもつ。

【００２５】この過程より先はテキスト生成部（１２）
のうち形成部（１２ｂ）における処理に移行する。ただ
し、本実施例では、テキスト生成部（１２）における解
析と形成は以下に示すように一体的な処理であり、相互
に連係して動作する。入力するキーワードｎ個は係り受
け関係にあると仮定し、入力単語ｎ個を含むような係り
受け構造木を生成する。木の生成には上記の部分グラフ
を組み合わせて用いる。例えば、上記のキーワード３個
を入力して、それらが係り受け関係にあると過程し、部
分グラフを組み合わせる（この場合は当てはめる）と、
図３に示すａ及びｂが得られる。

【００２６】ここで、生成された２つの木（図３ａ・
ｂ）のうち、いずれが適当であるかを再び上記の係り受
けモデルを用いて選択する。順序付けの際には、組み合
わせた部分グラフ間での一致する割合、頻度、係り受け
関係を考慮する。特にｎが３以上の場合、単語ｎ個間の
係り受け関係には曖昧性があるが、曖昧性の解消には、
係り受けモデルを利用する。係り受けモデルによって求
められる確率値が大きなものを優先して順序付けする。

【００２７】その結果、ａの木における確率値により高
い結果が得られ、最適な係り受け関係はａであることが
選択される。日本語においては、語順の制限が比較的緩
やかであり、係り受け関係が決定されると自然なテキス
トに近い結果が得られるが、本発明の対象とする言語は
必ずしも日本語に限られず、他の言語で用いることも考
えられる。また、日本語においてもより自然なテキスト
に寄与するためには最も自然な語順が選択されることが
望ましく、本発明では、次のように並べ替えることがで
きる。

【００２８】まず、優先順位の高い木から、自然な文の
並びに置き換えて出力する。その際、依存構造から自然
な並びの文を生成するＭＥモデルを用いた語順モデルを
利用する。語順モデルの学習についてもデータベース
（１３）を参照して行うことができる。語順が自由であ
ると言われる日本語でも、これまでの言語学的な調査に
よると、時間を表す副詞の方が主語より前に来やすい、
長い修飾句を持つ文節は前に来やすいといった何らかの
傾向がある。もしこの傾向をうまく整理することができ
れば、それは自然な文を生成する際に有効な情報とな
る。ここで語順とは、係り相互間の語順、つまり同じ文
節に係っていく文節の順序関係を意味するものとする。
語順を決定する要因にはさまざまなものがあり、例え
ば、修飾句の長い文節は短い文節より前に来やすい、
「それ」などの文脈指示語を含む文節は前に来やすい、
などがあげられる。

【００２９】本実施例においては、上記のような要素と
語順の傾向との関係、すなわち規則性を所定のテキスト
から学習する手法を考案した。この手法では、語順の決
定にはどの要素がどの程度寄与するかだけでなく、どの
ような要素の組み合わせのときにどのような傾向の語順
になるかということも学習に用いるテキストから演繹的
に学習することができる。個々の要素の寄与の度合はＭ
Ｅモデルを用いて効率良く学習する。係り文節の数によ
らず２つずつ取り上げてその順序を学習する。

【００３０】文を生成する際には、この学習したモデル
を用いて、係り受け関係にある文節を入力とし、その係
り文節の順序を決めることができる。語順の決定は次の
手順で行なう。まず、係り文節について可能性のある並
びをすべて考える。次に、それぞれの並びについて、そ
の係り文節の順序が適切である確率を学習したモデルを
用いて求める。この確率は、順序が適切であるか否かの
「０」または「１」に置き換え、ＭＥモデルにおける確
率分布の関数に適用することで求められる。そして、全
体の確率が最大となる並びを解とする。全体の確率は、
係り文節を２つずつ取り上げたときその順序が適切であ
る確率を計算し、それらの積として求める。

【００３１】例えば、「昨日／テニスを／太郎は／し
た。」という文で最適な語順の決定を説述する。上記と
同様に係り受け構造木を作成すると、最も確率値の高い
構造木が図４のように得られる。すなわち、動詞「し
た。」（４３）に係る文節は「昨日」（４０）、「テニ
スを」（４１）、「太郎は」（４２）の３つである。こ
の３つの係り文節の順序を決定する。

【００３２】図５に係り文節の順序が適切である確率の
計算例（５０）を示す。まず、２個の文節ずつ、すなわ
ち「昨日」と「太郎は」、「昨日」と「テニスを」、
「太郎は」と「テニスを」の３つの組み合わせを取り上
げ、学習した規則性によりそれぞれこの語順が適切であ
る各確率を求める。例えば、図において「昨日」「太郎
は」の語順になる確率は「ｐ^*（昨日，太郎は）」で表
され、その確率は０．６とする。同様に、「昨日」「テ
ニスを」は０．８、「太郎は」「テニスを」は０．７と
すると、図５における１段目の語順（５１）の確率は各
確率を積算し、０．３３６となる。次に、６つの語順
（５１ないし５６）の可能性すべてについて全体の確率
を計算し、最も確率の高いもの「昨日／太郎は／テニス
を／した。」（５１）が最も適切な語順であるとする。

【００３３】同様に、前記したテキスト「彼女は／公園
へ／行った。」ではさらに少ない組み合わせの確率を計
算することで、「彼女は公園へ行った。」が最も自然で
最適なテキストであると求められる。また、該語順モデ
ルについては、汎化したノードが含まれる場合、そのま
ま提示することによって、人名や地名、日付などが入り
易い場所が分かる。ここで、上記における語順モデルで
は係り受け構造を入力としているが、本発明の実施にお
いては係り受け構造の形成過程においても語順モデルを
用いることができる。

【００３４】以上により、テキスト生成部（１２）の形
成部（１２ｂ）では、係り受けモデル、語順モデルなど
により最適と考えられる複数のテキストが候補として形
成される。本発明ではこれらをそのままテキスト生成装
置（１）から出力することもできるが、以下では、さら
にテキスト生成部（１２）に評価部（１２ｃ）を配置
し、テキストの候補を評価することにより再順序付けす
る構成を示す。

【００３５】評価部（１２ｃ）では、入力されたキーワ
ードの順番や、抽出したパターンの頻度、係り受けモデ
ルや語順モデルから計算されるスコアなど様々な情報を
総合してテキストの候補の評価を行う。評価部（１２
ｃ）においてもデータベース（１３）を参照することが
できる。例えば、キーワードの順番が上位のものについ
てはより重要なキーワードとして、該キーワードの役割
が特に重要な候補中のテキストを、より最適なテキスト
として評価したり、前記では係り受けモデルや語順モデ
ルといったモデル毎に確率を求めたが、それらを勘案し
て、総合的な評価を行うようにする。

【００３６】本評価部（１２ｃ）の働きによって、自然
なテキストとして形成された候補のうちでも、特に最適
と考えられるテキストを例えば順位を付けて複数出力す
ることができるようになる。本発明によるテキスト生成
装置（１）は、さらに別の言語処理システムに導入する
ことも可能であって、このように複数の出力を行っても
良いし、上記順位が最も高いものを１つ出力してもよ
い。また、順位が一定以上に高いもの、あるいは確率や
スコアなどで一定の閾値以上のものを出力し、人手によ
って選択する構成をとってもよい。

【００３７】上記評価部（１２ｃ）の構成では形成部
（１２ｂ）で形成された候補を入力するのみの構成であ
るが、さらに評価部（１２ｃ）において複数のテキスト
からなる文章全文について各テキストの候補のいずれを
選択するか、全文の流れから評価し、各テキストの候補
から１つを決定してもよい。この時、文章全文中の少数
のテキストが前後の文との整合性において不自然な場合
には、再び解析部（１２ａ）や形成部（１２ｂ）におけ
る処理に差し戻し、全文に亘って自然なテキストが出力
できるように別の候補を形成させるようにしてもよい。

【００３８】テキスト生成部（１２）によって最適な構
文、語順で生成されたテキスト「彼女は公園へ行っ
た。」（３）は以上に説述したテキスト生成装置（１）
から出力される。ここでは、最も自然と考えられるテキ
スト（３）を１つ出力した。このように、本発明では、
１つ以上のキーワード（２）を入力することで、データ
ベース（１３）を参照しながらも、従来の技術とは異な
る構成で自然なテキストを生成することができる。

【００３９】さらに、本発明ではキーワードが十分でな
い場合の、補完方法についても提供する。すなわち、キ
ーワードｎ個が入力されたとき、その単語間をＭＥモデ
ルを用いて補完する。モデルに対してはｎ個のうちの２
個を入力し、該２キーワード間を補完する。そして、任
意の２キーワード間について、補完すべき単語があるか
否か、補完できる単語が複数ある場合には、各単語につ
いて生起する確率を求めていく。確率の最も高い単語か
ら順に補完し、すべての２キーワード間についてこの処
理を繰り返す。最後にどの２キーワード間についても
「補完しない」が最も確率が高くなるとき補完を止め
る。

【００４０】このような補完処理によれば、キーワード
が十分に与えられていない場合であっても、ＭＥモデル
によってある程度までキーワードを補うことができるの
で、入力されたキーワードだけでは自然なテキストが生
成出来ない場合にも、有効なテキストを出力できるよう
になる。

【００４１】本補完方法では、さらに上記テキスト生成
部においてテキスト生成に用いることも可能である。例
えば、上記例で示したように、「彼女」「公園」「行っ
た。」が与えられたときに、「彼女」と「公園」の間に
は「は」「が」「と」などが生起し、その中で最も生起
する確率の高い「は」を補完する。同様に「彼女」と
「行った。」の間には「は」「が」「と」などが生起
し、ここでも最も確率の高い「は」を補完する。「公
園」と「行った」の間では「へ」「に」等が生起し、確
率の高い「へ」を補完する。

【００４２】これらの補完を繰り返して、最終的に全文
について補完される確率を算出し、各積算することによ
って、全文について最も確率の高くなる補完組み合わせ
を採り、テキストを生成する。この場合には、「彼女は
公園へ行った。」となり、前述した本発明に係る方法と
同様の効果が得られる。本発明では、このように前述の
テキスト生成方法を基本としながら、キーワードの補
完、さらにはこの補完方法を用いたテキストの生成を実
現する。

【００４３】以上のような本発明によるテキストの生成
技術は次のような場合に特に好適に用いることができ
る。まず、失語症患者の文生成支援に用いることができ
る。とぎれとぎれの文(単語の列)、例えば「彼女公園
行った」、から自然な文を生成し、文の候補、「彼女が
公園へ行った」、「彼女と公園へ行った」などを提示す
る。患者は提示されたテキストを承認するだけで、自分
の表現したい内容を伝達することができ、患者のコミュ
ニケーションの機会が増す。また、キーワードが不足す
る場合も、上記の補完技術を用いたり、複数のテキスト
を提示し、患者が選択することで、十分に効果を奏する
ことができる。

【００４４】人間と対話する装置に組み込むことにより
コミュニケーションを助けることにも利用できる。すな
わち、人間の発話文から適当にキーワードを抜き出して
新たに文を作り、言い返す。文を生成したとき、典型的
な情報、例えば５Ｗ１Ｈの情報などが抜けていることが
分かれば、「いつ行ったのですか？」のようにその部分
を尋ねる文を作るということも考えられる。

【００４５】類似の構成で、音声認識して自然な文を生
成し、聞き直すシステムとして提供することもできる。
人間ははっきりと聞き取っているわけではなく、聞き取
れなかった部分を補完して理解している。認識できた部
分をもとに文を生成し、聞き直す。間違っている部分は
強調して発話し直してくれることが期待できるので、何
度かやり取りをする間に正しい文が生成される。

【００４６】また、上記の補完技術を組み合わせて、新
しいストーリーを自動的に作出するシステムを実現して
もよい。例えば、「おじいさん・おばあさん・山・亀」
が入力されたときに、桃太郎と浦島太郎の昔話を少なく
ともデータベースに備えることにより、両昔話に類似す
るもののそれらとは異なった新しいストーリーが作出で
きる。この場合、新たに補完される単語で、キーワード
として再構成されるものとしては「川・桃・竜宮城」な
どが考えられる。特に、データベースに備えるストーリ
ーが多くなればなるほど、新規性に富むストーリーが作
出されるため、一読しても原文との関係が分かりにくく
なる。

【００４７】また、文とその文内での重要キーワードを
与え、そのキーワードを含み、適切な長さの文を生成す
ることもできるので、作文システムを実現することもで
きる。元の文より短ければ要約となる。文に典型的な情
報を付け加えてより詳細な文を生成することも考えられ
る。これによって、従来の要約システムとは異なり、重
要なキーワードから主体的に文を生成するため、より自
然な要約が得られる。文の苦手な者が作成した冗長な文
章を修正することもできるし、語句を補い、流ちょうな
文に改めることもできる。

【００４８】これと関連して、文体の変換に用いること
も可能である。文章からキーワードを取り出し、そのキ
ーワードを基に文章を生成し直す。基にするデータベー
スに依存してそのデータベースに特有の表現に書き換え
られる。例えば、ある作家の小説をデータベースにすれ
ば、その作家風に文章を書き換えることもできるように
なる。

【００４９】近年急速に普及した携帯端末での文章入力
支援に用いると、入力のし難い携帯端末でも、読みやす
い文章を作成することができる。例えば、単語をいくつ
か入力すると、文候補を提示し、それから選ぶことによ
って、人手によって作成したのと同等の文章を作成でき
る。入力者は単語のみを入力するだけなので、細かく文
章を作成する労がない。また、メール作成用には、デー
タベースに使用者の実際に作成したメールを備えること
で、自己の書き方が生かされた作文が可能になる。

【００５０】このように、本発明では、データベースに
文体や言い回しなど、様々なテキストパターンを備える
ことにより、自動的に生成されるテキストがそのテキス
トパターンを反映するため、簡便にかつ個性的なテキス
トを生成することも可能である。特に、データベースに
複数の特徴的なテキストパターンを有するテキストを備
えたり、多種のデータベースを備え、それらを使用者が
適宜指定し、切り換えることで任意のテキストパターン
を示すテキストの生成が可能である。

【００５１】その他、箇条書きしたメモからキーワード
として入力し、講演用の原稿を作成したり、論文を構成
することもできる。また、履歴書を入力してその人の紹
介文を作成することも考えられる。

【００５２】

【発明の効果】本発明は、以上の構成を備えるので、次
の効果を奏する。いくつかのキーワードを入力ステップ
で入力し、抽出ステップでデータベースからテキストや
語句を抽出する。抽出されたテキスト又は語句を組み合
わせて、入力したキーワードを用いる最適なテキストを
生成することができる。抽出されたテキストを形態素解
析及び構文解析し、該テキストの係り受け構造を得れ
ば、より自然で正確なテキスト生成を実現することも可
能となる。さらに、キーワードを含む係り受け構造を形
成する過程で、係り受けモデルを用いてテキスト全体の
係り受け確率を求め、該確率の最大のものを最適なテキ
ストとして生成することで、さらに自然なテキスト生成
を行える。

【００５３】また、従来の構成では難しかった語順につ
いても、語順モデルを用いて、自然な文の並びとなるテ
キストの生成を図ることもできる。また、テキスト生成
ステップにおいて、キーワードの全ての配列について、
任意の２つのキーワード間に補完すべき単語があるか否
かを学習モデルを用いて判定することもできる。学習モ
デルにおいて補完すべき確率の高い単語から順に補完す
るとき、いずれのキーワード間についても補完すべき単
語がない確率が最も高くなるまで繰り返すことで、好適
な補完が実現できるので、与えるキーワードが少ない場
合でも、自然なテキスト生成を図ることができる。

【００５４】さらに、本発明によるテキスト生成方法で
は、データベースに特徴的なテキストパターンを有する
テキストを備えるだけで、その特徴を反映したテキスト
の生成ができるため、読み手にとってより違和感がな
く、自然なテキスト生成方法を提供することができる。
本発明は、上記のように優れたテキスト生成方法を提供
するテキスト生成装置を創出し、自然言語処理技術の向
上に寄与することが出来る。

【図面の簡単な説明】

【図１】本発明によるテキスト生成装置の説明図であ
る。

【図２】テキスト生成部において解析された係り受け構
造の部分グラフである。

【図３】テキスト生成部において生成された係り受け構
造木である。

【図４】別の例文における係り受け構造木である。

【図５】係り文節の順序が適切である確率の計算例であ
る。

【符号の説明】

１テキスト生成装置２入力するキーワード３出力されたテキスト１０キーワード入力部１１テキスト語句検索抽出部１２テキスト生成部１２ａ解析部１２ｂ形成部１２ｃ評価部１３データベース

Claims

【特許請求の範囲】

【請求項１】文又は文章のテキストを生成するテキスト
生成方法であって、１個以上のキーワードとなる単語を入力する入力ステッ
プ、該キーワードに係るテキスト又は語句を、データベース
から抽出する抽出ステップ、抽出されたテキスト又は語句を組み合わせて、入力した
キーワードを用いる最適なテキストを生成するテキスト
生成ステップから構成されることを特徴とするテキスト
生成方法。
【請求項２】前記抽出ステップでテキストを抽出する構
成であって、前記テキスト生成ステップにおいて、抽出されたテキス
トを形態素解析及び構文解析し、該テキストの係り受け
構造を得ると共に、前記キーワードを含む係り受け構造を形成することを特
徴とする請求項１に記載のテキスト生成方法。
【請求項３】前記テキスト生成ステップにおいて、前記キーワードを含む係り受け構造を形成する過程で、係り受けモデルを用いてテキスト全体の係り受け確率を
求め、該確率の最大のものを最適なテキストとして生成する請
求項２に記載のテキスト生成方法。
【請求項４】前記テキスト生成ステップにおいて、係り受け構造を形成する過程あるいは形成した後で、語順モデルを用いて自然な文の並びとなる最適なテキス
トを生成する請求項２又は３に記載のテキスト生成方
法。
【請求項５】前記テキスト生成ステップにおいて、前記キーワードの全ての配列について、任意の２つのキ
ーワード間に補完すべき単語があるか否かを学習モデル
を用いて判定し、学習モデルにおいて補完すべき確率の高い単語から順に
補完するとき、該補完する単語をキーワードに編入し／せずに、いずれのキーワード間についても補完すべき単語がない
確率が最も高くなるまで繰り返す単語補完処理を行う請
求項１ないし４に記載のテキスト生成方法。
【請求項６】前記データベースに、特徴的なテキストパ
ターンを有するテキストを備える構成において、前記テキスト生成ステップが、該特徴的なテキストパターンに準拠したテキストを生成
する請求項１ないし５に記載のテキスト生成方法。
【請求項７】文又は文章のテキストを生成するテキスト
生成装置において、１個以上のキーワードとなる単語を入力する入力手段、複数のテキストから構成されるテキストデータベース、該キーワードに係るテキスト又は語句を、該テキストデ
ータベースから検索し、抽出する抽出手段、抽出されたテキスト又は語句を組み合わせて、入力した
キーワードを用いる最適なテキストを生成するテキスト
生成手段を備えたことを特徴とするテキスト生成装置。
【請求項８】前記抽出手段でテキストを抽出する構成で
あって、前記テキスト生成手段において、抽出されたテキストを形態素解析及び構文解析し、該テ
キストの係り受け構造を得る解析手段と、前記キーワードを含む係り受け構造を形成する係り受け
構造形成手段とを含む請求項７に記載のテキスト生成装
置。
【請求項９】前記テキスト生成手段において、前記係り受け構造形成手段が、係り受けモデルを用いて
テキスト全体の係り受け確率を求め、該確率の最大のものを最適なテキストとして生成する請
求項８に記載のテキスト生成装置。
【請求項１０】前記テキスト生成手段においてにおい
て、係り受け構造を形成する過程あるいは形成した後で、語順モデルを用いて自然な文の並びとなる最適なテキス
トを生成する請求項８又は９に記載のテキスト生成方
法。
【請求項１１】前記テキスト生成手段において、前記キーワードの全ての配列について、任意の２つのキ
ーワード間に補完すべき単語があるか否かを学習モデル
を用いて判定し、学習モデルにおいて補完すべき確率の高い単語から順に
補完するとき、該補完する単語をキーワードに編入し／せずに、いずれのキーワード間についても補完すべき単語がない
確率が最も高くなるまで繰り返す単語補完手段を含む請
求項７ないし１０に記載のテキスト生成装置。
【請求項１２】前記データベースに、特徴的なテキスト
パターンを有するテキストを備える構成において、前記テキスト生成手段が、該特徴的なテキストパターンに準拠したテキストを生成
する請求項７ないし１１に記載のテキスト生成装置。
【請求項１３】前記テキスト生成装置において、特徴的な複数のテキストパターンを有するテキストを備
えるデータベースを１つないし複数を備える一方、該複数のテキストパターンから所望のテキストパターン
を選択するパターン選択手段を備えた請求項１２に記載
のテキスト生成装置。