JP3921523B2 - テキスト生成方法及びテキスト生成装置 - Google Patents

テキスト生成方法及びテキスト生成装置 Download PDF

Info

Publication number
JP3921523B2
JP3921523B2 JP2001395618A JP2001395618A JP3921523B2 JP 3921523 B2 JP3921523 B2 JP 3921523B2 JP 2001395618 A JP2001395618 A JP 2001395618A JP 2001395618 A JP2001395618 A JP 2001395618A JP 3921523 B2 JP3921523 B2 JP 3921523B2
Authority
JP
Japan
Prior art keywords
text
dependency
sentence
word
text generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001395618A
Other languages
English (en)
Other versions
JP2003196280A (ja
Inventor
清貴 内元
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2001395618A priority Critical patent/JP3921523B2/ja
Priority to EP02786125A priority patent/EP1469398A4/en
Priority to US10/500,243 priority patent/US20050050469A1/en
Priority to PCT/JP2002/013185 priority patent/WO2003056451A1/ja
Publication of JP2003196280A publication Critical patent/JP2003196280A/ja
Application granted granted Critical
Publication of JP3921523B2 publication Critical patent/JP3921523B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は自然言語処理方法及び装置に関する。特に、いくつかのキーワードからテキストを生成する手法に特徴を有する。
【0002】
【従来の技術】
近年、コンピュータによって言語のテキストを解析する技術、或いは生成する技術の開発が進んでいる。特にテキストの生成においては、いかに自然なテキストを生成できるかが、課題となっており、人間が生成したものと遜色のない生成方法の提供が求められている。
例えば、いくつかのキーワードを入力したときに、それらのキーワードを用いて自然なテキストを生成する技術は、外国人など、文章作成の苦手な者への作成支援を行うことに寄与する。
また、単語を列挙することで相手への意思を伝達できるため、機械翻訳に近い使い方も可能である。
【0003】
例えば、失語症患者の文生成支援では、現在、日本全国でおよそ10万人程度の失語症患者がおり、その8割程度の人はとぎれとぎれの文(単語の列)を発声できる、あるいは単語の候補を提示してあげると言いたいことを表現するためにその中からいくつか単語を選択することができると言われている。
そこで、例えば「彼女 公園 行った」などを発声あるいは選択し、そこから自然な文「彼女が公園へ行った」、「彼女と公園へ行った」などを生成して提示することによって、患者のコミュニケーションを支援する。
【0004】
このように、1つ以上のキーワードを入力して、自然なテキストを生成する従来の技術として、テンプレートをもとに文を生成する技術や、キーワードをもとにデータベースから文を検索する技術はすでに存在する。
しかし、これらの技術ではテンプレートに合致する場合のみ、あるいはデータベース中に含まれる文と合致する場合のみにしか有効でなく、いずれも限られた型の文しか生成できない。
また、検索の際、適合しやすくなるようにキーワードを類義語などに置き換える技術も提案されているが、キーワードから生成されるべき文のバリエーションは多岐に亙るため、十分であるとはいえない。
【0005】
【発明が解決しようとする課題】
本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、その目的は、1つ以上のキーワードを基に、そのキーワードから自然なテキストを生成する生成方法・生成装置を提供することである。
【0006】
【課題を解決するための手段】
本発明は、上記の課題を解決するために、次のようなテキスト生成方法を創出する。
すなわち、次の各ステップに基づいてテキストの生成を行う。
まず、入力手段から1個以上のキーワードとなる単語を入力する入力ステップで、「彼女」「公園」「行った」などを入力する。
そして、該キーワードに係るテキストを、データベースから抽出する抽出ステップに進む。データベースには多くの例文が搭載されており、例えば「彼女」という単語を含むテキストや語句を探して抽出手段により抽出する。
次に、抽出されたテキストを組み合わせて、テキスト生成手段が入力したキーワードを用いる最適なテキストを生成する。このテキスト生成ステップでは、例えば「彼女」、「〜へ」、「行った」を含むテキストがデータベース中にあるときに、「彼女は公園へ行った」というように組み合わせてテキストを生成する。
【0007】
ここで、前記テキスト生成ステップにおいて、解析手段が抽出されたテキストを形態素解析及び構文解析し、該テキストの係り受け構造を得る。そして、係り受け構造形成手段がキーワードを含む係り受け構造を形成することによって、より自然なテキスト生成を実現することができる。
さらに、キーワードを含む係り受け構造を形成する過程で、係り受けモデルを用いてテキスト全体の係り受け確率を求め、該確率の最大のものを最適なテキストとして生成してもよい。
【0008】
本発明では、語順についても語順モデルを用いて、自然な文の並びとなるテキストの生成を図ることもできる。テキスト生成ステップにおいて、係り受け構造を形成する過程あるいは形成した後で用いることができる。
また、テキスト生成ステップにおいて、キーワードの全ての配列について、任意の2つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定することもできる。学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで繰り返す。キーワードには補完した単語を編入することができるので、補完された単語間にもさらに補完することもできる。このとき、補完した単語をキーワードに編入し、又は編入せずに全文について補完される確率を算出し、各積算することによって、全文について最も確率の高くなる補完組み合わせを得ることができる。これにより、好適な補完が実現できるので、与えるキーワードが少ない場合でも、自然なテキスト生成を図ることができる。
【0009】
また、本発明では、上記のデータベースに、特徴的なテキストパターンを有するテキストを備え、テキスト生成ステップがその特徴を反映したテキストを生成する構成をとることもできる。
例えば、文体や言い回しなどについて特徴のあるテキストをデータベースに備えておくことで、生成されるテキストが、その特徴に準拠したテキストになる。
【0010】
本発明は、文又は文章のテキストを生成するテキスト生成装置として提供することもできる。該テキスト生成装置には、1個以上のキーワードとなる単語を入力する入力手段、複数のテキストで構成されるテキストデータベース、該キーワードに係るテキストを、該テキストデータベースから検索し、抽出する抽出手段、抽出されたテキストを組み合わせて、入力したキーワードを用いる最適なテキストを生成するテキスト生成手段を備える。
【0011】
そして、抽出されたテキストを形態素解析及び構文解析し、該テキストの係り受け構造を得る解析手段と、前記キーワードを含む係り受け構造を形成する係り受け構造形成手段とをテキスト生成手段に含む。
特に、テキスト生成手段において、係り受け構造形成手段が、係り受けモデルを用いてテキスト全体の係り受け確率を求め、該確率の最大のものを最適なテキストとして生成するとよい。
【0012】
テキスト生成手段において、係り受け構造を形成する過程あるいは形成した後で、語順モデルを用いて自然な文の並びとなる最適なテキストを生成することもできる。
また、テキスト生成手段において、前記キーワードの全ての配列について、任意の2つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定し、学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで、補完した単語をキーワードに編入し、又は編入しない処理を繰り返し、全文について最も確率の高くなる補完組み合わせを得る単語補完手段を含んでもよい。
【0013】
テキスト生成装置においても、上記同様、データベースに特徴的なテキストパターンを有するテキストを備え、テキスト生成手段がその特徴を反映したテキストを生成するようにしてもよい。
さらに、パターン選択手段を設けることで、複数のテキストパターンを適宜選択切換することもできる。
【0014】
【発明の実施の形態】
以下、本発明の実施方法を図面に示した実施例に基づいて説明する。なお、本発明の実施形態は以下に限定されず、適宜変更可能である。
図1には本発明におけるテキスト生成装置(1)の説明図を示す。該装置には、キーワード入力部(10)、テキスト語句検索抽出部(11)、テキスト生成部(12)と共に、データベース(13)を備える。データベース(13)には予め複数のテキストがテーブルとして備えられており、該テーブルの内容については適宜変更させることもできる。内容を変更することで様々なテキストの生成を実現できるが、この点については後述する。
【0015】
そして、例えば「彼女」「公園」「行った」の3つのキーワード(2)をキーワード入力部(10)から入力すると、テキスト語句検索抽出部(11)がデータベース(13)からキーワードの少なくとも1つを含むテキストや語句を検索して、それらを抽出する。
さらにテキスト生成部(12)では抽出されたテキストや語句に基づき、それらを組み合わせることで、自然なテキスト、ここでは「彼女は公園へ行った」(3)を出力する。
【0016】
各過程をさらに詳述する。まず、キーワード入力部(10)において入力されたキーワードについて、テキスト語句検索抽出部(11)でデータベース(13)からキーワードn個を含む文を抽出する。ここで、キーワードは1つでも含めばよい。抽出された文はテキスト生成部(12)に送られる。
テキスト生成部(12)は、解析部(12a)と形成部(12b)、評価部(12c)から成り、解析部(12a)においてまず抽出した文の形態素解析及び構文解析を行う。
【0017】
形態素解析には、例えば本件出願人らが特願2001−139563号で出願中のMEモデルによる形態素の解析方法を用いることができる。
ここで、形態素解析をMEモデルに適用するために、形態素としての尤もらしさを確率として表す。
すなわち、文が与えられたとき、その文を形態素解析するという問題は文を構成する各文字列に、2つの識別符号のうち1つ、つまり、形態素であるか否かを示す「1」又は「0」を割り当てる問題に置き換えることができる。
さらに、形態素である場合には文法的属性を付与するために「1」を文法的属性の数だけ分割する。すると、文法的属性の数がn個のとき、各文字列に「0」から「n」までのうちいずれかの識別符号を割り当てる問題に置き換えることができる。
【0018】
したがって、形態素解析にMEモデルを用いた手法では、文字列が、形態素であって、かついずれかの文法的属性を持つとしたときの尤もらしさをMEモデルにおける確率分布の関数に適用することで求められる。形態素解析においてはこの尤もらしさを表す確率に、規則性を見いだすことで処理を行っている。
用いる素性としては、着目している文字列の字種の情報、その文字列が辞書に登録されているかどうか、1つ前の形態素からの字種の変化、1つ前の形態素の品詞などの情報を用いる。1個の文が与えられたとき、文全体で確率の積が最大になるよう形態素に分割し文法的属性を付与する。最適解の探索には適宜公知のアルゴリズムを用いることができる。
【0019】
このように、MEモデルを用いた形態素解析方法は、例えば未知語を含んでいても有効な形態素解析ができるなど、優位性の高い方法である。本発明の実施においては、上記方法によることが特に効果的であるが、必ずしも限定されるものではなく、任意の形態素解析方法を用いることができる。
【0020】
さらに、解析部(12a)における構文解析についてもMEモデルを用いた解析手法を導入することができる。構文解析についても、他の任意の手法に置き換えることができるが、一実施例として以下の手法を示す。前記データベース(13)はテキスト生成部(12)からも参照が可能であり、本MEモデルではデータベースに含まれる複数のテキストから学習を行うことができる。
構文解析のうち、係り受け解析についての導入をする。どの文節がどの文節を修飾するかという日本語の係り受け関係には、主に以下の特徴があるとされている。すなわち、
(1)係り受けは前方から後方に向いている。
(2)係り受け関係は交差しない。(以下、これを非交差条件と呼ぶ。)
(3)係り要素は受け要素を1 つだけもつ。
(4)ほとんどの場合、係り先の決定には前方の文脈を必要としない。
本実施例では、これらの特徴に着目し、統計的手法と文末から文頭に向けて解析する方法を組み合わせることにより高い解析精度を得ることを実現した。
【0021】
まず、文末から順に2つずつ文節を取り上げ、それらが係り受けの関係にあるかどうかを統計的に決定する。その際、文節あるいは文節間にみられる情報を素性として利用するが、どのような素性を利用するかが精度に影響する。
文節は、前の主辞にあたる部分と後ろの助詞や活用形にあたる部分に分けて考え、それぞれの素性とともに文節間の距離や句読点の有無なども素性として考慮する。
さらに括弧の有無や文節間の助詞「は」の有無、係り側の文節と同じ助詞や活用形が文節間にもあるか否か、素性間の組み合わせについても考慮している。
【0022】
MEモデルによればこういった様々な素性を扱うことができる。
そして、この方法では決定木や最尤推定法などを用いた従来の手法に比べて学習データの大きさが10分の1程度であるにも関わらず、同程度以上の精度が得られる。この手法は学習に基づくシステムとして、最高水準の精度を得られる手法である。
さらに、従来は、学習データから得られる情報を基に、2つの文節が係り受け関係にあるか否かを予測するのに有効な素性を学習していたが、新たに前文節が「後文節を越えて先にある文節に係る」「後文節に係る」「後文節との間にある文節に係る」の3つの状態のどれであるかを予測するのに有効な情報を学習する方法によって、より高精度な係り受け解析を可能にしている。
【0023】
このように、MEモデルを用いた形態素解析方法、構文解析方法を採用することによって、解析部(12a)ではデータベース(13)から検索抽出されたテキストを正確に解析し、該テキストの係り受け構造を得る。該係り受け構造は部分的な係り受け関係の集合である部分グラフとして表すことができる。ここで、グラフ構造のノードが文節、アークが係り受けとする。
各キーワードを少なくとも一つ含む部分グラフをすべて抽出し、頻度を調べる。ノードは汎化した情報(人名、組織名などの固有表現や品詞)のみを持つものも考慮する。
【0024】
データベース(13)から上記のキーワードに基づいて抽出され、解析した結果のうち、頻度が高かったものが図2のaとbである。例えばaにおいて、キーワード「彼女は」をノード(親ノード1)(20)とすると、「<名詞>+へ」がノード(親ノード2)(21)、「<動詞>。」がノード(子ノード)(22)として係り受け関係(23)をもつ。
【0025】
この過程より先はテキスト生成部(12)のうち形成部(12b)における処理に移行する。ただし、本実施例では、テキスト生成部(12)における解析と形成は以下に示すように一体的な処理であり、相互に連係して動作する。
入力するキーワードn個は係り受け関係にあると仮定し、入力単語n個を含むような係り受け構造木を生成する。木の生成には上記の部分グラフを組み合わせて用いる。
すなわち、図2の a でキーワード「彼女」を含むテキスト(以下では第1テキストと呼ぶ)から得られる部分的な係り受け関係は上述した通り、「彼女は」と「<名詞>へ」や、「彼女は」と「<動詞>」、「<名詞>へ」と「<動詞>」の3種類になる。
【0026】
同様に、キーワード「公園」を含むテキスト(同、第2テキスト)から得られる部分的な係り受け関係も図2の通り、「<名詞>は」と「公園へ」や、「<名詞>は」と「<動詞>」、「公園へ」と「<動詞>」の3種類になる。キーワード「行った」を含むテキスト(同、第3テキスト)についても3種類の部分的な係り受け関係が得られる。もちろんこれは一例であって、実際にはキーワードとテキストによって様々な種類の係り受け関係が得られる。
【0029】
以上の3つの係り受け関係から、1文全体で「彼女は」「公園へ」「行った」という図3aの係り受け構造が確定する。
図2bはさらに別のテキスト(仮に第4テキスト第6テキストと呼ぶことができる)からこのような部分グラフが得られるのであり、それを上記のように部分的な係り受け関係に分けて組み合わせることで、「彼女の」「公園へ」「行った」という係り受け構造が確定する。
【0030】
ここで、生成された2つの木(図3a・b)のうち、いずれが適当であるかを再び上記の係り受けモデルを用いて選択する。
順序付けの際には、組み合わせた部分グラフ間での一致する割合、頻度、係り受け関係を考慮する。特にnが3以上の場合、単語n個間の係り受け関係には曖昧性があるが、曖昧性の解消には、係り受けモデルを利用する。係り受けモデルによって求められる確率値が大きなものを優先して順序付けする。
【0031】
その結果、aの木における確率値により高い結果が得られ、最適な係り受け関係はaであることが選択される。
日本語においては、語順の制限が比較的緩やかであり、係り受け関係が決定されると自然なテキストに近い結果が得られるが、本発明の対象とする言語は必ずしも日本語に限られず、他の言語で用いることも考えられる。
また、日本語においてもより自然なテキストに寄与するためには最も自然な語順が選択されることが望ましく、本発明では、次のように並べ替えることができる。
【0032】
まず、優先順位の高い木から、自然な文の並びに置き換えて出力する。その際、依存構造から自然な並びの文を生成するMEモデルを用いた語順モデルを利用する。語順モデルの学習についてもデータベース(13)を参照して行うことができる。
語順が自由であると言われる日本語でも、これまでの言語学的な調査によると、時間を表す副詞の方が主語より前に来やすい、長い修飾句を持つ文節は前に来やすいといった何らかの傾向がある。もしこの傾向をうまく整理することができれば、それは自然な文を生成する際に有効な情報となる。ここで語順とは、係り相互間の語順、つまり同じ文節に係っていく文節の順序関係を意味するものとする。語順を決定する要因にはさまざまなものがあり、例えば、修飾句の長い文節は短い文節より前に来やすい、「それ」などの文脈指示語を含む文節は前に来やすい、などがあげられる。
【0033】
本実施例においては、上記のような要素と語順の傾向との関係、すなわち規則性を所定のテキストから学習する手法を考案した。この手法では、語順の決定にはどの要素がどの程度寄与するかだけでなく、どのような要素の組み合わせのときにどのような傾向の語順になるかということも学習に用いるテキストから演繹的に学習することができる。個々の要素の寄与の度合はMEモデルを用いて効率良く学習する。係り文節の数によらず2つずつ取り上げてその順序を学習する。
【0034】
文を生成する際には、この学習したモデルを用いて、係り受け関係にある文節を入力とし、その係り文節の順序を決めることができる。語順の決定は次の手順で行なう。
まず、係り文節について可能性のある並びをすべて考える。次に、それぞれの並びについて、その係り文節の順序が適切である確率を学習したモデルを用いて求める。この確率は、順序が適切であるか否かの「0」または「1」に置き換え、MEモデルにおける確率分布の関数に適用することで求められる。
そして、全体の確率が最大となる並びを解とする。全体の確率は、係り文節を2つずつ取り上げたときその順序が適切である確率を計算し、それらの積として求める。
【0035】
例えば、「昨日/テニスを/太郎は/した。」という文で最適な語順の決定を説述する。上記と同様に係り受け構造木を作成すると、最も確率値の高い構造木が図4のように得られる。
すなわち、動詞「した。」(43)に係る文節は「昨日」(40)、「テニスを」(41)、「太郎は」(42)の3つである。この3つの係り文節の順序を決定する。
【0036】
図5に係り文節の順序が適切である確率の計算例(50)を示す。
まず、2個の文節ずつ、すなわち「昨日」と「太郎は」、「昨日」と「テニスを」、「太郎は」と「テニスを」の3つの組み合わせを取り上げ、学習した規則性によりそれぞれこの語順が適切である各確率を求める。
例えば、図において「昨日」「太郎は」の語順になる確率は「p*(昨日,太郎は)」で表され、その確率は0.6とする。同様に、「昨日」「テニスを」は0.8、「太郎は」「テニスを」は0.7とすると、図5における1段目の語順(51)の確率は各確率を積算し、0.336となる。
次に、6つの語順(51ないし56)の可能性すべてについて全体の確率を計算し、最も確率の高いもの「昨日/太郎は/テニスを/した。」(51)が最も適切な語順であるとする。
【0037】
同様に、前記したテキスト「彼女は/公園へ/行った。」ではさらに少ない組み合わせの確率を計算することで、「彼女は公園へ行った。」が最も自然で最適なテキストであると求められる。
また、該語順モデルについては、汎化したノードが含まれる場合、そのまま提示することによって、人名や地名、日付などが入り易い場所が分かる。
ここで、上記における語順モデルでは係り受け構造を入力としているが、本発明の実施においては係り受け構造の形成過程においても語順モデルを用いることができる。
【0038】
以上により、テキスト生成部(12)の形成部(12b)では、係り受けモデル、語順モデルなどにより最適と考えられる複数のテキストが候補として形成される。本発明ではこれらをそのままテキスト生成装置(1)から出力することもできるが、以下では、さらにテキスト生成部(12)に評価部(12c)を配置し、テキストの候補を評価することにより再順序付けする構成を示す。
【0039】
評価部(12c)では、入力されたキーワードの順番や、抽出したパターンの頻度、係り受けモデルや語順モデルから計算されるスコアなど様々な情報を総合してテキストの候補の評価を行う。評価部(12c)においてもデータベース(13)を参照することができる。
例えば、キーワードの順番が上位のものについてはより重要なキーワードとして、該キーワードの役割が特に重要な候補中のテキストを、より最適なテキストとして評価したり、前記では係り受けモデルや語順モデルといったモデル毎に確率を求めたが、それらを勘案して、総合的な評価を行うようにする。
【0040】
本評価部(12c)の働きによって、自然なテキストとして形成された候補のうちでも、特に最適と考えられるテキストを例えば順位を付けて複数出力することができるようになる。
本発明によるテキスト生成装置(1)は、さらに別の言語処理システムに導入することも可能であって、このように複数の出力を行っても良いし、上記順位が最も高いものを1つ出力してもよい。
また、順位が一定以上に高いもの、あるいは確率やスコアなどで一定の閾値以上のものを出力し、人手によって選択する構成をとってもよい。
【0041】
上記評価部(12c)の構成では形成部(12b)で形成された候補を入力するのみの構成であるが、さらに評価部(12c)において複数のテキストからなる文章全文について各テキストの候補のいずれを選択するか、全文の流れから評価し、各テキストの候補から1つを決定してもよい。
この時、文章全文中の少数のテキストが前後の文との整合性において不自然な場合には、再び解析部(12a)や形成部(12b)における処理に差し戻し、全文に亘って自然なテキストが出力できるように別の候補を形成させるようにしてもよい。
【0042】
テキスト生成部(12)によって最適な構文、語順で生成されたテキスト「彼女は公園へ行った。」(3)は以上に説述したテキスト生成装置(1)から出力される。ここでは、最も自然と考えられるテキスト(3)を1つ出力した。
このように、本発明では、1つ以上のキーワード(2)を入力することで、データベース(13)を参照しながらも、従来の技術とは異なる構成で自然なテキストを生成することができる。
【0043】
さらに、本発明ではキーワードが十分でない場合の、補完方法についても提供する。
すなわち、キーワードn個が入力されたとき、その単語間をMEモデルを用いて補完する。モデルに対してはn個のうちの2個を入力し、該2キーワード間を補完する。
そして、任意の2キーワード間について、補完すべき単語があるか否か、補完できる単語が複数ある場合には、各単語について生起する確率を求めていく。確率の最も高い単語から順に補完し、すべての2キーワード間についてこの処理を繰り返す。なお、基本的には補完する単語をキーワードとして編入するが、周知のMEモデルの特性の通り、一文全文における確率算出時には、各単語のうちのいくつかはキーワードとして編入しない場合も算出する。
最後にどの2キーワード間についても「補完しない」が最も確率が高くなるとき補完を止める。
【0044】
このような補完処理によれば、キーワードが十分に与えられていない場合であっても、MEモデルによってある程度までキーワードを補うことができるので、入力されたキーワードだけでは自然なテキストが生成出来ない場合にも、有効なテキストを出力できるようになる。
【0045】
本補完方法では、さらに上記テキスト生成部においてテキスト生成に用いることも可能である。
例えば、上記例で示したように、「彼女」「公園」「行った。」が与えられたときに、「彼女」と「公園」の間には「は」「が」「と」などが生起し、その中で最も生起する確率の高い「は」を補完する。
同様に「彼女」と「行った。」の間には「は」「が」「と」などが生起し、ここでも最も確率の高い「は」を補完する。「公園」と「行った」の間では「へ」「に」等が生起し、確率の高い「へ」を補完する。
【0046】
これらの補完を繰り返して、最終的に全文について補完される確率を算出し、各積算することによって、全文について最も確率の高くなる補完組み合わせを採り、テキストを生成する。この場合には、「彼女は公園へ行った。」となり、前述した本発明に係る方法と同様の効果が得られる。
本発明では、このように前述のテキスト生成方法を基本としながら、キーワードの補完、さらにはこの補完方法を用いたテキストの生成を実現する。
【0047】
以上のような本発明によるテキストの生成技術は次のような場合に特に好適に用いることができる。
まず、失語症患者の文生成支援に用いることができる。とぎれとぎれの文(単語の列)、例えば「彼女 公園 行った」、から自然な文を生成し、文の候補、「彼女が公園へ行った」、「彼女と公園へ行った」などを提示する。患者は提示されたテキストを承認するだけで、自分の表現したい内容を伝達することができ、患者のコミュニケーションの機会が増す。
また、キーワードが不足する場合も、上記の補完技術を用いたり、複数のテキストを提示し、患者が選択することで、十分に効果を奏することができる。
【0048】
人間と対話する装置に組み込むことによりコミュニケーションを助けることにも利用できる。すなわち、人間の発話文から適当にキーワードを抜き出して新たに文を作り、言い返す。文を生成したとき、典型的な情報、例えば5W1Hの情報などが抜けていることが分かれば、「いつ行ったのですか?」のようにその部分を尋ねる文を作るということも考えられる。
【0049】
類似の構成で、音声認識して自然な文を生成し、聞き直すシステムとして提供することもできる。人間ははっきりと聞き取っているわけではなく、聞き取れなかった部分を補完して理解している。認識できた部分をもとに文を生成し、聞き直す。間違っている部分は強調して発話し直してくれることが期待できるので、何度かやり取りをする間に正しい文が生成される。
【0050】
また、上記の補完技術を組み合わせて、新しいストーリーを自動的に作出するシステムを実現してもよい。例えば、「おじいさん・おばあさん・山・亀」が入力されたときに、桃太郎と浦島太郎の昔話を少なくともデータベースに備えることにより、両昔話に類似するもののそれらとは異なった新しいストーリーが作出できる。この場合、新たに補完される単語で、キーワードとして再構成されるものとしては「川・桃・竜宮城」などが考えられる。
特に、データベースに備えるストーリーが多くなればなるほど、新規性に富むストーリーが作出されるため、一読しても原文との関係が分かりにくくなる。
【0051】
また、文とその文内での重要キーワードを与え、そのキーワードを含み、適切な長さの文を生成することもできるので、作文システムを実現することもできる。元の文より短ければ要約となる。文に典型的な情報を付け加えてより詳細な文を生成することも考えられる。これによって、従来の要約システムとは異なり、重要なキーワードから主体的に文を生成するため、より自然な要約が得られる。
文の苦手な者が作成した冗長な文章を修正することもできるし、語句を補い、流ちょうな文に改めることもできる。
【0052】
これと関連して、文体の変換に用いることも可能である。文章からキーワードを取り出し、そのキーワードを基に文章を生成し直す。基にするデータベースに依存してそのデータベースに特有の表現に書き換えられる。例えば、ある作家の小説をデータベースにすれば、その作家風に文章を書き換えることもできるようになる。
【0053】
近年急速に普及した携帯端末での文章入力支援に用いると、入力のし難い携帯端末でも、読みやすい文章を作成することができる。例えば、単語をいくつか入力すると、文候補を提示し、それから選ぶことによって、人手によって作成したのと同等の文章を作成できる。入力者は単語のみを入力するだけなので、細かく文章を作成する労がない。
また、メール作成用には、データベースに使用者の実際に作成したメールを備えることで、自己の書き方が生かされた作文が可能になる。
【0054】
このように、本発明では、データベースに文体や言い回しなど、様々なテキストパターンを備えることにより、自動的に生成されるテキストがそのテキストパターンを反映するため、簡便にかつ個性的なテキストを生成することも可能である。
特に、データベースに複数の特徴的なテキストパターンを有するテキストを備えたり、多種のデータベースを備え、それらを使用者が適宜指定し、切り換えることで任意のテキストパターンを示すテキストの生成が可能である。
【0055】
その他、箇条書きしたメモからキーワードとして入力し、講演用の原稿を作成したり、論文を構成することもできる。また、履歴書を入力してその人の紹介文を作成することも考えられる。
【0056】
【発明の効果】
本発明は、以上の構成を備えるので、次の効果を奏する。
いくつかのキーワードを入力ステップで入力し、抽出ステップでデータベースからテキストや語句を抽出する。抽出されたテキスト又は語句を組み合わせて、入力したキーワードを用いる最適なテキストを生成することができる。
抽出されたテキストを形態素解析及び構文解析し、該テキストの係り受け構造を得れば、より自然で正確なテキスト生成を実現することも可能となる。
さらに、キーワードを含む係り受け構造を形成する過程で、係り受けモデルを用いてテキスト全体の係り受け確率を求め、該確率の最大のものを最適なテキストとして生成することで、さらに自然なテキスト生成を行える。
【0057】
また、従来の構成では難しかった語順についても、語順モデルを用いて、自然な文の並びとなるテキストの生成を図ることもできる。
また、テキスト生成ステップにおいて、キーワードの全ての配列について、任意の2つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定することもできる。学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで繰り返すことで、好適な補完が実現できるので、与えるキーワードが少ない場合でも、自然なテキスト生成を図ることができる。
【0058】
さらに、本発明によるテキスト生成方法では、データベースに特徴的なテキストパターンを有するテキストを備えるだけで、その特徴を反映したテキストの生成ができるため、読み手にとってより違和感がなく、自然なテキスト生成方法を提供することができる。
本発明は、上記のように優れたテキスト生成方法を提供するテキスト生成装置を創出し、自然言語処理技術の向上に寄与することが出来る。
【図面の簡単な説明】
【図1】 本発明によるテキスト生成装置の説明図である。
【図2】 テキスト生成部において解析された係り受け構造の部分グラフである。
【図3】 テキスト生成部において生成された係り受け構造木である。
【図4】 別の例文における係り受け構造木である。
【図5】 係り文節の順序が適切である確率の計算例である。
【符号の説明】
1 テキスト生成装置
2 入力するキーワード
3 出力されたテキスト
10 キーワード入力部
11 テキスト語句検索抽出部
12 テキスト生成部
12a 解析部
12b 形成部
12c 評価部
13 データベース

Claims (11)

  1. 文又は文章のテキストを生成するテキスト生成方法であって、
    入力手段により1個以上のキーワードとなる単語を入力する入力ステップ、
    抽出手段により該キーワードに係るテキストを、データベースから抽出する抽出ステップ、
    解析手段と係り受け構造形成手段とを含むテキスト生成手段により、抽出されたテキストを各テキストに含まれる部分的な係り受け関係から組み合わせ、入力したキーワードを用いたテキストを生成するテキスト生成ステップを有し、
    該テキスト生成ステップにおいて、
    解析手段が、抽出されたテキストを形態素解析及び構文解析して該テキストの係り受け構造を得ると共に、
    係り受け構造形成手段が、該係り受け構造におけるキーワードを含む少なくとも1個のノードと、それ以外のノードとの部分的な係り受け関係を複数抽出し、部分的な係り受け関係を組み合わせることでキーワードを含む1文全体の係り受け構造を形成してテキストを生成する
    ことを特徴とするテキスト生成方法。
  2. 前記テキスト生成ステップにおいて、
    前記キーワードを含む係り受け構造を形成する過程で、
    係り受け構造形成手段により係り受けモデルを用いてテキスト全体の係り受け確率を求め、
    テキスト生成手段により該確率が最大となるテキストを生成する
    請求項1に記載のテキスト生成方法。
  3. 前記テキスト生成ステップにおいて、
    係り受け構造を形成する過程あるいは形成した後で、
    テキスト生成手段により語順モデルを用いてテキスト全体の正しい文の並びである確率を求め、該確率が最大となるテキストを生成する
    請求項1又は2に記載のテキスト生成方法。
  4. 前記テキスト生成ステップにおいて、
    単語補完手段により、
    前記キーワードの全ての配列について、任意の2つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定し、
    学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、
    該補完する単語をキーワードに編入し、又は編入せずに、
    いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで繰り返す
    単語補完処理を行う請求項1ないし3に記載のテキスト生成方法。
  5. 前記データベースに、特徴的なテキストパターンを有するテキストを備える構成において、
    テキスト生成手段により、
    該特徴的なテキストパターンに準拠したテキストを生成する
    請求項1ないし4に記載のテキスト生成方法。
  6. 文又は文章のテキストを生成するテキスト生成装置において、
    1個以上のキーワードとなる単語を入力する入力手段、
    複数のテキストから構成されるテキストデータベース、
    該キーワードに係るテキストを、該テキストデータベースから検索し、抽出する抽出手段、
    抽出されたテキストを各テキストに含まれる部分的な係り受け関係から組み合わせ、入力したキーワードを用いたテキストを生成するテキスト生成手段
    を備え、
    該テキスト生成手段が、
    抽出されたテキストを形態素解析及び構文解析して該テキストの係り受け構造を得る解析手段と、
    該係り受け構造におけるキーワードを含む少なくとも1個のノードと、それ以外のノードとの部分的な係り受け関係を複数抽出し、部分的な係り受け関係を組み合わせることでキーワードを含む1文全体の係り受け構造を形成する係り受け構造形成手段と
    を含むことを特徴とするテキスト生成装置。
  7. 前記テキスト生成手段において、
    前記係り受け構造形成手段が、係り受けモデルを用いてテキスト全体の係り受け確率を求め、
    該確率が最大となるテキストとして生成する
    請求項6に記載のテキスト生成装置。
  8. 前記テキスト生成手段において、
    係り受け構造を形成する過程あるいは形成した後で、
    語順モデルを用いてテキスト全体の正しい文の並びである確率を求め、該確率が最大となるテキストを生成する
    請求項6又は7に記載のテキスト生成装置。
  9. 前記テキスト生成手段において、
    前記キーワードの全ての配列について、任意の2つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定し、
    学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、
    該補完する単語をキーワードに編入し、又は編入せずに、
    いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで繰り返す
    単語補完手段を含む請求項6ないし8に記載のテキスト生成装置。
  10. 前記データベースに、特徴的なテキストパターンを有するテキストを備える構成において、
    前記テキスト生成手段が、
    該特徴的なテキストパターンに準拠したテキストを生成する
    請求項6ないし9に記載のテキスト生成装置。
  11. 前記テキスト生成装置において、
    特徴的な複数のテキストパターンを有するテキストを備えるデータベースを1つないし複数を備える一方、
    該複数のテキストパターンから所望のテキストパターンを選択するパターン選択手段を備えた
    請求項10に記載のテキスト生成装置。
JP2001395618A 2001-12-27 2001-12-27 テキスト生成方法及びテキスト生成装置 Expired - Lifetime JP3921523B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001395618A JP3921523B2 (ja) 2001-12-27 2001-12-27 テキスト生成方法及びテキスト生成装置
EP02786125A EP1469398A4 (en) 2001-12-27 2002-12-17 TEXTER PRODUCTION METHOD AND TEXT GENERATOR
US10/500,243 US20050050469A1 (en) 2001-12-27 2002-12-17 Text generating method and text generator
PCT/JP2002/013185 WO2003056451A1 (fr) 2001-12-27 2002-12-17 Procede de generation de texte et generateur de texte

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001395618A JP3921523B2 (ja) 2001-12-27 2001-12-27 テキスト生成方法及びテキスト生成装置

Publications (2)

Publication Number Publication Date
JP2003196280A JP2003196280A (ja) 2003-07-11
JP3921523B2 true JP3921523B2 (ja) 2007-05-30

Family

ID=19189012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001395618A Expired - Lifetime JP3921523B2 (ja) 2001-12-27 2001-12-27 テキスト生成方法及びテキスト生成装置

Country Status (4)

Country Link
US (1) US20050050469A1 (ja)
EP (1) EP1469398A4 (ja)
JP (1) JP3921523B2 (ja)
WO (1) WO2003056451A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11126783B2 (en) 2019-09-20 2021-09-21 Fujifilm Business Innovation Corp. Output apparatus and non-transitory computer readable medium

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4085156B2 (ja) * 2002-03-18 2008-05-14 独立行政法人情報通信研究機構 テキスト生成方法及びテキスト生成装置
JP3790825B2 (ja) * 2004-01-30 2006-06-28 独立行政法人情報通信研究機構 他言語のテキスト生成装置
US8065154B2 (en) * 2004-07-30 2011-11-22 The Research Foundation of State Univesity of New York Augmentative communications device for the speech impaired using commercial-grade technology
JP4524640B2 (ja) * 2005-03-31 2010-08-18 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8862591B2 (en) * 2006-08-22 2014-10-14 Twitter, Inc. System and method for evaluating sentiment
US8756527B2 (en) * 2008-01-18 2014-06-17 Rpx Corporation Method, apparatus and computer program product for providing a word input mechanism
US8768852B2 (en) * 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
JP5390944B2 (ja) * 2009-06-08 2014-01-15 アクトーム総合研究所株式会社 プロジェクト管理情報を用いたドキュメント情報生成装置およびドキュメント情報生成用プログラム
US9298700B1 (en) * 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
JP5630138B2 (ja) * 2010-08-12 2014-11-26 富士ゼロックス株式会社 文作成プログラム及び文作成装置
US9678993B2 (en) 2013-03-14 2017-06-13 Shutterstock, Inc. Context based systems and methods for presenting media file annotation recommendations
CN105550372A (zh) * 2016-01-28 2016-05-04 浪潮软件集团有限公司 一种语句训练装置、方法和信息提取系统
JP6647713B2 (ja) 2016-06-03 2020-02-14 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 請求項中のキーワードの抽出
JP2018010409A (ja) * 2016-07-12 2018-01-18 Supership株式会社 情報処理装置及びプログラム
US10810260B2 (en) * 2018-08-28 2020-10-20 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for automatically generating articles of a product
CN109800421A (zh) * 2018-12-19 2019-05-24 武汉西山艺创文化有限公司 一种游戏剧本生成方法及其装置、设备、存储介质
WO2020139865A1 (en) * 2018-12-24 2020-07-02 Conversica, Inc. Systems and methods for improved automated conversations
CN113642324B (zh) * 2021-08-20 2024-02-09 北京百度网讯科技有限公司 文本摘要生成方法、装置、电子设备及存储介质
JP7345034B1 (ja) 2022-10-11 2023-09-14 株式会社ビズリーチ 文書作成支援装置、文書作成支援方法及び文書作成支援プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3289304B2 (ja) * 1992-03-10 2002-06-04 株式会社日立製作所 手話変換装置および方法
US5699441A (en) * 1992-03-10 1997-12-16 Hitachi, Ltd. Continuous sign-language recognition apparatus and input apparatus
US5887069A (en) * 1992-03-10 1999-03-23 Hitachi, Ltd. Sign recognition apparatus and method and sign translation system using same
JP3420369B2 (ja) * 1995-03-09 2003-06-23 シャープ株式会社 文書処理装置、および文書処理方法
JP3385146B2 (ja) * 1995-06-13 2003-03-10 シャープ株式会社 会話文翻訳装置
KR100318573B1 (ko) * 1996-10-16 2001-12-28 마찌다 가쯔히꼬 문자 입력 장치 및 문자 입력 프로그램을 기억한 기록 매체
US6862566B2 (en) * 2000-03-10 2005-03-01 Matushita Electric Industrial Co., Ltd. Method and apparatus for converting an expression using key words
US7177797B1 (en) * 2000-08-31 2007-02-13 Semantic Compaction Systems Linguistic retrieval system and method
US7027974B1 (en) * 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US6904428B2 (en) * 2001-04-18 2005-06-07 Illinois Institute Of Technology Intranet mediator
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
US6820075B2 (en) * 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11126783B2 (en) 2019-09-20 2021-09-21 Fujifilm Business Innovation Corp. Output apparatus and non-transitory computer readable medium

Also Published As

Publication number Publication date
JP2003196280A (ja) 2003-07-11
US20050050469A1 (en) 2005-03-03
WO2003056451A1 (fr) 2003-07-10
EP1469398A1 (en) 2004-10-20
EP1469398A4 (en) 2008-10-29

Similar Documents

Publication Publication Date Title
JP3921523B2 (ja) テキスト生成方法及びテキスト生成装置
RU2336552C2 (ru) Лингвистически информированные статистические модели структуры составляющих для упорядочения в реализации предложений для системы генерирования естественного языка
Chen Building probabilistic models for natural language
Mairesse et al. Stochastic language generation in dialogue using factored language models
US6871174B1 (en) System and method for matching a textual input to a lexical knowledge base and for utilizing results of that match
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
CN111353306A (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
JP3765799B2 (ja) 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
JP2004513458A (ja) ユーザが変更可能な翻訳のウエイト
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Huang et al. A natural language database interface based on a probabilistic context free grammar
Haq et al. Urdu named entity recognition system using deep learning approaches
EP1290574A2 (en) System and method for matching a textual input to a lexical knowledge base and for utilizing results of that match
Soumya et al. Development of a POS tagger for Malayalam-an experience
Bhat Morpheme segmentation for kannada standing on the shoulder of giants
Jha et al. Inflectional morphology analyzer for Sanskrit
Nambiar et al. Abstractive summarization of Malayalam document using sequence to sequence model
Seifossadat et al. Stochastic Data-to-Text Generation Using Syntactic Dependency Information
JP2001084252A (ja) 類似文書検索システム及び方法並びに類似文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
Boonpa et al. Relationship extraction from Thai children's tales for generating illustration
CN108694163B (zh) 计算句子中的词的概率的方法、装置和神经网络
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
JP2007018462A (ja) 機械翻訳装置、およびプログラム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030826

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040113

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040326

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061218

R150 Certificate of patent or registration of utility model

Ref document number: 3921523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term