JP2004240605A

JP2004240605A - 文の拡大表現方法、文の拡大表現生成方法および文の拡大表現生成装置

Info

Publication number: JP2004240605A
Application number: JP2003027838A
Authority: JP
Inventors: Yoshibumi Matsunaga; 義文松永
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2003-02-05
Filing date: 2003-02-05
Publication date: 2004-08-26

Abstract

【課題】文を拡大して表現することを可能にする。
【解決手段】入力された文から名詞である連辞を主要語として抽出する。そして、その抽出した各主要語に対して、辞書若しくは他の拡大表現から取得した、あるいはユーザ入力された同意語、類語、反意語等当該主要語に関連する関連語を範列として対応付ける。そして、それぞれ対応付けした主要語と関連語とを集合化することで範列集合を生成し、これを入力された文の拡大表現としてデータベース登録する。また、画面表示することでユーザに示す。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、言語処理技術において文の要素単語などの入れ替えを行い新たな文を生成したり、文と文を結合して新しい文を作ったりすることのできる文の拡大表現方法および拡大表現生成方法および拡大表現生成装置に関する。この発明はまた、文と文の類似性を判定したり、類似文（書）検索を行ったりするシステムにも応用できる。
【０００２】
【従来の技術】
知の融合や演算が現実に実施できるようになることは、言語処理技術として極めて有効であると考えられる。知を文で表した場合、文同士を演算できれば、文の言い換えや合成だけでなく、文間の類似性判定ならびに関連文書検索、更に人の発想を刺激することによる発想支援に飛躍的に貢献できると考えられる。
【０００３】
ただ、例えば、「知の融合や演算を現実に実施する方法を提供する」という文と「平日と祝日では電車のダイヤが違うことがあり、ときどき間違う」という文との演算を考えてみると、これらの文においては文字面での共通項がない。このように、文と文の演算を実施しようとしても、実際には十分な関係を見つけられない場合が多い。
【０００４】
なお、従来から言語処理に関連する技術として、例えば２つの文を比較するための技術（例えば、特許文献１参照）や、文章理解をより正確に行うための技術（例えば、特許文献２参照）などが数多く提示されている。
【０００５】
【特許文献１】
特表２００１−５１１５６５号公報
【特許文献２】
特開平５−２２５１９２号公報
【０００６】
【発明が解決しようとする課題】
しかしながら、従来においては、上記各特許文献を含めて上記例示した文を演算することはできない。また、演算の可能性をいう以前に、文を拡大表現しておいて多様な目的に使うという発想自体も見られなかった。
【０００７】
更に、文の演算可能性をいう以前に、日本語の自然文の構文あるいは意味構造の解析の精度を上げるには、例外的な現象が多いこと、また、文に現れない文脈を参照しなければならないことなどの理由で、システムを構築するコストは大きくなりがちである。
【０００８】
本発明は以上のような問題を解決するためになされたものであり、その目的は、文を拡大して表現することのできる拡大表現方法を新たにを提供することにある。また、文の拡大表現をローコストで生成するための方法及び装置を提供することにある。
【０００９】
【課題を解決するための手段】
以上のような目的を達成するために、本発明に係る文の拡大表現方法は、文を、文に含まれている主要語の集合として表すとともに、各主要語に対して当該主要語の関連語を対応付け、その対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として示すことを特徴とする。
【００１０】
また、前記主要語及び前記関連語は、名詞あるいは名詞化された語句であることを特徴とする。
【００１１】
また、前記主要語と前記関連語とは、それぞれ識別可能に表示されることを特徴とする。
【００１２】
また、前記文の拡大表現は、入力指定された語を前記主要語又は前記関連語として含む文の連関が特定できるようにデータベースに登録されていることを特徴とする。
【００１３】
本発明に係る文の拡大表現生成方法は、入力された文から主要語を抽出するステップと、抽出された各主要語に対して、当該主要語の関連語を対応付ける関連語設定ステップと、対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として示すステップとを含むことを特徴とする。
【００１４】
また、前記関連語設定ステップは、関連語に関する知識が蓄積された辞書に基づき各主要語と、当該主要語の関連語とを対応付けることを特徴とする。
【００１５】
また、前記関連語設定ステップは、各主要語に対して、ユーザにより入力された語を、当該主要語の関連語として対応付けることを特徴とする。
【００１６】
また、前記関連語設定ステップは、他の文の拡大表現においてすでに関連付けられている主要語と関連語との対応付けを用いることを特徴とする。
【００１７】
本発明に係る文の拡大表現生成装置は、文を入力する文入力手段と、入力された文から主要語を抽出すると共に、抽出された各主要語に対して当該主要語の関連語を対応付け、その対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として生成する拡大表現生成処理手段と、生成された文の拡大表現を出力するユーザインタフェース手段とを有することを特徴とする。
【００１８】
また、前記拡大表現生成処理手段は、入力された文から主要語を抽出し集合化することによって主要語集合を生成する主要語集合生成部と、前記主要語集合に含まれる各主要語に対して、当該主要語の関連語を対応付け、その対応付けられた主要語と関連語を含む関連語集合を生成する関連語集合生成部とを有することを特徴とする。
【００１９】
【発明の実施の形態】
以下、図面に基づいて、本発明の好適な実施の形態について説明する。
【００２０】
まず、本発明において重要な「連辞」と「範列」という概念について説明する。
【００２１】
「連辞」とは、「一連なりのもの」であって、各要素がその連結性において連なっているものである。具体的には、通常の「文」そのものが「連辞」の例である。例えば、前述した「知の融合や演算を現実に実施する方法を提供する」という文は、「知」＋「の」＋「融合」＋「や」＋「演算」＋「を」＋「現実」＋「に」＋「実施する」＋「方法」＋「を」＋「提供する」のように各要素が連結して、意味ある連なりとなったものである。一方、「範列」とは、「代替可能なものの集合」であり、その集合を構成する各要素は「類似性」を持って関連のある語を集合したものである。具体的に例をあげていうと、「知」の範列とは、「知識、知恵、知性、知見、学識、知能、知力、アイデア、ノウハウ、方法」等である。類似性の強度や意味において、様々の要素が考えられる。類似性の強度で言えば、「知識」、「知恵」は、「知」との類似性が強いが、「ノウハウ」、「方法」になってくると相対的に弱いと考えられる。また、「範列」の関連性を「類似性」に留めるのではなく、更に拡張して考えると、範列に該当する関連語は、意味で言えば、「同意／同義」、「類似」、「上位概念のインスタンス」、「属性」、「連想」、「反意」などに分類できる。なお、「上位概念のインスタンス」とは、例えば「知」の上位概念を（獲得すべき）「目的」ととると、「知行合一」の「行」が同列であると見て「行動、行い」、あるいは心技体の「技」に見立てて「心、技術、体」、真善美の「真」に見立てて「真、善、美」などを範列に加える考え方である。上位概念も様々に考えられる場合があるので、随意に決定していくことになる。属性とは、時、場所、理由、対象など５Ｗ１Ｈとして言われることであり、「生涯、学校、学問、勉強」などである。連想とは、「知」に対して「知」から連想しうる「知らせ、知人、公知、熟知、既知、認知、予知、関知」などである。反意とは、「知」に対して反対語としてみなすことのできる「情、感性、感覚、感情、武、武力」などである。すなわち、範列というのは、連辞を構成する各要素に対して同義であれ反意であれ、何かしらの関連を持つ語ということができる。「知識」は、「知」の同義的な関連語であり、「武力」は、「知」の反意的な関連語である。本発明では、文を連辞と見立て、文を構成する要素のうち適切な要素に対して範列を関係付けることにより、言い換えや合成などの操作を平易に可能とできるよう、文を拡大表現法を具体的に考案したものである。なお、本実施の形態では、各要素を文形成のためにつなげる要素（例えば、助詞）を除く名詞又は名詞化可能な要素を特に主要語と称することにする。なお、名詞化については、追って詳述する。
【００２２】
次に、文の拡大表現についての基本的な概念について説明する。
【００２３】
前述したように、例えば、「知の融合や演算を現実に実施する方法を提供する」という原文（例文１）と、「平日と祝日では電車のダイヤが違うことがあり、ときどき間違う」という原文（例文２）の演算を考えてみる。この２つの例文には、文字面での共通項がないため、このままでは処理のしようがない。そこで、２つの文を例えば名詞（名詞化した表現も含む）の集合にして、各名詞の関連語までを従わせる形で文を拡大表現すると、思いがけない演算が可能となる。上記例文をそれぞれ名詞の集合にすると（ここでは副詞も含めることにする）、「知、融合、演算、現実、実施、方法、提供」及び「平日、祝日、電車、ダイヤ、相違、ときどき、間違い」となるが、各集合を「知（知恵、知識、知能、知性）、融合（融和、合成）、演算（計算）、現実（実際）、実施（実行、施行、行動）、方法（手法、方式）、提供（供与、付与）」及び「平日、祝日（休日、祭日）、電車（列車、鉄道）、ダイヤ（ダイヤグラム、ダイヤモンド、美）、相違（差異）、ときどき（たまに、ときには）、間違い（誤り、過失、失態）」のように、各名詞が範列のうち同意／同義あるいは類似に該当する関連語（範列）を伴う形で拡大して表現しておくと（図１，図２参照）、２つの例文の接点を見出せる可能性が大きくなる。ただ、この例においては、この段階でもまだ接点を見出すことはできていないので演算を行うことはできない（図３参照）。
【００２４】
しかし、「知」の関連語に、さらに、「行動、行い、心、技術、体、真、善、美、情、感性、感覚、感情、武、武力、知らせ、知人、公知、熟知、既知、認知、予知、関知、学問、勉強、学校」などを付与することによって表現を拡大すれば（付与する方法については後述する）、「知」の範列を構成する「美」と、「ダイヤ」の範列を構成する「美」とが１つの接点となり、２つの上記例文を関連付けることができる。また、例文２の「相違」に主語という関連で「意味、考え方、アプローチ、方法」などの語を範列に付加するのならば、「方法」がもう１つの接点となる。
【００２５】
この結果、図４に示すように、演算結果の回答例の一つとして、例文２を拡大表現した「平日と祝日では電車の心が違うことがあり、ときどき間違う」を得ることができる。この回答例は、「美」と同様に「知」の範列の一つである「心」で例文２の「ダイヤ」を言い換えた例である。このように、必ずしも接点となった語で言い換える必要はない。
【００２６】
また、他の回答例として、例文１及び例文２を拡大表現した「知の融合や演算を現実に実施する意味をときどき間違う」を得ることができる。この回答例は、例文１の「方法」と例文２の「相違」の範列である「方法」との語の位置で各例文を合成した例である。この合成例を概念的に記述すると、図５のようになる。すなわち、文Ａにより表現された知Ａは、主要語ａ１，ａ２，ａ３，ａ４，ａ５で構成され、文Ｂにより表現された知Ｂは、主要語ｂ１，ｂ２，ｂ３，ｂ４で構成されているとする。ここで、主要語ａ４の範列の一つに語ｃ１が含まれており、一方、主要語ｂ３の範列の一つにも語ｃ１が含まれているとすると、語ｃ１が接点となり、主要語ａ１，ａ２，ａ３，ｃ１，ｂ４（合成例）で構成される新たな知Ｃが生成されることになる。
【００２７】
本発明においては、以上のように文を演算することができ、この演算によって新たに文（すなわち、拡大表現された文）を生成することができる。なお、上記説明では、２つの回答例を演算結果として示したが、範列の数からして想像できるように、この他にも数多くの演算結果を得ることができる。これにより、文間の類似性判定ならびに関連文書検索、更に人の発想を刺激することができる。また、２つの文の合成に留めるのではなく、３つ以上の文を合成することも可能である。このように、文を拡大表現できることによって、発想支援に限らず、種々の言語処理技術に役立てることができると考えられる。なお、拡大表現は、文の主要語に着目して行うため、単語に限定するのではなく、文節、文章あるいは段落などのまとまりでも、いくつかの主要語集合に展開できれば、同様に応用することは可能である。
【００２８】
次に、本実施の形態における文の拡大表現の生成方法について説明する。図６は、ここで説明する生成方法を実施するために用いる文拡大表現生成装置のブロック構成図である。本実施の形態における文拡大表現生成装置は、文入力部２、拡大表現生成処理部４、拡大表現表示処理部６、更に拡大表現データベース８、自立語辞書１０、名詞対応辞書１２、各種集合辞書１４を有している。文入力部２は、ユーザにより入力された文を受け付ける。拡大表現生成処理部４は、詳細は後述するように入力された文の拡大表現を生成し、拡大表現データベース８に登録する。拡大表現生成処理部４は、入力文に基づき連辞集合を生成する連辞集合生成部１６と、連辞集合を構成する各主要語に対して関連語を対応付け、その対応付けた語を集合化する範列集合を生成する範列集合生成部１８とを有している。拡大表現表示処理部６は、文の拡大表現を画面表示する。
【００２９】
拡大表現データベース８には、上記の通り拡大表現生成処理部４が生成した文の拡大表現が蓄積される。また、自立語辞書１０には自立語が蓄積された辞書であり、名詞対応辞書１２には名詞でない語句を名詞で表現する際の語句が蓄積された辞書である。また、各種集合辞書１４は、同意語／同義語、類語、上位概念のインスタンス、属性、連想、反意などの主要語の関連語となりうる語に関する知識が蓄積された辞書で形成される。各辞書は、いずれも範列集合を生成するときに用いられるので、本実施の形態では、便宜的に一つの辞書にまとめた図示した。
【００３０】
なお、本実施の形態における文拡大表現生成装置は、オペレーティングシステムを搭載した汎用的なパーソナルコンピュータ（ＰＣ）で実現でき、搭載したＣＰＵで本実施の形態で説明するプログラムを実行することで、上記構成要素２〜８が提供する処理機能を実現することになる。また、本実施の形態における文拡大表現生成装置のハードウェア構成は特に図示しないが、ＰＣが一般的に有するＣＰＵ、メモリ、ハードディスク装置は本体に内蔵され、ディスプレイ、マウス、キーボードは本体に接続されているものとする。
【００３１】
以下、本実施の形態における文の拡大表現の生成方法の手順の概要について図７に示したフローチャートを用いて説明する。
【００３２】
文入力部２は、ユーザによりキー入力された文を入力する（ステップ１００）。拡大表現生成処理部４の連辞集合生成部１６は、その入力された文Ｓを主要語の集合（連辞集合）として表現する。すなわち、連辞集合生成部１６は、入力された文Ｓから主要語を抽出して、連辞集合を生成する（ステップ２００）。なお、主要語というのは、上記において定義したとおり、文を構成する要素のうち名詞である要素（名詞化された要素も含む）である。上記例文１でいうと、図１に示したように「知」、「融合」、「演算」、「現実」、「実施」、「方法」、「提供」がそれぞれ主要語となる。すなわち、この処理によって、例えば上記例文１が入力されたとき、図１に示した単語（名詞）による連辞表現２０を得ることになる。すなわち、文Ｓは、次のように表現することができる。
【００３３】
Ｓ＝｛ｓｐ１１ｓｐ２１ｓｐｎ１｝
但し、ｎは主要語の数である。
【００３４】
次に、拡大表現生成処理部４の範列集合生成部１８は、各主要語に対して関連語の集合（範列集合）を付与する。すなわち、範列集合生成部１８は、各主要語に対して範列を関連付けることにより範列集合を生成する（ステップ３００）。この処理によって、例えば上記例文１が入力されたとき、図１に示した連辞と範列による拡大表現２２を得ることになる。すなわち、文Ｓは、次のように表現することができる。
【００３５】
Ｓ＝［Σ（ｉ＝１〜ｎ）Σ（ｓｐｉｊ（ｊ＝１〜ｍｋ）］
Ｓを展開すると、以下のように表すことができる。
【００３６】

但し、ｉ，ｊは変数、ｍｋのｍはｉであり、ｋは各主要語における範列の数である。範列集合において、一番左の列は連辞である。本実施の形態によれば、連辞は縦に並べ、範列は横に並べて表したことで極めてシンプルな表現形態とすることができる。
【００３７】
拡大表現生成処理部４は、以上のようにして拡大表現した文Ｓを、拡大表現データベース８に登録する（ステップ４００）。拡大表現データベース８は、例えば富士ゼロックス社製のソフトウェアである情報箱（登録商標）で実現できる。
【００３８】
図８及び図９は、それぞれ拡大表現表示処理部６が拡大表現データベース８から上記例文１及び例文２の拡大表現を取り出し表示した画面例を示した図である。なお、各図には要部のみを示している。図８に示した表示画面例において、表示領域３０には、文が拡大表現と共に登録されているデータベース名がリスト表示される。表示領域３２には、表示領域３０にリスト表示されたデータベースの中から選択されたデータベースに登録されている文がリスト表示される。この表示例では、選択された拡大表現データベースに「知の融合や・・・」と「平日と祝日で・・・」という上記例文１，２が登録されていることがわかる。入出力領域３４には、表示領域３２にリスト表示された文の中から選択された文が表示される。また、ユーザは、この入出力領域３４から新たな文を入力することができる。文入力部２は、この入出力領域３４に入力された文を受け付けることになる。入出力領域３６には、入出力領域３４に表示された文の拡大表現が表示される。すなわち、拡大表現表示処理部６は、表示領域３０の中からいずれかのデータベースがユーザにより選択されると、そのデータベースに蓄積されている文を表示領域３２にリスト表示し、そして、表示領域３２の中からいずれかの文がユーザにより選択されると、その文に対応付けられた拡大表現を当該データベースから取り出して入出力領域３６に表示することになる。詳細は追って説明するが、範列集合は、拡大表現生成処理部４によって自動的に生成されるが、ユーザがこの入出力領域３６から任意の語を入力することができる。すなわち、拡大表現生成処理部４は、入出力領域３６から入力された語を、対応する連辞の範列として拡大表現データベース８に登録することになる。各領域３０〜３６については、図９並びに他の画面表示例においても同様である。ここで、更に拡大表現表示処理部６における画面表示処理について説明する。
【００３９】
例えば、図８及び図９に示したように拡大表現の入出力領域３６において、連辞関係を縦に、範列関係を横に表現すると視覚的にも見やすくなる。特に、計算機処理を行うために、連辞集合に属する連辞（主要語）を各行の冒頭の語句とすることで、連辞関係を容易に把握できるように表示する。そして、関連する各主要語と同じ行に、カンマなどのデリミタで区切って範列関係を並べて表示する。範列集合を構成する関連語の先頭部分にはカンマは存在するが、主要語の先頭部分にはカンマは存在しない。このように拡大表現を表示すると、計算機解釈が楽であるばかりでなく、視覚的にも関係を把握しやすい。このように、拡大表現表示処理部６は、拡大表現データベース８から取り出した拡大表現を、拡大表現のデータベースへの格納形式に関係なく見やすい状態で表示することになる。
【００４０】
また、範列については、様々なカテゴリーが考えられるが、例えば、同意語／同義語を「（同）」、類語を「（類）」、上位概念のインスタンスを「（イ）」、属性を「（属）」、連想語を「（連）」、反意語を「（反）」というデリミタで表し、関連度のスコアを制御する必要のあるときなどには、このデリミタを範列と共に表示する。この画面表示例を図１０に示す。すなわち、拡大表現表示処理部６は、拡大表現データベース８から取り出した拡大表現を構成する各主要語と、各主要語に関連する各範列との関係、すなわち、同意語／同義語、類語、あるいは上位概念のインスタンス等の関係を各種集合辞書１４を参照することによって取得する。そして、前述したデリミタを範列の並びの所定の位置（同一関係に属する範列の並びの先頭部分）に付加して表示する。このようにしておくことにより、直接テキストエディタで範列を編集する際にも、新たな語の挿入位置を特定しやすい。
【００４１】
また、上記画面表示例では、主要語と範列、範列と範列の区切り記号として同じカンマを用いたが、それぞれを異なる区切り記号とすることで、主要語（連辞）と関連語（範列）とが、より一層識別しやすくなるように表示してもよい。あるいは、「知」と「融合」の間の「の」、「融合」と「演算」の間の「や」のように、各主要語の間には、通常、区切りとなる要素が存在するが、これらの要素を主要語に付加して表示することでも、主要語をより一層判別しやすくしてもよい。つまり、文節等に相当する区切りで各主要語を表示することになる。この画面表示例を図１１に示す。なお、その他にも、主要語と関連語の表示領域を分けたり、あるいは表示色や輝度等の表示属性を異ならせることによって主要語と関連語とをそれぞれ識別可能に表示するようにしてもよい。
【００４２】
更に、拡大表現表示処理部６が提供する他の表示機能の一例を図１２に示す。図１２には、拡大表現を構成する連辞又は範列のいずれかの要素を検索キーワードとして拡大表現データベース８を全文検索した結果を表示したときの表示例が示されている。図１２は、「美」を検索キーワードとして検索した結果、「美」をそれぞれ拡大表現の中に含む上記例文１，２が該当したことになる。このように、拡大表現表示処理部６にキーワード検索機能を持たせ、かつデータベースをキーワード検索可能な構造で構築しておくことにより、拡大表現データベース８に蓄積された拡大表現間で、暗黙のリンクが張られていることになる。これを概念的に表したのが図１３である。このことを言い換えると、入力指定された検索キーワード（主要語又は関連語）を含む文の拡大表現は、キーワード検索により抽出されることになるので、その抽出された文の拡大表現は、その検索キーワードによって関連付けられているということになる。前述の例に基づけば、「美」という語句による検索に該当した文は、図４に示したように「美」に基づき合成できる可能性があるということに他ならない。「美」は、また図５におけるｃ１に相当する。このように、あるキーワードによって文の連関が特定できるように文の拡大表現を拡大表現データベース８に登録しておけば、文の網を構成することができ、文の合成相手を容易にみつけることができる。
【００４３】
なお、本実施の形態では、文の拡大表現を出力するための手段として拡大表現表示処理部６を設けて画面表示できるようにしたが、用紙等の媒体やファイル、あるいは文解析装置等他の装置へ所定のフォーマットにて出力したいのであれば、その要求に応じて文の拡大表現を出力するための手段を設ければよい。
【００４４】
ここで、要素の名詞化について説明する。名詞の認定の方法は、辞書による場合と、漢字またはカタカナの一続きによって認定する方法がある。名詞化とは、例えば、形容詞である「美しい」を「美しさ」に変換すること、動詞である「実施する」を「実施」に変換することを示しているが、「美」や「実施」のように、漢字またはカタカナ部分だけを抽出して代替できる可能性も高いので、特別な辞書やアルゴリズムによらないでも名詞化を行うことは可能である。なお、名詞化がうまくできない場合には、スキップしても構わない。また、副詞は、名詞が転用する場合もあるので（例えば、「今日、学校に行った」の「今日」など）、名詞に限定せず副詞を連辞若しくは範列に加えることもできる。もちろん、目的によっては他の自立語まで範囲を広げたり、場合によっては付属語まで拡張してもよいが、名詞（しかも漢字かカタカナで表現されているもの）に限定すると、言語処理コストを小さくすることができる。
【００４５】
次に、拡大表現生成処理部４の連辞集合生成部１６における連辞集合の生成処理（図７のステップ２００）の具体的処理について説明する。
【００４６】
図１４は、連辞集合生成処理を示したフローチャートである。図１４では、図１に示した自立語辞書１０、名詞対応辞書１２を用いない場合の処理を示している。
【００４７】
まず、ステップ２１１において、処理対象となる文をＳ、Ｓのサイズ（文字数）をＮにそれぞれ代入し、また、抽出する主要語の数ｉ及び処理対象とする文字の位置を示すｊを１に初期化し、更に抽出した主要語を格納するＥｉをブランクで初期化する。また、文Ｓの中から主要語として抽出するストップ文字種（Ｓｃｈａｒ）として漢字及びカタカナを設定する。なお、通常は、ストップ文字種として漢字及びカタカナを設定することが適切であると考えられるが、これに限定する必要はなく、処理対象とする文の種類（技術文献、文学等）によって適切と思われる文字種を設定すればよい。
【００４８】
本実施の形態においては、主要語を、名詞又は名詞化された要素であり、かつストップ文字種に設定したように漢字あるいはカタカナで表現されている語句に限定している。従って、ステップ２１１以降の処理において、ｊ番目の文字をチェックし、ストップ文字種である漢字あるいはカタカナに出くわしたところまで入力文Ｓを１文字ずつ最初からスキャンする（ステップ２１３，２１４）。そして、ｊ番目の文字種がストップ文字種であったときには、その文字種が継続するところ（文字種が切り替わる直前の位置。例えば、漢字であれば漢字の並びが続く最後尾）までポインタをとばす。そして、ステップ２１５において、その間の文字列を主要語として認定し、Ｅｉに代入することで抽出する。例えば、「実施する」という要素は、漢字部分の「実施」と名詞化され主要語として抽出される。また、「美しい」という要素は、漢字部分の「美」と名詞化され主要語として抽出される。ｊは、最後尾位置に１を加算し、ｉをインクリメントする。そして、ステップ２１２に戻る。このステップ２１３〜２１５を文字列の最後まで繰り返し行う（ステップ２１２）。このようにして抽出した主要語を連辞集合Ｍに保存する（ステップ２１６）。
【００４９】
以上のように、ひらがな等の区切り文字で区切られた漢字列若しくはカタカナ列を一単語（名詞又は副詞）とみなし、その一単語を主要語として抽出するようにすれば、辞書を用いなくても極めて簡単な処理で連辞集合を生成することができる。
【００５０】
ただ、図１４に示した処理では、例えばひらがなで表現された主要語などは連辞集合に含ませることはできない。そこで、自立語辞書等を用いれば連辞抽出の精度を高めることが可能であるが、この辞書を用いる場合の連辞集合生成処理のフローチャートを図１５に示す。以下、辞書を用いる場合の連辞集合生成処理について説明する。
【００５１】
まず、ステップ２２１において、処理対象となる文をＳ、Ｓのサイズ（文字数）をＮにそれぞれ代入し、また、抽出する主要語の数ｉ及び処理対象とする文字の位置を示すｊを１に初期化し、更に抽出した主要語を格納するＥｉをブランクで初期化する。そして、入力文Ｓを１文字ずつ最初からスキャンし、ｊ番目の文字から始まる文字列が自立語辞書１０に登録されていれば、それを主要語として抽出する（ステップ２２３，２２４）。なお、このステップ２２３における抽出処理は、辞書を用いない場合と異なり、例えば「美しい」などの自立語は「美しい」と自立語のまま抽出される。続いて、名詞対応辞書１２を参照することによって、抽出した主要語の名詞化を図る。名詞対応辞書１２を利用することによって、例えば「美しい」などの主要語は「美しさ」などに変換されて名詞化される。この名詞化された語句は、主要語として認定され、Ｅｉとして抽出される（ステップ２２５）。一方、名詞対応辞書１２を参照しても自立語を名詞化できないときには、抽出した自立語からストップ文字種である漢字あるいはカタカナの部分のみを抽出して名詞化する（ステップ２２６）。このようにして抽出した文字列を主要語として認定し、Ｅｉに代入することで抽出する。なお、このステップ２２６における処理は辞書を用いない場合と同様の処理となる。すなわち、例えば「美しい」は、漢字部分のみが抽出されて「美」に変換されて名詞化される。以上の処理を文字Ｓに対して未処理の自立語がなくなるまで繰り返し行う（ステップ２２７，２２２）。このようにして抽出した主要語を連辞集合Ｍに保存する（ステップ２２８）。
【００５２】
以上のように、辞書を用いることによってひらがな等の要素も主要語として抽出することができるので、より正確な連辞集合を生成することができる。この場合も図１５から明らかなように複雑な処理は不要であり、よって連辞集合を安価に生成することができる。
【００５３】
最後に、拡大表現生成処理部４の範列集合生成部１８における範列集合の生成処理（図７のステップ３００）の具体的処理について説明する。
【００５４】
図１６は、範列集合生成処理を示したフローチャートである。まず、ステップ３１１において、前述した連辞集合生成処理において生成した連辞集合のサイズ（主要語の数）をＮに代入し、また、主要語の順番を示すｉを１に初期化する。
【００５５】
続いて、主要語を範列の並びの先頭に挿入する（ステップ３１２）。そして、各種集合辞書１４から主要語の関連語を抽出して範列として設定する（ステップ３１４）。より具体的にいうと、例えば主要語が「知」であるとき、同意語／同異義語辞書を検索することによって「知」の同意語／同異義語を抽出する。図１０に示した表示例に基づくと、「知」の同意語／同異義語として「知識、知恵、知性」が抽出される。また、類語集合辞書を検索することによって「知」の類語を抽出する。図１０に示した表示例に基づくと、「知」の類語として「知らせ、知人、公知、熟知、既知、認知、予知、関知」が抽出される。各種集合辞書１４に含まれている他の集合辞書に対しても同様に検索を行うことによって上位概念のインスタンス、属性、連想、反意という各種関連語を抽出し、「知」の範列として設定する。
【００５６】
もし、集合辞書がない場合には、拡大表現データベース８を検索することによって既に構築してある拡大表現を利用するようにしてもよい。また、処理対象としている主要語を画面に表示して、テキストエディタなどでユーザが直接入力することも可能である。ユーザが直接入力できることについては、図８を用いてすでに説明している。また、範列の種類を明示するために、同意語／同義語を「（同）」、類語を「（類）」などのようにデリミタとして挿入してもよい。上記説明においては、拡大表現表示処理部６が表示する際に取り出した拡大表現にデリミタを挿入することについて説明したが、ここでは、拡大表現生成処理部４がデリミタを挿入してデータベース登録することになる。なお、範列を関連付けられない場合は、図９に示した「平日」のように範列なしでもかまわない。
【００５７】
続いて、連辞集合に含まれている各主要語に対してステップ３１４に示した処理を行う（ステップ３１５）。そして、全ての主要語に対して関連語の抽出が終了すると、その抽出した関連語を範列として範列集合に保存する（ステップ３１６）。
【００５８】
本実施の形態によれば、以上のようにして拡大表現を生成することができる。ユーザは、生成された拡大表現を、前述したように画面に表示することで確認することができる。拡大表現は、概念的に連辞は縦に並べ、範列は横に並べて表しており、また、画面表示するときもこの関係のまま表示するようにすれば、拡大表現のイメージをそのままシンプルに受け入れることができる。つまり、視覚的にわかりやすい。また、本実施の形態では、画面上から拡大表現をユーザに直接編集させることができるが、画面表示されたイメージは、縦は連辞、横は範列という簡単な規則に従いつくられているので、ユーザによる編集作業も比較的容易となる。更に、大掛かりな辞書を持たなくて拡大表現を生成することは可能である。
【００５９】
本実施の形態における文拡大表現生成装置により生成された拡大表現は、図示及び説明していない文解析処理装置等に利用されることによって、図４や図５を用いて説明したような新たな知が生成されたりする。
【００６０】
本発明の実施形態にかかるコンピュータ上で実行可能なプログラム（以下、単にプログラムという）及びコンピュータ読み取り可能な記録媒体（以下、単に記録媒体という）について説明する。ここで、記録媒体とは、コンピュータのハードウェア資源に備えられている読み取り装置に対して、プログラムの記述内容に応じて、磁気、光、電気等のエネルギーの変化状態を引き起こして、それに対応する信号の形式で、読み取り装置にプログラムの記述内容を伝達できるものである。かかる記録媒体としては、例えば、磁気ディスク、光ディスク、ＣＤ−ＲＯＭ、コンピュータに内蔵されるメモリなどが該当する。
【００６１】
記録媒体は、プログラムを記録するプログラム領域を備えており、このプログラム領域には、本プログラムが記録されている。
【００６２】
記録媒体に記録されているプログラムは、上記実施の形態を実行するためのプログラムである。
【００６３】
コンピュータは、読み取り装置と、オペレーティングシステム（ＯＳ）を常駐させた作業用メモリ（ＲＡＭ）と、表示手段であるディスプレイと、入力手段であるマウス及びキーボードと、本プログラムの実行等を制御するＣＰＵとを備えている。ここで、記録媒体が読み取り装置に挿入されると、記録媒体に記録された情報が読み取り装置からアクセス可能となり、記録媒体のプログラム領域に記録された本プログラムが、コンピュータによって実行可能となる。
【００６４】
上記読み取り装置としては、記録媒体に対応して、フレキシブルディスクドライブ装置、ＣＤ‐ＲＯＭドライブ装置、あるいは磁気テープドライブ装置などが用いられる。
【００６５】
【発明の効果】
本発明によれば、文の拡大表現を行うことができるようにしたことで、言い換え文生成、合成文生成、文類似性比較、関連文検索等の容易化を図ることができる。
【００６６】
また、文がどのように拡大表現されているか、その表現を視覚的に容易に確認することができ、修正や追加、削除などの編集も容易になる。
【００６７】
また、拡大表現文をデータベースに登録することにより、文から拡大表現を新たに作成することに参照させることができる。つまり、既存の拡大表現を有効利用させることで、文の拡大表現をより容易に、また安価に生成することができる。
【図面の簡単な説明】
【図１】本実施の形態において例文１の連辞と範列による拡張表現例を示した概念図である。
【図２】本実施の形態において例文２の連辞と範列による拡張表現例を示した概念図である。
【図３】本実施の形態において例文１と例文２の演算を示した概念図である。
【図４】本実施の形態において例文１と例文２の演算結果として得られた文の例を示した概念図である。
【図５】本実施の形態において知の合成による知を生成を示した概念図である。
【図６】本実施の形態における文拡大表現生成装置のブロック構成図である。
【図７】本実施の形態における文の拡大表現の生成方法の手順を示したフローチャートである。
【図８】本実施の形態における文の拡大表現を表示したときの画面例を示した図である。
【図９】本実施の形態における文の拡大表現を表示したときの画面例を示した図である。
【図１０】本実施の形態における文の拡大表現を表示したときの他の画面例を示した図である。
【図１１】本実施の形態における文の拡大表現を表示したときの他の画面例を示した図である。
【図１２】本実施の形態においてキーワード検索をした結果を表示したときの画面例を示した図である。
【図１３】本実施の形態においてキーワードにより拡大表現が関連付けられてデータベース登録されていることを示した概念図である。
【図１４】本実施の形態における辞書を用いないときの連辞集合生成処理を示したフローチャートである。
【図１５】本実施の形態における辞書を用いるときの連辞集合生成処理を示したフローチャートである。
【図１６】本実施の形態における範列集合生成処理を示したフローチャートである。
【符号の説明】
２文入力部、４拡大表現生成処理部、６拡大表現表示処理部、８拡大表現データベース、１０自立語辞書、１２名詞対応辞書、１４各種集合辞書、１６連辞集合生成部、１８範列集合生成部、２０連辞表現、２２拡大表現、３０，３２表示領域、３４，３６入出力領域。

Claims

文を、文に含まれている主要語の集合として表すとともに、各主要語に対して当該主要語の関連語を対応付け、その対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として示すことを特徴とする文の拡大表現方法。
請求項１記載の文の拡大表現方法であって、
前記主要語及び前記関連語は、名詞あるいは名詞化された語句であることを特徴とする文の拡大表現方法。
請求項１記載の文の拡大表現方法であって、
前記主要語と前記関連語とは、それぞれ識別可能に表示されることを特徴とする文の拡大表現方法。
請求項１記載の文の拡大表現方法であって、
前記文の拡大表現は、入力指定された語を前記主要語又は前記関連語として含む文の連関が特定できるようにデータベースに登録されていることを特徴とする文の拡大表現方法。
入力された文から主要語を抽出するステップと、
抽出された各主要語に対して、当該主要語の関連語を対応付ける関連語設定ステップと、
対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として示すステップと、
を含むことを特徴とする文の拡大表現生成方法。
請求項５記載の文の拡大表現生成方法であって、
前記関連語設定ステップは、関連語に関する知識が蓄積された辞書に基づき各主要語と、当該主要語の関連語とを対応付けることを特徴とする文の拡大表現生成方法。
請求項５記載の文の拡大表現生成方法であって、
前記関連語設定ステップは、各主要語に対して、ユーザにより入力された語を、当該主要語の関連語として対応付けることを特徴とする文の拡大表現生成方法。
請求項５記載の文の拡大表現生成方法であって、
前記関連語設定ステップは、他の文の拡大表現においてすでに関連付けられている主要語と関連語との対応付けを用いることを特徴とする文の拡大表現生成方法。
文を入力する文入力手段と、
入力された文から主要語を抽出すると共に、抽出された各主要語に対して当該主要語の関連語を対応付け、その対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として生成する拡大表現生成処理手段と、
生成された文の拡大表現を出力するユーザインタフェース手段と、
を有することを特徴とする文の拡大表現生成装置。
請求項９記載の文の拡大表現生成装置であって、
前記拡大表現生成処理手段は、
入力された文から主要語を抽出し集合化することによって主要語集合を生成する主要語集合生成部と、
前記主要語集合に含まれる各主要語に対して、当該主要語の関連語を対応付け、その対応付けられた主要語と関連語を含む関連語集合を生成する関連語集合生成部と、
を有することを特徴とする文の拡大表現生成装置。
コンピュータを、
文を入力する文入力手段と、
入力された文から主要語を抽出すると共に、抽出された各主要語に対して当該主要語の関連語を対応付け、その対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として生成する拡大表現生成処理手段と、
生成された文の拡大表現を出力するユーザインタフェース手段
として機能させるためのプログラム。