JP2004240605A - 文の拡大表現方法、文の拡大表現生成方法および文の拡大表現生成装置 - Google Patents
文の拡大表現方法、文の拡大表現生成方法および文の拡大表現生成装置 Download PDFInfo
- Publication number
- JP2004240605A JP2004240605A JP2003027838A JP2003027838A JP2004240605A JP 2004240605 A JP2004240605 A JP 2004240605A JP 2003027838 A JP2003027838 A JP 2003027838A JP 2003027838 A JP2003027838 A JP 2003027838A JP 2004240605 A JP2004240605 A JP 2004240605A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- word
- expression
- enlarged
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】入力された文から名詞である連辞を主要語として抽出する。そして、その抽出した各主要語に対して、辞書若しくは他の拡大表現から取得した、あるいはユーザ入力された同意語、類語、反意語等当該主要語に関連する関連語を範列として対応付ける。そして、それぞれ対応付けした主要語と関連語とを集合化することで範列集合を生成し、これを入力された文の拡大表現としてデータベース登録する。また、画面表示することでユーザに示す。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、言語処理技術において文の要素単語などの入れ替えを行い新たな文を生成したり、文と文を結合して新しい文を作ったりすることのできる文の拡大表現方法および拡大表現生成方法および拡大表現生成装置に関する。この発明はまた、文と文の類似性を判定したり、類似文(書)検索を行ったりするシステムにも応用できる。
【0002】
【従来の技術】
知の融合や演算が現実に実施できるようになることは、言語処理技術として極めて有効であると考えられる。知を文で表した場合、文同士を演算できれば、文の言い換えや合成だけでなく、文間の類似性判定ならびに関連文書検索、更に人の発想を刺激することによる発想支援に飛躍的に貢献できると考えられる。
【0003】
ただ、例えば、「知の融合や演算を現実に実施する方法を提供する」という文と「平日と祝日では電車のダイヤが違うことがあり、ときどき間違う」という文との演算を考えてみると、これらの文においては文字面での共通項がない。このように、文と文の演算を実施しようとしても、実際には十分な関係を見つけられない場合が多い。
【0004】
なお、従来から言語処理に関連する技術として、例えば2つの文を比較するための技術(例えば、特許文献1参照)や、文章理解をより正確に行うための技術(例えば、特許文献2参照)などが数多く提示されている。
【0005】
【特許文献1】
特表2001−511565号公報
【特許文献2】
特開平5−225192号公報
【0006】
【発明が解決しようとする課題】
しかしながら、従来においては、上記各特許文献を含めて上記例示した文を演算することはできない。また、演算の可能性をいう以前に、文を拡大表現しておいて多様な目的に使うという発想自体も見られなかった。
【0007】
更に、文の演算可能性をいう以前に、日本語の自然文の構文あるいは意味構造の解析の精度を上げるには、例外的な現象が多いこと、また、文に現れない文脈を参照しなければならないことなどの理由で、システムを構築するコストは大きくなりがちである。
【0008】
本発明は以上のような問題を解決するためになされたものであり、その目的は、文を拡大して表現することのできる拡大表現方法を新たにを提供することにある。また、文の拡大表現をローコストで生成するための方法及び装置を提供することにある。
【0009】
【課題を解決するための手段】
以上のような目的を達成するために、本発明に係る文の拡大表現方法は、文を、文に含まれている主要語の集合として表すとともに、各主要語に対して当該主要語の関連語を対応付け、その対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として示すことを特徴とする。
【0010】
また、前記主要語及び前記関連語は、名詞あるいは名詞化された語句であることを特徴とする。
【0011】
また、前記主要語と前記関連語とは、それぞれ識別可能に表示されることを特徴とする。
【0012】
また、前記文の拡大表現は、入力指定された語を前記主要語又は前記関連語として含む文の連関が特定できるようにデータベースに登録されていることを特徴とする。
【0013】
本発明に係る文の拡大表現生成方法は、入力された文から主要語を抽出するステップと、抽出された各主要語に対して、当該主要語の関連語を対応付ける関連語設定ステップと、対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として示すステップとを含むことを特徴とする。
【0014】
また、前記関連語設定ステップは、関連語に関する知識が蓄積された辞書に基づき各主要語と、当該主要語の関連語とを対応付けることを特徴とする。
【0015】
また、前記関連語設定ステップは、各主要語に対して、ユーザにより入力された語を、当該主要語の関連語として対応付けることを特徴とする。
【0016】
また、前記関連語設定ステップは、他の文の拡大表現においてすでに関連付けられている主要語と関連語との対応付けを用いることを特徴とする。
【0017】
本発明に係る文の拡大表現生成装置は、文を入力する文入力手段と、入力された文から主要語を抽出すると共に、抽出された各主要語に対して当該主要語の関連語を対応付け、その対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として生成する拡大表現生成処理手段と、生成された文の拡大表現を出力するユーザインタフェース手段とを有することを特徴とする。
【0018】
また、前記拡大表現生成処理手段は、入力された文から主要語を抽出し集合化することによって主要語集合を生成する主要語集合生成部と、前記主要語集合に含まれる各主要語に対して、当該主要語の関連語を対応付け、その対応付けられた主要語と関連語を含む関連語集合を生成する関連語集合生成部とを有することを特徴とする。
【0019】
【発明の実施の形態】
以下、図面に基づいて、本発明の好適な実施の形態について説明する。
【0020】
まず、本発明において重要な「連辞」と「範列」という概念について説明する。
【0021】
「連辞」とは、「一連なりのもの」であって、各要素がその連結性において連なっているものである。具体的には、通常の「文」そのものが「連辞」の例である。例えば、前述した「知の融合や演算を現実に実施する方法を提供する」という文は、「知」+「の」+「融合」+「や」+「演算」+「を」+「現実」+「に」+「実施する」+「方法」+「を」+「提供する」のように各要素が連結して、意味ある連なりとなったものである。一方、「範列」とは、「代替可能なものの集合」であり、その集合を構成する各要素は「類似性」を持って関連のある語を集合したものである。具体的に例をあげていうと、「知」の範列とは、「知識、知恵、知性、知見、学識、知能、知力、アイデア、ノウハウ、方法」等である。類似性の強度や意味において、様々の要素が考えられる。類似性の強度で言えば、「知識」、「知恵」は、「知」との類似性が強いが、「ノウハウ」、「方法」になってくると相対的に弱いと考えられる。また、「範列」の関連性を「類似性」に留めるのではなく、更に拡張して考えると、範列に該当する関連語は、意味で言えば、「同意/同義」、「類似」、「上位概念のインスタンス」、「属性」、「連想」、「反意」などに分類できる。なお、「上位概念のインスタンス」とは、例えば「知」の上位概念を(獲得すべき)「目的」ととると、「知行合一」の「行」が同列であると見て「行動、行い」、あるいは心技体の「技」に見立てて「心、技術、体」、真善美の「真」に見立てて「真、善、美」などを範列に加える考え方である。上位概念も様々に考えられる場合があるので、随意に決定していくことになる。属性とは、時、場所、理由、対象など5W1Hとして言われることであり、「生涯、学校、学問、勉強」などである。連想とは、「知」に対して「知」から連想しうる「知らせ、知人、公知、熟知、既知、認知、予知、関知」などである。反意とは、「知」に対して反対語としてみなすことのできる「情、感性、感覚、感情、武、武力」などである。すなわち、範列というのは、連辞を構成する各要素に対して同義であれ反意であれ、何かしらの関連を持つ語ということができる。「知識」は、「知」の同義的な関連語であり、「武力」は、「知」の反意的な関連語である。本発明では、文を連辞と見立て、文を構成する要素のうち適切な要素に対して範列を関係付けることにより、言い換えや合成などの操作を平易に可能とできるよう、文を拡大表現法を具体的に考案したものである。なお、本実施の形態では、各要素を文形成のためにつなげる要素(例えば、助詞)を除く名詞又は名詞化可能な要素を特に主要語と称することにする。なお、名詞化については、追って詳述する。
【0022】
次に、文の拡大表現についての基本的な概念について説明する。
【0023】
前述したように、例えば、「知の融合や演算を現実に実施する方法を提供する」という原文(例文1)と、「平日と祝日では電車のダイヤが違うことがあり、ときどき間違う」という原文(例文2)の演算を考えてみる。この2つの例文には、文字面での共通項がないため、このままでは処理のしようがない。そこで、2つの文を例えば名詞(名詞化した表現も含む)の集合にして、各名詞の関連語までを従わせる形で文を拡大表現すると、思いがけない演算が可能となる。上記例文をそれぞれ名詞の集合にすると(ここでは副詞も含めることにする)、「知、融合、演算、現実、実施、方法、提供」及び「平日、祝日、電車、ダイヤ、相違、ときどき、間違い」となるが、各集合を「知(知恵、知識、知能、知性)、融合(融和、合成)、演算(計算)、現実(実際)、実施(実行、施行、行動)、方法(手法、方式)、提供(供与、付与)」及び「平日、祝日(休日、祭日)、電車(列車、鉄道)、ダイヤ(ダイヤグラム、ダイヤモンド、美)、相違(差異)、ときどき(たまに、ときには)、間違い(誤り、過失、失態)」のように、各名詞が範列のうち同意/同義あるいは類似に該当する関連語(範列)を伴う形で拡大して表現しておくと(図1,図2参照)、2つの例文の接点を見出せる可能性が大きくなる。ただ、この例においては、この段階でもまだ接点を見出すことはできていないので演算を行うことはできない(図3参照)。
【0024】
しかし、「知」の関連語に、さらに、「行動、行い、心、技術、体、真、善、美、情、感性、感覚、感情、武、武力、知らせ、知人、公知、熟知、既知、認知、予知、関知、学問、勉強、学校」などを付与することによって表現を拡大すれば(付与する方法については後述する)、「知」の範列を構成する「美」と、「ダイヤ」の範列を構成する「美」とが1つの接点となり、2つの上記例文を関連付けることができる。また、例文2の「相違」に主語という関連で「意味、考え方、アプローチ、方法」などの語を範列に付加するのならば、「方法」がもう1つの接点となる。
【0025】
この結果、図4に示すように、演算結果の回答例の一つとして、例文2を拡大表現した「平日と祝日では電車の心が違うことがあり、ときどき間違う」を得ることができる。この回答例は、「美」と同様に「知」の範列の一つである「心」で例文2の「ダイヤ」を言い換えた例である。このように、必ずしも接点となった語で言い換える必要はない。
【0026】
また、他の回答例として、例文1及び例文2を拡大表現した「知の融合や演算を現実に実施する意味をときどき間違う」を得ることができる。この回答例は、例文1の「方法」と例文2の「相違」の範列である「方法」との語の位置で各例文を合成した例である。この合成例を概念的に記述すると、図5のようになる。すなわち、文Aにより表現された知Aは、主要語a1,a2,a3,a4,a5で構成され、文Bにより表現された知Bは、主要語b1,b2,b3,b4で構成されているとする。ここで、主要語a4の範列の一つに語c1が含まれており、一方、主要語b3の範列の一つにも語c1が含まれているとすると、語c1が接点となり、主要語a1,a2,a3,c1,b4(合成例)で構成される新たな知Cが生成されることになる。
【0027】
本発明においては、以上のように文を演算することができ、この演算によって新たに文(すなわち、拡大表現された文)を生成することができる。なお、上記説明では、2つの回答例を演算結果として示したが、範列の数からして想像できるように、この他にも数多くの演算結果を得ることができる。これにより、文間の類似性判定ならびに関連文書検索、更に人の発想を刺激することができる。また、2つの文の合成に留めるのではなく、3つ以上の文を合成することも可能である。このように、文を拡大表現できることによって、発想支援に限らず、種々の言語処理技術に役立てることができると考えられる。なお、拡大表現は、文の主要語に着目して行うため、単語に限定するのではなく、文節、文章あるいは段落などのまとまりでも、いくつかの主要語集合に展開できれば、同様に応用することは可能である。
【0028】
次に、本実施の形態における文の拡大表現の生成方法について説明する。図6は、ここで説明する生成方法を実施するために用いる文拡大表現生成装置のブロック構成図である。本実施の形態における文拡大表現生成装置は、文入力部2、拡大表現生成処理部4、拡大表現表示処理部6、更に拡大表現データベース8、自立語辞書10、名詞対応辞書12、各種集合辞書14を有している。文入力部2は、ユーザにより入力された文を受け付ける。拡大表現生成処理部4は、詳細は後述するように入力された文の拡大表現を生成し、拡大表現データベース8に登録する。拡大表現生成処理部4は、入力文に基づき連辞集合を生成する連辞集合生成部16と、連辞集合を構成する各主要語に対して関連語を対応付け、その対応付けた語を集合化する範列集合を生成する範列集合生成部18とを有している。拡大表現表示処理部6は、文の拡大表現を画面表示する。
【0029】
拡大表現データベース8には、上記の通り拡大表現生成処理部4が生成した文の拡大表現が蓄積される。また、自立語辞書10には自立語が蓄積された辞書であり、名詞対応辞書12には名詞でない語句を名詞で表現する際の語句が蓄積された辞書である。また、各種集合辞書14は、同意語/同義語、類語、上位概念のインスタンス、属性、連想、反意などの主要語の関連語となりうる語に関する知識が蓄積された辞書で形成される。各辞書は、いずれも範列集合を生成するときに用いられるので、本実施の形態では、便宜的に一つの辞書にまとめた図示した。
【0030】
なお、本実施の形態における文拡大表現生成装置は、オペレーティングシステムを搭載した汎用的なパーソナルコンピュータ(PC)で実現でき、搭載したCPUで本実施の形態で説明するプログラムを実行することで、上記構成要素2〜8が提供する処理機能を実現することになる。また、本実施の形態における文拡大表現生成装置のハードウェア構成は特に図示しないが、PCが一般的に有するCPU、メモリ、ハードディスク装置は本体に内蔵され、ディスプレイ、マウス、キーボードは本体に接続されているものとする。
【0031】
以下、本実施の形態における文の拡大表現の生成方法の手順の概要について図7に示したフローチャートを用いて説明する。
【0032】
文入力部2は、ユーザによりキー入力された文を入力する(ステップ100)。拡大表現生成処理部4の連辞集合生成部16は、その入力された文Sを主要語の集合(連辞集合)として表現する。すなわち、連辞集合生成部16は、入力された文Sから主要語を抽出して、連辞集合を生成する(ステップ200)。なお、主要語というのは、上記において定義したとおり、文を構成する要素のうち名詞である要素(名詞化された要素も含む)である。上記例文1でいうと、図1に示したように「知」、「融合」、「演算」、「現実」、「実施」、「方法」、「提供」がそれぞれ主要語となる。すなわち、この処理によって、例えば上記例文1が入力されたとき、図1に示した単語(名詞)による連辞表現20を得ることになる。すなわち、文Sは、次のように表現することができる。
【0033】
S={sp11 sp21 spn1}
但し、nは主要語の数である。
【0034】
次に、拡大表現生成処理部4の範列集合生成部18は、各主要語に対して関連語の集合(範列集合)を付与する。すなわち、範列集合生成部18は、各主要語に対して範列を関連付けることにより範列集合を生成する(ステップ300)。この処理によって、例えば上記例文1が入力されたとき、図1に示した連辞と範列による拡大表現22を得ることになる。すなわち、文Sは、次のように表現することができる。
【0035】
S=[Σ(i=1〜n)Σ(spij(j=1〜mk)]
Sを展開すると、以下のように表すことができる。
【0036】
但し、i,jは変数、mkのmはiであり、kは各主要語における範列の数である。範列集合において、一番左の列は連辞である。本実施の形態によれば、連辞は縦に並べ、範列は横に並べて表したことで極めてシンプルな表現形態とすることができる。
【0037】
拡大表現生成処理部4は、以上のようにして拡大表現した文Sを、拡大表現データベース8に登録する(ステップ400)。拡大表現データベース8は、例えば富士ゼロックス社製のソフトウェアである情報箱(登録商標)で実現できる。
【0038】
図8及び図9は、それぞれ拡大表現表示処理部6が拡大表現データベース8から上記例文1及び例文2の拡大表現を取り出し表示した画面例を示した図である。なお、各図には要部のみを示している。図8に示した表示画面例において、表示領域30には、文が拡大表現と共に登録されているデータベース名がリスト表示される。表示領域32には、表示領域30にリスト表示されたデータベースの中から選択されたデータベースに登録されている文がリスト表示される。この表示例では、選択された拡大表現データベースに「知の融合や・・・」と「平日と祝日で・・・」という上記例文1,2が登録されていることがわかる。入出力領域34には、表示領域32にリスト表示された文の中から選択された文が表示される。また、ユーザは、この入出力領域34から新たな文を入力することができる。文入力部2は、この入出力領域34に入力された文を受け付けることになる。入出力領域36には、入出力領域34に表示された文の拡大表現が表示される。すなわち、拡大表現表示処理部6は、表示領域30の中からいずれかのデータベースがユーザにより選択されると、そのデータベースに蓄積されている文を表示領域32にリスト表示し、そして、表示領域32の中からいずれかの文がユーザにより選択されると、その文に対応付けられた拡大表現を当該データベースから取り出して入出力領域36に表示することになる。詳細は追って説明するが、範列集合は、拡大表現生成処理部4によって自動的に生成されるが、ユーザがこの入出力領域36から任意の語を入力することができる。すなわち、拡大表現生成処理部4は、入出力領域36から入力された語を、対応する連辞の範列として拡大表現データベース8に登録することになる。各領域30〜36については、図9並びに他の画面表示例においても同様である。ここで、更に拡大表現表示処理部6における画面表示処理について説明する。
【0039】
例えば、図8及び図9に示したように拡大表現の入出力領域36において、連辞関係を縦に、範列関係を横に表現すると視覚的にも見やすくなる。特に、計算機処理を行うために、連辞集合に属する連辞(主要語)を各行の冒頭の語句とすることで、連辞関係を容易に把握できるように表示する。そして、関連する各主要語と同じ行に、カンマなどのデリミタで区切って範列関係を並べて表示する。範列集合を構成する関連語の先頭部分にはカンマは存在するが、主要語の先頭部分にはカンマは存在しない。このように拡大表現を表示すると、計算機解釈が楽であるばかりでなく、視覚的にも関係を把握しやすい。このように、拡大表現表示処理部6は、拡大表現データベース8から取り出した拡大表現を、拡大表現のデータベースへの格納形式に関係なく見やすい状態で表示することになる。
【0040】
また、範列については、様々なカテゴリーが考えられるが、例えば、同意語/同義語を「(同)」、類語を「(類)」、上位概念のインスタンスを「(イ)」、属性を「(属)」、連想語を「(連)」、反意語を「(反)」というデリミタで表し、関連度のスコアを制御する必要のあるときなどには、このデリミタを範列と共に表示する。この画面表示例を図10に示す。すなわち、拡大表現表示処理部6は、拡大表現データベース8から取り出した拡大表現を構成する各主要語と、各主要語に関連する各範列との関係、すなわち、同意語/同義語、類語、あるいは上位概念のインスタンス等の関係を各種集合辞書14を参照することによって取得する。そして、前述したデリミタを範列の並びの所定の位置(同一関係に属する範列の並びの先頭部分)に付加して表示する。このようにしておくことにより、直接テキストエディタで範列を編集する際にも、新たな語の挿入位置を特定しやすい。
【0041】
また、上記画面表示例では、主要語と範列、範列と範列の区切り記号として同じカンマを用いたが、それぞれを異なる区切り記号とすることで、主要語(連辞)と関連語(範列)とが、より一層識別しやすくなるように表示してもよい。あるいは、「知」と「融合」の間の「の」、「融合」と「演算」の間の「や」のように、各主要語の間には、通常、区切りとなる要素が存在するが、これらの要素を主要語に付加して表示することでも、主要語をより一層判別しやすくしてもよい。つまり、文節等に相当する区切りで各主要語を表示することになる。この画面表示例を図11に示す。なお、その他にも、主要語と関連語の表示領域を分けたり、あるいは表示色や輝度等の表示属性を異ならせることによって主要語と関連語とをそれぞれ識別可能に表示するようにしてもよい。
【0042】
更に、拡大表現表示処理部6が提供する他の表示機能の一例を図12に示す。図12には、拡大表現を構成する連辞又は範列のいずれかの要素を検索キーワードとして拡大表現データベース8を全文検索した結果を表示したときの表示例が示されている。図12は、「美」を検索キーワードとして検索した結果、「美」をそれぞれ拡大表現の中に含む上記例文1,2が該当したことになる。このように、拡大表現表示処理部6にキーワード検索機能を持たせ、かつデータベースをキーワード検索可能な構造で構築しておくことにより、拡大表現データベース8に蓄積された拡大表現間で、暗黙のリンクが張られていることになる。これを概念的に表したのが図13である。このことを言い換えると、入力指定された検索キーワード(主要語又は関連語)を含む文の拡大表現は、キーワード検索により抽出されることになるので、その抽出された文の拡大表現は、その検索キーワードによって関連付けられているということになる。前述の例に基づけば、「美」という語句による検索に該当した文は、図4に示したように「美」に基づき合成できる可能性があるということに他ならない。「美」は、また図5におけるc1に相当する。このように、あるキーワードによって文の連関が特定できるように文の拡大表現を拡大表現データベース8に登録しておけば、文の網を構成することができ、文の合成相手を容易にみつけることができる。
【0043】
なお、本実施の形態では、文の拡大表現を出力するための手段として拡大表現表示処理部6を設けて画面表示できるようにしたが、用紙等の媒体やファイル、あるいは文解析装置等他の装置へ所定のフォーマットにて出力したいのであれば、その要求に応じて文の拡大表現を出力するための手段を設ければよい。
【0044】
ここで、要素の名詞化について説明する。名詞の認定の方法は、辞書による場合と、漢字またはカタカナの一続きによって認定する方法がある。名詞化とは、例えば、形容詞である「美しい」を「美しさ」に変換すること、動詞である「実施する」を「実施」に変換することを示しているが、「美」や「実施」のように、漢字またはカタカナ部分だけを抽出して代替できる可能性も高いので、特別な辞書やアルゴリズムによらないでも名詞化を行うことは可能である。なお、名詞化がうまくできない場合には、スキップしても構わない。また、副詞は、名詞が転用する場合もあるので(例えば、「今日、学校に行った」の「今日」など)、名詞に限定せず副詞を連辞若しくは範列に加えることもできる。もちろん、目的によっては他の自立語まで範囲を広げたり、場合によっては付属語まで拡張してもよいが、名詞(しかも漢字かカタカナで表現されているもの)に限定すると、言語処理コストを小さくすることができる。
【0045】
次に、拡大表現生成処理部4の連辞集合生成部16における連辞集合の生成処理(図7のステップ200)の具体的処理について説明する。
【0046】
図14は、連辞集合生成処理を示したフローチャートである。図14では、図1に示した自立語辞書10、名詞対応辞書12を用いない場合の処理を示している。
【0047】
まず、ステップ211において、処理対象となる文をS、Sのサイズ(文字数)をNにそれぞれ代入し、また、抽出する主要語の数i及び処理対象とする文字の位置を示すjを1に初期化し、更に抽出した主要語を格納するEiをブランクで初期化する。また、文Sの中から主要語として抽出するストップ文字種(Schar)として漢字及びカタカナを設定する。なお、通常は、ストップ文字種として漢字及びカタカナを設定することが適切であると考えられるが、これに限定する必要はなく、処理対象とする文の種類(技術文献、文学等)によって適切と思われる文字種を設定すればよい。
【0048】
本実施の形態においては、主要語を、名詞又は名詞化された要素であり、かつストップ文字種に設定したように漢字あるいはカタカナで表現されている語句に限定している。従って、ステップ211以降の処理において、j番目の文字をチェックし、ストップ文字種である漢字あるいはカタカナに出くわしたところまで入力文Sを1文字ずつ最初からスキャンする(ステップ213,214)。そして、j番目の文字種がストップ文字種であったときには、その文字種が継続するところ(文字種が切り替わる直前の位置。例えば、漢字であれば漢字の並びが続く最後尾)までポインタをとばす。そして、ステップ215において、その間の文字列を主要語として認定し、Eiに代入することで抽出する。例えば、「実施する」という要素は、漢字部分の「実施」と名詞化され主要語として抽出される。また、「美しい」という要素は、漢字部分の「美」と名詞化され主要語として抽出される。jは、最後尾位置に1を加算し、iをインクリメントする。そして、ステップ212に戻る。このステップ213〜215を文字列の最後まで繰り返し行う(ステップ212)。このようにして抽出した主要語を連辞集合Mに保存する(ステップ216)。
【0049】
以上のように、ひらがな等の区切り文字で区切られた漢字列若しくはカタカナ列を一単語(名詞又は副詞)とみなし、その一単語を主要語として抽出するようにすれば、辞書を用いなくても極めて簡単な処理で連辞集合を生成することができる。
【0050】
ただ、図14に示した処理では、例えばひらがなで表現された主要語などは連辞集合に含ませることはできない。そこで、自立語辞書等を用いれば連辞抽出の精度を高めることが可能であるが、この辞書を用いる場合の連辞集合生成処理のフローチャートを図15に示す。以下、辞書を用いる場合の連辞集合生成処理について説明する。
【0051】
まず、ステップ221において、処理対象となる文をS、Sのサイズ(文字数)をNにそれぞれ代入し、また、抽出する主要語の数i及び処理対象とする文字の位置を示すjを1に初期化し、更に抽出した主要語を格納するEiをブランクで初期化する。そして、入力文Sを1文字ずつ最初からスキャンし、j番目の文字から始まる文字列が自立語辞書10に登録されていれば、それを主要語として抽出する(ステップ223,224)。なお、このステップ223における抽出処理は、辞書を用いない場合と異なり、例えば「美しい」などの自立語は「美しい」と自立語のまま抽出される。続いて、名詞対応辞書12を参照することによって、抽出した主要語の名詞化を図る。名詞対応辞書12を利用することによって、例えば「美しい」などの主要語は「美しさ」などに変換されて名詞化される。この名詞化された語句は、主要語として認定され、Eiとして抽出される(ステップ225)。一方、名詞対応辞書12を参照しても自立語を名詞化できないときには、抽出した自立語からストップ文字種である漢字あるいはカタカナの部分のみを抽出して名詞化する(ステップ226)。このようにして抽出した文字列を主要語として認定し、Eiに代入することで抽出する。なお、このステップ226における処理は辞書を用いない場合と同様の処理となる。すなわち、例えば「美しい」は、漢字部分のみが抽出されて「美」に変換されて名詞化される。以上の処理を文字Sに対して未処理の自立語がなくなるまで繰り返し行う(ステップ227,222)。このようにして抽出した主要語を連辞集合Mに保存する(ステップ228)。
【0052】
以上のように、辞書を用いることによってひらがな等の要素も主要語として抽出することができるので、より正確な連辞集合を生成することができる。この場合も図15から明らかなように複雑な処理は不要であり、よって連辞集合を安価に生成することができる。
【0053】
最後に、拡大表現生成処理部4の範列集合生成部18における範列集合の生成処理(図7のステップ300)の具体的処理について説明する。
【0054】
図16は、範列集合生成処理を示したフローチャートである。まず、ステップ311において、前述した連辞集合生成処理において生成した連辞集合のサイズ(主要語の数)をNに代入し、また、主要語の順番を示すiを1に初期化する。
【0055】
続いて、主要語を範列の並びの先頭に挿入する(ステップ312)。そして、各種集合辞書14から主要語の関連語を抽出して範列として設定する(ステップ314)。より具体的にいうと、例えば主要語が「知」であるとき、同意語/同異義語辞書を検索することによって「知」の同意語/同異義語を抽出する。図10に示した表示例に基づくと、「知」の同意語/同異義語として「知識、知恵、知性」が抽出される。また、類語集合辞書を検索することによって「知」の類語を抽出する。図10に示した表示例に基づくと、「知」の類語として「知らせ、知人、公知、熟知、既知、認知、予知、関知」が抽出される。各種集合辞書14に含まれている他の集合辞書に対しても同様に検索を行うことによって上位概念のインスタンス、属性、連想、反意という各種関連語を抽出し、「知」の範列として設定する。
【0056】
もし、集合辞書がない場合には、拡大表現データベース8を検索することによって既に構築してある拡大表現を利用するようにしてもよい。また、処理対象としている主要語を画面に表示して、テキストエディタなどでユーザが直接入力することも可能である。ユーザが直接入力できることについては、図8を用いてすでに説明している。また、範列の種類を明示するために、同意語/同義語を「(同)」、類語を「(類)」などのようにデリミタとして挿入してもよい。上記説明においては、拡大表現表示処理部6が表示する際に取り出した拡大表現にデリミタを挿入することについて説明したが、ここでは、拡大表現生成処理部4がデリミタを挿入してデータベース登録することになる。なお、範列を関連付けられない場合は、図9に示した「平日」のように範列なしでもかまわない。
【0057】
続いて、連辞集合に含まれている各主要語に対してステップ314に示した処理を行う(ステップ315)。そして、全ての主要語に対して関連語の抽出が終了すると、その抽出した関連語を範列として範列集合に保存する(ステップ316)。
【0058】
本実施の形態によれば、以上のようにして拡大表現を生成することができる。ユーザは、生成された拡大表現を、前述したように画面に表示することで確認することができる。拡大表現は、概念的に連辞は縦に並べ、範列は横に並べて表しており、また、画面表示するときもこの関係のまま表示するようにすれば、拡大表現のイメージをそのままシンプルに受け入れることができる。つまり、視覚的にわかりやすい。また、本実施の形態では、画面上から拡大表現をユーザに直接編集させることができるが、画面表示されたイメージは、縦は連辞、横は範列という簡単な規則に従いつくられているので、ユーザによる編集作業も比較的容易となる。更に、大掛かりな辞書を持たなくて拡大表現を生成することは可能である。
【0059】
本実施の形態における文拡大表現生成装置により生成された拡大表現は、図示及び説明していない文解析処理装置等に利用されることによって、図4や図5を用いて説明したような新たな知が生成されたりする。
【0060】
本発明の実施形態にかかるコンピュータ上で実行可能なプログラム(以下、単にプログラムという)及びコンピュータ読み取り可能な記録媒体(以下、単に記録媒体という)について説明する。ここで、記録媒体とは、コンピュータのハードウェア資源に備えられている読み取り装置に対して、プログラムの記述内容に応じて、磁気、光、電気等のエネルギーの変化状態を引き起こして、それに対応する信号の形式で、読み取り装置にプログラムの記述内容を伝達できるものである。かかる記録媒体としては、例えば、磁気ディスク、光ディスク、CD−ROM、コンピュータに内蔵されるメモリなどが該当する。
【0061】
記録媒体は、プログラムを記録するプログラム領域を備えており、このプログラム領域には、本プログラムが記録されている。
【0062】
記録媒体に記録されているプログラムは、上記実施の形態を実行するためのプログラムである。
【0063】
コンピュータは、読み取り装置と、オペレーティングシステム(OS)を常駐させた作業用メモリ(RAM)と、表示手段であるディスプレイと、入力手段であるマウス及びキーボードと、本プログラムの実行等を制御するCPUとを備えている。ここで、記録媒体が読み取り装置に挿入されると、記録媒体に記録された情報が読み取り装置からアクセス可能となり、記録媒体のプログラム領域に記録された本プログラムが、コンピュータによって実行可能となる。
【0064】
上記読み取り装置としては、記録媒体に対応して、フレキシブルディスクドライブ装置、CD‐ROMドライブ装置、あるいは磁気テープドライブ装置などが用いられる。
【0065】
【発明の効果】
本発明によれば、文の拡大表現を行うことができるようにしたことで、言い換え文生成、合成文生成、文類似性比較、関連文検索等の容易化を図ることができる。
【0066】
また、文がどのように拡大表現されているか、その表現を視覚的に容易に確認することができ、修正や追加、削除などの編集も容易になる。
【0067】
また、拡大表現文をデータベースに登録することにより、文から拡大表現を新たに作成することに参照させることができる。つまり、既存の拡大表現を有効利用させることで、文の拡大表現をより容易に、また安価に生成することができる。
【図面の簡単な説明】
【図1】本実施の形態において例文1の連辞と範列による拡張表現例を示した概念図である。
【図2】本実施の形態において例文2の連辞と範列による拡張表現例を示した概念図である。
【図3】本実施の形態において例文1と例文2の演算を示した概念図である。
【図4】本実施の形態において例文1と例文2の演算結果として得られた文の例を示した概念図である。
【図5】本実施の形態において知の合成による知を生成を示した概念図である。
【図6】本実施の形態における文拡大表現生成装置のブロック構成図である。
【図7】本実施の形態における文の拡大表現の生成方法の手順を示したフローチャートである。
【図8】本実施の形態における文の拡大表現を表示したときの画面例を示した図である。
【図9】本実施の形態における文の拡大表現を表示したときの画面例を示した図である。
【図10】本実施の形態における文の拡大表現を表示したときの他の画面例を示した図である。
【図11】本実施の形態における文の拡大表現を表示したときの他の画面例を示した図である。
【図12】本実施の形態においてキーワード検索をした結果を表示したときの画面例を示した図である。
【図13】本実施の形態においてキーワードにより拡大表現が関連付けられてデータベース登録されていることを示した概念図である。
【図14】本実施の形態における辞書を用いないときの連辞集合生成処理を示したフローチャートである。
【図15】本実施の形態における辞書を用いるときの連辞集合生成処理を示したフローチャートである。
【図16】本実施の形態における範列集合生成処理を示したフローチャートである。
【符号の説明】
2 文入力部、4 拡大表現生成処理部、6 拡大表現表示処理部、8 拡大表現データベース、10 自立語辞書、12 名詞対応辞書、14 各種集合辞書、16 連辞集合生成部、18 範列集合生成部、20 連辞表現、22 拡大表現、30,32 表示領域、34,36 入出力領域。
Claims (11)
- 文を、文に含まれている主要語の集合として表すとともに、各主要語に対して当該主要語の関連語を対応付け、その対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として示すことを特徴とする文の拡大表現方法。
- 請求項1記載の文の拡大表現方法であって、
前記主要語及び前記関連語は、名詞あるいは名詞化された語句であることを特徴とする文の拡大表現方法。 - 請求項1記載の文の拡大表現方法であって、
前記主要語と前記関連語とは、それぞれ識別可能に表示されることを特徴とする文の拡大表現方法。 - 請求項1記載の文の拡大表現方法であって、
前記文の拡大表現は、入力指定された語を前記主要語又は前記関連語として含む文の連関が特定できるようにデータベースに登録されていることを特徴とする文の拡大表現方法。 - 入力された文から主要語を抽出するステップと、
抽出された各主要語に対して、当該主要語の関連語を対応付ける関連語設定ステップと、
対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として示すステップと、
を含むことを特徴とする文の拡大表現生成方法。 - 請求項5記載の文の拡大表現生成方法であって、
前記関連語設定ステップは、関連語に関する知識が蓄積された辞書に基づき各主要語と、当該主要語の関連語とを対応付けることを特徴とする文の拡大表現生成方法。 - 請求項5記載の文の拡大表現生成方法であって、
前記関連語設定ステップは、各主要語に対して、ユーザにより入力された語を、当該主要語の関連語として対応付けることを特徴とする文の拡大表現生成方法。 - 請求項5記載の文の拡大表現生成方法であって、
前記関連語設定ステップは、他の文の拡大表現においてすでに関連付けられている主要語と関連語との対応付けを用いることを特徴とする文の拡大表現生成方法。 - 文を入力する文入力手段と、
入力された文から主要語を抽出すると共に、抽出された各主要語に対して当該主要語の関連語を対応付け、その対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として生成する拡大表現生成処理手段と、
生成された文の拡大表現を出力するユーザインタフェース手段と、
を有することを特徴とする文の拡大表現生成装置。 - 請求項9記載の文の拡大表現生成装置であって、
前記拡大表現生成処理手段は、
入力された文から主要語を抽出し集合化することによって主要語集合を生成する主要語集合生成部と、
前記主要語集合に含まれる各主要語に対して、当該主要語の関連語を対応付け、その対応付けられた主要語と関連語を含む関連語集合を生成する関連語集合生成部と、
を有することを特徴とする文の拡大表現生成装置。 - コンピュータを、
文を入力する文入力手段と、
入力された文から主要語を抽出すると共に、抽出された各主要語に対して当該主要語の関連語を対応付け、その対応付けした前記主要語及び前記関連語の集合を当該文の拡大表現として生成する拡大表現生成処理手段と、
生成された文の拡大表現を出力するユーザインタフェース手段
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003027838A JP2004240605A (ja) | 2003-02-05 | 2003-02-05 | 文の拡大表現方法、文の拡大表現生成方法および文の拡大表現生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003027838A JP2004240605A (ja) | 2003-02-05 | 2003-02-05 | 文の拡大表現方法、文の拡大表現生成方法および文の拡大表現生成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004240605A true JP2004240605A (ja) | 2004-08-26 |
Family
ID=32955453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003027838A Pending JP2004240605A (ja) | 2003-02-05 | 2003-02-05 | 文の拡大表現方法、文の拡大表現生成方法および文の拡大表現生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004240605A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007060780A1 (ja) * | 2005-11-22 | 2007-05-31 | Nec Corporation | 発想支援装置、発想支援方法および発想支援用プログラム |
US7877699B2 (en) | 2005-09-20 | 2011-01-25 | Fuji Xerox Co., Ltd. | Multilayered task supporting apparatus and method for supporting multilayered task |
-
2003
- 2003-02-05 JP JP2003027838A patent/JP2004240605A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877699B2 (en) | 2005-09-20 | 2011-01-25 | Fuji Xerox Co., Ltd. | Multilayered task supporting apparatus and method for supporting multilayered task |
WO2007060780A1 (ja) * | 2005-11-22 | 2007-05-31 | Nec Corporation | 発想支援装置、発想支援方法および発想支援用プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Habash et al. | MADA+ TOKAN: A toolkit for Arabic tokenization, diacritization, morphological disambiguation, POS tagging, stemming and lemmatization | |
Maynard et al. | Architectural elements of language engineering robustness | |
US20070219773A1 (en) | Syntactic rule development graphical user interface | |
JP2006004399A (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
Abdurakhmonova et al. | Linguistic functionality of Uzbek Electron Corpus: uzbekcorpus. uz | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
Antony et al. | A survey of advanced methods for efficient text summarization | |
Chen et al. | A computer-assistance learning system for emotional wording | |
Krstev et al. | An approach to efficient processing of multi-word units | |
Athukorala et al. | Swa Bhasha: Message-Based Singlish to Sinhala Transliteration | |
JP2004240605A (ja) | 文の拡大表現方法、文の拡大表現生成方法および文の拡大表現生成装置 | |
JPH11238051A (ja) | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 | |
Costello et al. | Dragonfly: Advances in non-speaker annotation for low resource languages | |
JP4643183B2 (ja) | 翻訳装置および翻訳プログラム | |
Chan | Concordancers and concordances: Tools for Chinese language teaching and research | |
Nurgazina et al. | COMPARATIVE ANALYSIS OF TRANSLATION ALGORITHMS FROM TEXT TO SIGN LANGUAGE | |
Rodrigues et al. | Arabic data science toolkit: An api for arabic language feature extraction | |
Pretorius et al. | Finite-state computational morphology-treatment of the zulu noun | |
Song | Sentence-final particle vs. sentence-final emoji: The syntax-pragmatics interface in the era of CMC | |
US20230169257A1 (en) | Device for generating combined sentences of images and characters | |
Al Etaiwi et al. | Arabic Text Semantic Graph Representation | |
Bakari et al. | Towards an Automatic Text Comprehension for the Arabic Question-Answering: Semantic and Logical Representation of Texts | |
JPH1145249A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Minjun et al. | Towards Understanding and Applying Chinese Parsing using Cparser | |
JP2819766B2 (ja) | 外国語電子辞書検索方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070806 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070911 |