JP3618931B2

JP3618931B2 - ワード処理システムおよびワード処理方法

Info

Publication number: JP3618931B2
Application number: JP29252096A
Authority: JP
Inventors: 誠時田
Original assignee: 有限会社特許情報出版
Priority date: 1996-11-05
Filing date: 1996-11-05
Publication date: 2005-02-09
Anticipated expiration: 2016-11-05
Also published as: JPH10134077A

Description

【０００１】
【発明の属する技術分野】
本発明はワード処理を行うためのワード処理システムおよびワード処理方法に関する。
【０００２】
【従来の技術】
特許情報に代表される技術文献の検索を行なう際には、従来から１つまたは複数のキーワードを選定し、これらと一致する技術内容を抽出することによって行なっている。このような処理では、キーワードとして適切な単語あるいはワード（以下単にワードという。）を抽出することが重要である。したがって、例えばある文献に関連する技術文献を抽出するといった処理を行なう場合には、検索対象となる文献の内容を良く読んで理解し、適切なキーワードを選択する必要があった。このためには、検索対象となる文献を十分理解できる技術者の存在が必要とされる。したがって、各種の技術について検索を行なう部署では、それぞれの技術に対応できる人材を確保する必要があり、検索に要する人件費を高騰させるという問題があった。
【０００３】
また、このような技術文献の検索に限らず、一般に関連する情報の検索を行なう場合には、１つの適切なキーワードを特定しても、そのキーワードに類似する類語としてのキーワードをも用意しなければ十分な検索を行なうことができないという問題もあった。例えば「コンピュータ」という用語に対しては、「パーソナルコンピュータ」、「パソコン」、「電子計算機」、「ＣＰＵ」、「マイクロプロセッサ」等の多くの類語がある。したがって、検索対象を漏れなく抽出するためには、類語も考慮した上でキーワードを設定する必要があり、このためには検索対象の分野について十分熟知した者の存在が必要とされることはもちろんのこと、類語を可能な限り抽出する努力が必要とされた。
【０００４】
特公平７−４０２６７号（特開平１−１０６１８８号公報）には、入力した用語の最も上位の概念を自動的に抽出するようにしたワードプロセッサについての技術が開示されている。この技術では、同種の概念の複数の用語を上位概念から下位概念へツリー状に関連付けて構成した意味階層辞書を用意している。そして、下位概念で書かれた文章をこのツリーを用いて上位概念に書き換えることで、特許明細書の作成等に便宜を図っている。
【０００５】
【発明が解決しようとする課題】
このようにあるワードに対して上位概念のワードを拾い出すことは類語の抽出の１つの方法として有効である。しかしながら、上位概念のワードを拾い出してこれをキーワードに選択しても、色々な下位概念のワードを使用している情報を有効に抽出することはできない。また、特公平７−４０２６７号に開示された技術では、上位概念から下位概念に至るワードをツリー構造化して用意しておく必要がある。このため、作成した辞書の範囲内でなければ上位概念あるいは下位概念のワードをキーワードとして拾い出すことができず、新しい技術内容についてキーワードを選択するような場合のように辞書にないワードについては全く用をなさないことになる。
【０００６】
すなわち、この技術では新しい技術を表わした用語のような新語に対応することができず、また、辞書の改定を頻繁に行なう必要があるので、辞書の作成者に過度の負担を強いるばかりでなく、その辞書を搭載してワードの処理を行なおうとするワード処理システムの利用者も経済的にかなりの出費を強いられることになる。更に、各種情報について類語や上位あるいは下位概念の語句を予め定義したシソーラスまでも必要となるとすると、辞書が巨大化してしまう。この結果、辞書の検索にかなりの時間を要することになって、ワード処理システムの処理効率を低下させるばかりでなく、システムを構成するＣＰＵ（中央処理装置）を高速のものとしたりメモリとして大容量のものを使用する必要が生じて、結局、高価な使いづらいシステムとなってしまうという問題があった。
【０００７】
更に従来のワード処理システムでは、検索の対象となる情報を格納した記憶媒体は、例えば特許出願の公開公報の内容を格納したＣＤ−ＲＯＭのように技術情報のみを格納していた。このため、技術情報の検索を行なう場合には、検索用の処理手順としてのソフトウェアを別に必要としていた。したがって、ソフトウェアを別途購入する必要があるばかりか、検索対象の情報に最も適したソフトウェアを個別に用意する必要があるといった問題もあった。
【０００９】
そこで本発明の第１の目的は、あるワードに関連する類語としてのワードを簡易に取得することのできるワード処理システムおよびワード処理方法を提供することにある。
【００１０】
本発明の第２の目的は、所望のワード処理を簡易に実現できるワード処理システムおよびワード処理方法を提供することにある。
【００１１】
【課題を解決するための手段】
請求項１記載の発明では、（イ）関連語を求めようとするワードを指定するワード指定手段と、（ロ）このワード指定手段によって指定されたワードの直前に位置するワードとしての前方語を所定の文章中から抽出する前方語抽出手段と、（ハ）ワード指定手段によって指定されたワードの直後に位置するワードとしての後方語を所定の文章中から抽出する後方語抽出手段と、（ニ）ワード処理の対象となる文章を指定する文章指定手段と、（ホ）この文章指定手段によって指定された文章中で前方語抽出手段と後方語抽出手段によって抽出された前方語と後方語によって挟まれたワードをワード指定手段によって指定されたワードの関連語として出力する関連語出力手段とをワード処理システムに具備させる。
【００２０】
すなわち請求項１記載の発明では、あるワードに類似したり概念が共通する関連語を抽出するためのもので、そのワードと合成されたりそのワードの直前や直後に存在するワードが他の文書等でどのようなワードと結合したり、どのようなワードの直前や直後に存在するかによって、関連語を抽出するようにしている。
【００２１】
請求項２記載の発明では、請求項１記載のワード処理システムで関連語出力手段によって出力された関連語についてそれらの出現頻度を算出する出現頻度算出手段と、この出現頻度算出手段によって所定の頻度以上とされた関連語を確度の高い関連語として選別する高確度関連語選別手段とをワード処理システムに具備させている。
【００２２】
すなわち、請求項２記載の発明では、関連語として抽出されたものの中から出現頻度算出手段によって所定の頻度以上とされた関連語を確度の高い関連語とすることによって、関連語の抽に出際するノイズの影響を減少させるようにしている。
【００２３】
請求項３記載の発明では、（イ）ワード処理の対象となる文章が指定されたときのこの文章を構成するワードをワード抽出手段を用いて順に抽出するワード抽出ステップと、（ロ）このワード抽出ステップによって抽出されたそれぞれのワードの中から関連語を求める対象としての特定ワードを特定ワード検索手段を用いて検索する特定ワード検索ステップと、（ハ）ワード抽出ステップによって抽出された一連のワードのうちで特定ワード検索ステップによって検索された特定ワードの直前に位置するワードとしての前方語を前方語抽出手段を用いて抽出する前方語抽出ステップと、（ニ）ワード抽出ステップによって抽出された一連のワードのうちで前記した特定ワード検索ステップによって検索された特定ワードの直後に位置するワードとしての後方語を後方語抽出手段を用いて抽出する後方語抽出ステップと、（ホ）ワード抽出ステップによって抽出された一連のワードの中から、前方語抽出ステップおよび後方語抽出ステップによってそれぞれ抽出された前方語と後方語のそれぞれ１つずつによって挟まれたワードを関連語抽出手段を用いて抽出して前記した特定ワードの関連語とする関連語抽出ステップとをワード処理方法に具備させる。
【００２４】
すなわち請求項３記載の発明では、ワード処理システムで関連語を抽出する所定のステップをワード処理方法として表わしている。
【００２６】
【発明の実施の形態】
【００２７】
【実施例】
以下実施例につき本発明を詳細に説明する。
【００２８】
図１は本発明の一実施例におけるワード処理システムの構成を表わしたものである。このワード処理システムは、パーソナルコンピュータ本体１１と、これにデータの入力を行なうキーボード１２およびポインティング・デバイスとしてのマウス１３と、所定のデータを出力するためのプリンタ１４やディスプレイ（モニタ）１５から構成されている。パーソナルコンピュータ本体１１は、図示しないが磁気ディスクを内蔵しており、ここに本実施例のワード処理システムを実現するための処理手順を示すプログラムが格納されている。また、フロッピーディスクドライバ１７やＣＤドライバ１８を備えている。これらのシステム構成装置を載置した机２１の上には、検索対象としての特許情報検索用ＣＤ（コンパクトディスク）−ＲＯＭ（リード・オンリ・メモリ）２２が載置されている。
【００２９】
このように本実施例のワード処理システムは、特許情報の検索を行なうためのシステムとして構成されているが、操作者が図示しない医学情報検索用ＣＤ−ＲＯＭを使用するとすれば、このワード処理システムは医学情報の検索システムとして直ちに利用することができる。すなわち、本実施例の特許情報検索用ＣＤ−ＲＯＭ２２あるいは図示しない医学情報検索用ＣＤ−ＲＯＭはそれぞれ検索用の処理手順（プログラム）を格納する領域を有しており、パーソナルコンピュータ本体１１はＣＤドライバ１８によってこの領域に格納された処理手順を読み出して実行することで、同一のＣＤ−ＲＯＭに格納された特許情報等の情報の検索を可能にしている。
【００３０】
図２は、パーソナルコンピュータ本体の回路構成の概要を表わしたものである。このパーソナルコンピュータ本体１１はＣＰＵ３１を搭載している。ＣＰＵ３１は、データバス等のバス３２を介して装置内の各部と接続されている。このうちＲＯＭ３３はこのコンピュータ本体を初期的に立ち上げるためのプログラムやその他の固定的なデータを格納したリード・オンリ・メモリである。ＲＡＭ３４は、実行すべきプログラムやそのプログラムの実行時に必要となる各種データを一時的に格納するランダム・アクセス・メモリである。入力回路３５はデータの入力を行なうための回路であり、本実施例ではマウス１３を接続したキーボード１２と接続されている。装置によってはマウス１３が入力回路３５に直接接続される形態をとっていてもよい。また、マウス１３以外に他のポインティング・デバイスが使用されるものであってもよい。
【００３１】
磁気ディスクドライバ３７は、磁気ディスク３８にデータを書き込んだり読み出すための制御回路である。ここで磁気ディスク３８には、例えば各種制御のためのプログラムが格納されている。フロッピーディスクドライバ１７は、フロッピーディスク３９に対してデータを書き込んだり読み出すための制御回路である。本実施例では例えば検索結果をフロッピーディスクに格納することができる。ＣＤドライバ１８は特許情報検索用ＣＤ−ＲＯＭ２２等のＣＤからデータの読み出しを行なうようになっている。ディスプレイドライバ４１はディスプレイ１５に表示用のデータを入力する回路である。プリンタドライバ４２はプリンタ１４の制御を行なうための回路である。
【００３２】
図３は、本実施例の特許情報検索用ＣＤ−ＲＯＭのデータ格納状態を原理的に表わしたものである。特許情報検索用ＣＤ−ＲＯＭ２２には、特許公報としての情報をデータ化した特許公報データベース５１が主とし格納されているが、その一部の領域には、ワード処理用付属データ５２が格納されている。本実施例でワード処理用付属データ５２とは、特許公報データベース５１を検索するために用意したプログラムと、後に説明する長語を分解するためのワード（長語分離用ワード）から構成されている。このように特許情報検索用ＣＤ−ＲＯＭ２２ごとにワード処理用付属データ５２が付属している。したがって、オペレータがこの特許情報検索用ＣＤ−ＲＯＭ２２を図１に示したパーソナルコンピュータ本体１１あるいは他のどんな形式のコンピュータでも、それらのＣＤドライバにセットすれば、特別の追加的なプログラムを必要とすることなく、ワード処理を行なうことができる。すなわち、コンピュータおよびその周辺機器を直ちに特別のワード処理システムとして構成することができる。
【００３３】
もちろん、本実施例と異なり、特許情報検索用ＣＤ−ＲＯＭ２２には特許公報データベース５１のみを格納することも可能である。この場合には、ワード処理用付属データ５２は例えば他のＣＤ−ＲＯＭあるいはフロッピーディスクからパーソナルコンピュータ本体１１に予めインストールしておき、これを磁気ディスク３８に格納することにより、同様のワード処理システムを構築することが可能である。
【００３４】
図４は、本実施例のワード処理システムでＣＤ−ＲＯＭをパーソナルコンピュータ本体にセットした際の処理の様子を表わしたものである。図２に示したＣＰＵ３１は、ＣＤドライバ１８に新たなＣＤがセットされるのを監視している（ステップＳ１０１）。特許情報検索用ＣＤ−ＲＯＭ２２がこれにセットされると（Ｙ）、ＣＰＵ３１は直前にセットされたＣＤ−ＲＯＭと同一であるかどうかのチェックを行なう（ステップＳ１０２）。これは、全く同一シリーズの特許情報検索用ＣＤ−ＲＯＭ２２が相次いでセットされる状況が存在しうる点に着目して、ワード処理用付属データ５２が同一のものであれば、その格納の作業を省略することで処理の高速化を図るためのものである。ワード処理用付属データ５２が同一のものであるかどうかは特許情報検索用ＣＤ−ＲＯＭ２２に格納されている識別情報を照合することによって行なうことができる。
【００３５】
同一プログラムの特許情報検索用ＣＤ−ＲＯＭ２２でなければ、ワード処理用付属データ５２がＣＤドライバ１８によって読み出され、その内容がＲＡＭ３４に格納される（ステップＳ１０３）。磁気ディスク３８に格納されてもよい。ＣＰＵ３１は、ＲＡＭ３４に格納されたワード処理用のプログラムを実行して（ステップＳ１０４）、オペレータの希望するワード処理を行なうことになる。これに対して、ワード処理用付属データ５２が前回のものと同一である場合には（ステップＳ１０３；Ｙ）、ワード処理用の同一のプログラムがすでに読み込まれているので、その実行が直ちに可能になる（ステップＳ１０４）。
【００３６】
図５は、ワード処理用プログラムを用いてある文献の所定の範囲に記述された内容からキーワードを取り出すまでの処理の流れを表わしたものである。まず、オペレータは検索の元になる文書を開く（ステップＳ２０１）。その文書が同一の特許情報検索用ＣＤ−ＲＯＭ２２内にあれば、その文書を特定して読み込み、その内容をディスプレイ１５に表示する。また、他の技術文献や開発設計のための資料あるいは他の媒体に格納された特許文献のようなものであれば、その文献の内容を格納したフロッピーディスク３９やＣＤ等の記憶媒体を別に用意して、該当する文書をパーソナルコンピュータ本体１１に読み込み、同様にその内容をディスプレイ１５に表示する。
【００３７】
このようにして該当の文書の内容がディスプレイ１５に表示されたら、オペレータはその中から検索に必要な範囲を指定する（ステップＳ２０２）。例えば特許公報には、書誌的な情報としての出願人や発明者およびそれらの住所が技術的な情報の検索に直接必要とされることが少ない。そこで、実施例で示すような特許出願の明細書に対して検索を行なうような場合には、必要としない記載箇所の存在する領域をオペレータがカットするようなかたちで範囲の指定が行なわれることになる。
【００３８】
図６は、検索の元となるある特許情報をディスプレイ上に表示した状態を表わしたものである。この特許情報６１で技術内容は、「要約」と書かれた箇所よりも下の「目的」あるいは「構成」という箇所に記載されているはずである。そこで、オペレータは例えば図１に示したマウス１３を操作してこれらの箇所を特定する形で枠６２を設定し、この中からキーワードを抽出するように装置を操作することになる。
【００３９】
図５に戻って説明する。このようにして検索の元となる文書の範囲の指定が行なわれたら、ワード処理システムは後に示すような処理手順によって自動的にキーワード検索を実行する（ステップＳ２０３）。そして、検索されたワードの一覧をディスプレイ１５上に表示することになる（ステップＳ２０４）。本実施例では、検索されたワードを出現率（頻度）でふるいにかけてノイズを除去し、所定の頻度以上のものを表示するようにしている。
【００４０】
なお、枠６２で設定された領域には、「目的」あるいは「構成」という語句が存在し、これらは要約書と呼ばれる箇所に典型的に現われるワードであって、検索の元となる特許情報６１に固有のものではない。このような形式的に現われるワードは、キーワードとは無関係なものである。例えばワード処理用のプログラムによっては、所定の配置関係でこれらのワードが出現するときに限って、これらをキーワードとしての検索の対象から外すようにすることも、もちろん可能である。既に説明したように、抽出されたワードを出現頻度でふるい分けるときには、「目的」あるいは「構成」というようなフォーマットとして使用される語句を検索の対象から特に除外しなくても、通常の場合にはこれらの出現頻度は小さいので、キーワードから除外されることになることが多い。
【００４１】
図７は、ステップＳ２０３で説明したキーワード検索を具体的に表わしたものである。まず、図６に示した枠６２内の文章中の１つまたは複数の連続した「平仮名」の部分を識別して、それらの部分を順次１つのカンマ（，）に置き換える（ステップＳ３０１）。このようにして、カンマで区切られたワードを抽出する。抽出されたワードは、図２に示したＲＡＭ３４の所定の一時格納領域に一旦格納される（ステップＳ３０２）。
【００４２】
図８は、図６に示した枠内の文章をカンマで区切って抽出したワードを表わしたものである。ここでは、更に数字の部分をキーワードの検索の対象から除去する処理を行なっている。これは、特許文献に登場する文章には部品等の名称に数字が付加している場合が多く、この例ではオペレータがこれらの数字自体をキーワードから除去することが適切であると判別したためである。
【００４３】
ところで、このようにして抽出されたワードの中には、複数のワードを合成した合成語が存在する。そこで、一時格納領域に格納したワードのそれぞれについて、予め設定した最小分離文字数を越えるかどうかをチェックして、越えるものについては、これを同じくＲＡＭ３４内に設定した長語分離用ワード格納領域に移す（ステップＳ３０３）。例えば図８に示した例で、最小分離文字数を７文字以上とすると、「画像非形成領域」というワードが長語分離用ワード格納領域に移される。また最小分離文字数を４文字以上とした場合には、同一の例の場合に、「感光体ドラム」，「画像非形成領域」，「受光素子」，「波長領域」，「分光感度」，「シアントナー」，「各受光素子」，「第１割算回路」，「演算結果」，「比較演算部」の各ワードが分割の対象となることになる。
【００４４】
特許情報検索用ＣＤ−ＲＯＭ２２には、前記したようにワード処理用付属データ５２が格納される領域があり、この領域に、特許情報検索用ＣＤ−ＲＯＭ２２の掲載対象とする技術についての最小分離文字数以下の典型的なワードが登録されている。このようなワードとしては、例えば「感光体」、「ドラム」、「カラートナー」、「画像」等のようにその特許情報検索用ＣＤ−ＲＯＭ２２に掲載されている特定の技術分野のワードとして比較的短い長さでかつ出現頻度の高いものの他、「各」、「第１」、「第２」、「入力側」、「出力側」、「制御回路」等のように一般的な技術文献あるいは一般的な文書に広く使用され、かつ比較的短い長さでかつ出現頻度の高いものを挙げることができる。
【００４５】
したがって、最小分離文字数が７文字以上の場合であって、特許情報検索用ＣＤ−ＲＯＭ２２に「画像」という単語が登録されていたとすると、「画像非形成領域」というワードは、「画像」と「非形成領域」という２つのワードに分離されることになる（ステップＳ３０４）。また、最小分離文字数が４文字以上に設定されている場合には、例えば「各受光素子」が「各」と「受光素子」のワードに、「第１割算回路」が「第１」と「割算回路」のワードにそれぞれ分離される。１回の分離作業で分離後のワードがまだ最小分離文字数を越える場合には、登録されている他の単語とそのワードの一部が一致するかどうかのチェックが更に継続して行なわれ、語長の短いワードに分解されることになる。この例には示していないが、例えば「第１感光体製造装置」というワードは、「第１」、「感光体」および「製造装置」というワードが特許情報検索用ＣＤ−ＲＯＭ２２に登録されているとすると、まず「第１」「感光体製造装置」という２つのワードに分離され、次に後者のワードが「感光体」と「製造装置」の２つのワードに更に分離されることになる。
【００４６】
このようにして分離された後のワードおよび分割できなかった語長の長いワードは、最小分離文字数よりも短いワードと共に、それらの出現頻度のカウントが行なわれる。例えば最小分離文字数が７文字以上の場合における分離処理後の「第１割算回路」というワードは枠６２内の文章中に５回登場しており、最も高い出現頻度となっている。予め定めた所定の出現頻度以下のワードはノイズとして除去し、残りのワード（一時格納領域に格納したワードと、長語分離用ワード格納領域に移されたワードであって分離後のワードおよび分離できなかったワード）をディスプレイ１５上にキーワードの候補として表示するためのワードとして設定する（ステップＳ３０５）。なお、キーワードを抽出するための枠６２が小さくて十分な頻度情報を得ることができないような場合には、頻度の高いものと低いものを区別することなく、すべてのワードをディスプレイ１５上に表示してもよいことはもちろんである。
【００４７】
図９は、以上の結果として、枠６２内の文章をワードに分離し、更に最小分離文字数が７文字以上の場合にこれを分割して、更に出現頻度が２回以上のものを検索されたワードとして抽出したものである。オペレータはこの表示された各ワードをキーワードとして直ちに目標とする文献のサーチを行なうこともできるが、一見して関係ないと思われるものを除外してワード処理を行なうこともできる。すなわち、図９に示した表示内容の中からワードの選択が必要かどうかの判別を行い（図５ステップＳ２０５）、必要な場合には（Ｙ）、マウス１３等の入力手段を使用してワードの選択を行い（ステップＳ２０６）、ワードの抽出処理を終了させる（エンド）。表示された内容そのもので文献のサーチを進めるような場合には（ステップＳ２０５；Ｎ）、そのままワード抽出についての処理を終了させることになる（エンド）。
【００４８】
抽出されたキーワードを用いて論理和や論理積等の論理を組んで特許文献のサーチを行なうことについては、一般的な技術なので、ここではその説明を省略する。
【００４９】
関連語の割り出しについて
【００５０】
ところで、図６に示したような特許情報６１を用いてこれと関連する文献の調査を行なうような場合には、その特許情報６１から直接抽出されたキーワードのみでなく、それらに関連する語あるいは類語（以下関連語という。）もキーワードに含めないと万全を期すことができない。例えばゼログラフィ方式の画像形成装置は、複写機、コピー機、電子写真装置等の他の名称で文献に使用されている場合があり、画像形成装置というキーワードだけでは同一の技術を検索できない可能性がある。この明細書で関連語とは、上位概念を表わした語や下位概念を表わした語、同義語および意味が関連する語をいう。
【００５１】
本実施例のワード処理システムでは、ある程度の文書量の文書から検索対象のワードの関連語を自動的に抽出することができる。これについて次に説明する。
【００５２】
図１０は、関連語を抽出する処理手順の要部を表わしたものである。まず、図２に示したＣＰＵ３１は関連語の抽出の元となる指定されたワードと連結された前方語と後方語をピックアップしてそれぞれをカウントする（ステップＳ４０１）。次に出現頻度の高い前方語を、ＲＡＭ３４に割り当てられた前方語記憶領域にセットする（ステップＳ４０２）。同様に、出現頻度の高い後方語を、ＲＡＭ３４に割り当てられた後方語記憶領域にセットする（ステップＳ４０３）。このようにして前方語と後方語がセットされたら、これらのワードで両側を挟まれるワードを抽出する（ステップＳ４０４）。この抽出されたワードが関連語としてディスプレイ１５に出力される（ステップＳ４０５）。この出力内容をプリンタ１４でプリントアウトすることも可能である。
【００５３】
以上の作業から了解されるように関連語を抽出するためには、まず関連語の抽出の元として指定するワードが、対象とされる文章中である程度出現頻度が高いことが、良好な抽出結果を得るために必要である。
【００５４】
図１１は、ある文章中で抽出されたワードとそれらの出現頻度を表わしたものである。本実施例で文章中からワードを抽出する方法は、「通常検索」と、「曖昧検索」を選択することができる。ここで「曖昧検索」とは、前方語や後方語が一致するものを含めて検索したり、大文字や小文字を区別しないで検索することをいう。本実施例では、「通常検索」を選択し、「Ｓｉ」というワードに対する関連語を抽出することにする。
【００５５】
この例では前方語と後方語について、それらの出現回数も表示されている。例えば「Ｐ型」というワードは、検索の結果として最も出現回数が高く、３１４回であり、「Ｎ型」というワードがこれに次いで２３１回である。関連語を調べる対象となっている「Ｓｉ」というワード（矢印で図示。）については、９１回の出現となっている。本発明では、後に説明するように関連語抽出の対象とするワードの前後のワードを抽出して、これらのワードを用いて関連語を抽出するようにしている。このため、出現度がある程度の数になっていることが、関連語を正確に抽出するために好ましい。
【００５６】
図１２は、「Ｓｉ」というワードに対する前方語と後方語ならびにこれらを用いて抽出される関連語を示したものである。ここで前方語情報とは、図８で示したように関連語を求める対象とする文書を順にワードに区切ったときに「Ｓｉ」というワードの直前に位置するワードをいう。また、後方語情報とは、このワードに区切った文書における「Ｓｉ」というワードの直後に位置するワードをいう。これらが１つのワードの一部を構成しているか否かは問われない。
【００５７】
図１３は、２つの特許文献「Ｐ５８−×××１」と「Ｐ５８−××１×」についてこれらを図８に示した手法で順にワードに分解した様子を表わしたものである。この図１３で黒塗りの三角（▲）で示したワードが「Ｓｉ」である。このワードのそれぞれ直前に位置するワード「非晶質」、「非晶質」、「分解」、「バッタ」……が前方語である。また、黒塗りの三角（▲）で示したワード「Ｓｉ」のそれぞれ直後に位置するワード「生成」、「Ｇｅ膜」、「Ａｒイオン」、「基板」、「非晶質」……が後方語である。これらについては、図１３でアンダーラインで示している。
【００５８】
図１２における「前方語情報」とは、前方語を順にカウントしていって、それらを出現頻度順に表わしたものである。ここでは「非晶質」というワードが３７回出現して最高となっている。また、「後方語情報」とは、後方語を順にカウントしていって、それらを出現頻度順に表わしたものである。ここでは「太陽電池」というワードが１６回現れて最高となっている。
【００５９】
このようにして求められた前方語は前方語記憶領域にセットされ、後方語は後方語記憶領域にセットされる。そして、前方語記憶領域にセットされたいずれかのワードと後方記憶領域にセットされたいずれかのワードとによって前方と後方で挟まれるワードを抽出する。
【００６０】
図１４は、このようにして求められた前方語と後方語を基にして、関連語を抽出する様子を表わしたものである。この図で三角（▲）で示したワードの前後に配置されたアンダーラインで示したワードが前方語と後方語であり、三角（▲）で示したワードがこれらによって抽出された関連語である。例えば「非晶質」という前方語と「太陽電池」という後方語に挟まれた「シリコン」というワードがワード「Ｓｉ」の関連語となる。同様にして、図１４に示した文献からは「珪素」というワードも「Ｓｉ」の関連語として抽出される。
【００６１】
図１２における「関連語情報」は、このようにして抽出された関連語の一覧を示したものである。なお、この図１２で「前方語情報」および「後方語情報」のうちの出現頻度の高いもの同士で挟まれた関連語は、これ以外の関連語として抽出されたものよりも確度が高い。本実施例では、このような高い確度のものに高いウエイトを付け、更に関連語として抽出された回数を掛け合わせて、その結果得られた数値の高いものから順に関連語情報として表示するようにしている。したがって、図１２の「関連語情報」では、上のものほど関連語として適する確率が高くなる。もちろん、関連語として抽出された回数を単純にカウントして、カウント値が多いものから順にディスプレイ１５に表示したり、プリンタ１４でその内容をプリントアウトするようにしてもよい。
【００６２】
以上説明した実施例では、文献および所定のプログラム等の固定的なデータをＣＤ−ＲＯＭに格納することにしたが、光ディスク、テープ等の他の記憶媒体に格納してもよいことはもちろんである。また、実施例では特許文献についてのワード処理を説明したが、他の技術文献あるいは一般的な資料に対しても本発明を適用することができる。更に本発明では、ＣＤ−ＲＯＭにワード処理のための所定のプログラムを格納することにしたが、このようなデータを文献や資料等の検索対象のデータとは別の記憶媒体に単独で格納するようにしてもよいことはもちろんである。
【００６３】
【発明の効果】
以上説明したように請求項１または請求項２記載の発明によれば、特定したワードの関連語を各文章で共通して使用するワード等をキーとして求めることにしたので、関連語の抽出が極めて容易になるばかりでなく、抽出した関連語を用いてワード処理を高精度に行なうことができる。
【００６７】
更に、請求項３記載の発明によれば、システム側に特別のプログラムを格納する必要なく、それぞれのワード処理に適した処理を簡単に実現することができる。また、記憶媒体にワードの分離等に必要なデータを格納しておくことにより、その記憶媒体の特殊性に応じたデータ処理を実現することができ、ワード処理をより円滑かつ確実なものとすることができる。
【図面の簡単な説明】
【図１】本発明の一実施例におけるワード処理システムの構成を示すシステム構成図である。
【図２】パーソナルコンピュータ本体の回路構成の概要を示すブロック図である。
【図３】本実施例の特許情報検索用ＣＤ−ＲＯＭのデータ格納状態を原理的に表わした説明図である。
【図４】本実施例のワード処理システムでＣＤ−ＲＯＭをパーソナルコンピュータ本体にセットした際の処理の様子を表わした流れ図である。
【図５】ワード処理用プログラムを用いてある文献の所定の範囲に記述された内容からキーワードを取り出すまでの処理の流れを表わした流れ図である。
【図６】ディスプレイ上に表示された検索の元となる特許情報の一例を示す平面図である。
【図７】ステップＳ２０３で説明したキーワード検索を具体的に表わした流れ図である。
【図８】図６に示した枠６２内の文章をカンマで区切って抽出したワードを表わした説明図である。
【図９】図６に示した枠６２内の文章をワードに分離し、更に最小分離文字数が７文字以上の場合にこれを分割して、更に出現頻度が２回以上のものを検索されたワードとして抽出した場合を示す説明図である。
【図１０】関連語を抽出する処理手順の要部を表わした流れ図である。
【図１１】ある文章中で抽出されたワードとそれらの出現頻度を表わした説明図である。
【図１２】Ｓｉというワードに対する前方語と後方語ならびにこれらを用いて抽出される関連語を示した説明図である。
【図１３】Ｓｉというワードに対する前方語と後方語が抽出される処理を具体的に示した説明図である。
【図１４】Ｓｉというワードの関連語を抽出する処理を具体的に示した説明図である。
【符号の説明】
１１パーソナルコンピュータ本体
１２キーボード
１３マウス
１５ディスプレイ（モニタ）
１８ＣＤドライバ
２２特許情報検索用ＣＤ−ＲＯＭ
３１ＣＰＵ
３４ＲＡＭ
３８磁気ディスク
５１特許公報データベース
５２ワード処理用付属データ
６１特許情報
６２枠

Claims

関連語を求めようとするワードを指定するワード指定手段と、
このワード指定手段によって指定されたワードの直前に位置するワードとしての前方語を所定の文章中から抽出する前方語抽出手段と、
前記ワード指定手段によって指定されたワードの直後に位置するワードとしての後方語を所定の文章中から抽出する後方語抽出手段と、
ワード処理の対象となる文章を指定する文章指定手段と、
この文章指定手段によって指定された文章中で前記前方語抽出手段と後方語抽出手段によって抽出された前方語と後方語によって挟まれたワードを前記ワード指定手段によって指定されたワードの関連語として出力する関連語出力手段
とを具備することを特徴とするワード処理システム。
前記関連語出力手段によって出力された関連語についてそれらの出現頻度を算出する出現頻度算出手段と、
この出現頻度算出手段によって所定の頻度以上とされた関連語を確度の高い関連語として選別する高確度関連語選別手段
とを具備することを特徴とする請求項１記載のワード処理システム。
ワード処理の対象となる文章が指定されたときのこの文章を構成するワードをワード抽出手段を用いて順に抽出するワード抽出ステップと、
このワード抽出ステップによって抽出されたそれぞれのワードの中から関連語を求める対象としての特定ワードを特定ワード検索手段を用いて検索する特定ワード検索ステップと、
前記ワード抽出ステップによって抽出された一連のワードのうちで特定ワード検索ステップによって検索された特定ワードの直前に位置するワードとしての前方語を前方語抽出手段を用いて抽出する前方語抽出ステップと、
前記ワード抽出ステップによって抽出された一連のワードのうちで前記特定ワード検索ステップによって検索された特定ワードの直後に位置するワードとしての後方語を後方語抽出手段を用いて抽出する後方語抽出ステップと、
前記ワード抽出ステップによって抽出された一連のワードの中から、前記前方語抽出ステップおよび後方語抽出ステップによってそれぞれ抽出された前方語と後方語のそれぞれ１つずつによって挟まれたワードを関連語抽出手段を用いて抽出して前記特定ワードの関連語とする関連語抽出ステップ
とを具備することを特徴とするワード処理方法。