JP3618931B2 - ワード処理システムおよびワード処理方法 - Google Patents
ワード処理システムおよびワード処理方法 Download PDFInfo
- Publication number
- JP3618931B2 JP3618931B2 JP29252096A JP29252096A JP3618931B2 JP 3618931 B2 JP3618931 B2 JP 3618931B2 JP 29252096 A JP29252096 A JP 29252096A JP 29252096 A JP29252096 A JP 29252096A JP 3618931 B2 JP3618931 B2 JP 3618931B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- backward
- extracted
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明はワード処理を行うためのワード処理システムおよびワード処理方法に関する。
【0002】
【従来の技術】
特許情報に代表される技術文献の検索を行なう際には、従来から1つまたは複数のキーワードを選定し、これらと一致する技術内容を抽出することによって行なっている。このような処理では、キーワードとして適切な単語あるいはワード(以下単にワードという。)を抽出することが重要である。したがって、例えばある文献に関連する技術文献を抽出するといった処理を行なう場合には、検索対象となる文献の内容を良く読んで理解し、適切なキーワードを選択する必要があった。このためには、検索対象となる文献を十分理解できる技術者の存在が必要とされる。したがって、各種の技術について検索を行なう部署では、それぞれの技術に対応できる人材を確保する必要があり、検索に要する人件費を高騰させるという問題があった。
【0003】
また、このような技術文献の検索に限らず、一般に関連する情報の検索を行なう場合には、1つの適切なキーワードを特定しても、そのキーワードに類似する類語としてのキーワードをも用意しなければ十分な検索を行なうことができないという問題もあった。例えば「コンピュータ」という用語に対しては、「パーソナルコンピュータ」、「パソコン」、「電子計算機」、「CPU」、「マイクロプロセッサ」等の多くの類語がある。したがって、検索対象を漏れなく抽出するためには、類語も考慮した上でキーワードを設定する必要があり、このためには検索対象の分野について十分熟知した者の存在が必要とされることはもちろんのこと、類語を可能な限り抽出する努力が必要とされた。
【0004】
特公平7−40267号(特開平1−106188号公報)には、入力した用語の最も上位の概念を自動的に抽出するようにしたワードプロセッサについての技術が開示されている。この技術では、同種の概念の複数の用語を上位概念から下位概念へツリー状に関連付けて構成した意味階層辞書を用意している。そして、下位概念で書かれた文章をこのツリーを用いて上位概念に書き換えることで、特許明細書の作成等に便宜を図っている。
【0005】
【発明が解決しようとする課題】
このようにあるワードに対して上位概念のワードを拾い出すことは類語の抽出の1つの方法として有効である。しかしながら、上位概念のワードを拾い出してこれをキーワードに選択しても、色々な下位概念のワードを使用している情報を有効に抽出することはできない。また、特公平7−40267号に開示された技術では、上位概念から下位概念に至るワードをツリー構造化して用意しておく必要がある。このため、作成した辞書の範囲内でなければ上位概念あるいは下位概念のワードをキーワードとして拾い出すことができず、新しい技術内容についてキーワードを選択するような場合のように辞書にないワードについては全く用をなさないことになる。
【0006】
すなわち、この技術では新しい技術を表わした用語のような新語に対応することができず、また、辞書の改定を頻繁に行なう必要があるので、辞書の作成者に過度の負担を強いるばかりでなく、その辞書を搭載してワードの処理を行なおうとするワード処理システムの利用者も経済的にかなりの出費を強いられることになる。更に、各種情報について類語や上位あるいは下位概念の語句を予め定義したシソーラスまでも必要となるとすると、辞書が巨大化してしまう。この結果、辞書の検索にかなりの時間を要することになって、ワード処理システムの処理効率を低下させるばかりでなく、システムを構成するCPU(中央処理装置)を高速のものとしたりメモリとして大容量のものを使用する必要が生じて、結局、高価な使いづらいシステムとなってしまうという問題があった。
【0007】
更に従来のワード処理システムでは、検索の対象となる情報を格納した記憶媒体は、例えば特許出願の公開公報の内容を格納したCD−ROMのように技術情報のみを格納していた。このため、技術情報の検索を行なう場合には、検索用の処理手順としてのソフトウェアを別に必要としていた。したがって、ソフトウェアを別途購入する必要があるばかりか、検索対象の情報に最も適したソフトウェアを個別に用意する必要があるといった問題もあった。
【0009】
そこで本発明の第1の目的は、あるワードに関連する類語としてのワードを簡易に取得することのできるワード処理システムおよびワード処理方法を提供することにある。
【0010】
本発明の第2の目的は、所望のワード処理を簡易に実現できるワード処理システムおよびワード処理方法を提供することにある。
【0011】
【課題を解決するための手段】
請求項1記載の発明では、(イ)関連語を求めようとするワードを指定するワード指定手段と、(ロ)このワード指定手段によって指定されたワードの直前に位置するワードとしての前方語を所定の文章中から抽出する前方語抽出手段と、(ハ)ワード指定手段によって指定されたワードの直後に位置するワードとしての後方語を所定の文章中から抽出する後方語抽出手段と、(ニ)ワード処理の対象となる文章を指定する文章指定手段と、(ホ)この文章指定手段によって指定された文章中で前方語抽出手段と後方語抽出手段によって抽出された前方語と後方語によって挟まれたワードをワード指定手段によって指定されたワードの関連語として出力する関連語出力手段とをワード処理システムに具備させる。
【0020】
すなわち請求項1記載の発明では、あるワードに類似したり概念が共通する関連語を抽出するためのもので、そのワードと合成されたりそのワードの直前や直後に存在するワードが他の文書等でどのようなワードと結合したり、どのようなワードの直前や直後に存在するかによって、関連語を抽出するようにしている。
【0021】
請求項2記載の発明では、請求項1記載のワード処理システムで関連語出力手段によって出力された関連語についてそれらの出現頻度を算出する出現頻度算出手段と、この出現頻度算出手段によって所定の頻度以上とされた関連語を確度の高い関連語として選別する高確度関連語選別手段とをワード処理システムに具備させている。
【0022】
すなわち、請求項2記載の発明では、関連語として抽出されたものの中から出現頻度算出手段によって所定の頻度以上とされた関連語を確度の高い関連語とすることによって、関連語の抽に出際するノイズの影響を減少させるようにしている。
【0023】
請求項3記載の発明では、(イ)ワード処理の対象となる文章が指定されたときのこの文章を構成するワードをワード抽出手段を用いて順に抽出するワード抽出ステップと、(ロ)このワード抽出ステップによって抽出されたそれぞれのワードの中から関連語を求める対象としての特定ワードを特定ワード検索手段を用いて検索する特定ワード検索ステップと、(ハ)ワード抽出ステップによって抽出された一連のワードのうちで特定ワード検索ステップによって検索された特定ワードの直前に位置するワードとしての前方語を前方語抽出手段を用いて抽出する前方語抽出ステップと、(ニ)ワード抽出ステップによって抽出された一連のワードのうちで前記した特定ワード検索ステップによって検索された特定ワードの直後に位置するワードとしての後方語を後方語抽出手段を用いて抽出する後方語抽出ステップと、(ホ)ワード抽出ステップによって抽出された一連のワードの中から、前方語抽出ステップおよび後方語抽出ステップによってそれぞれ抽出された前方語と後方語のそれぞれ1つずつによって挟まれたワードを関連語抽出手段を用いて抽出して前記した特定ワードの関連語とする関連語抽出ステップとをワード処理方法に具備させる。
【0024】
すなわち請求項3記載の発明では、ワード処理システムで関連語を抽出する所定のステップをワード処理方法として表わしている。
【0026】
【発明の実施の形態】
【0027】
【実施例】
以下実施例につき本発明を詳細に説明する。
【0028】
図1は本発明の一実施例におけるワード処理システムの構成を表わしたものである。このワード処理システムは、パーソナルコンピュータ本体11と、これにデータの入力を行なうキーボード12およびポインティング・デバイスとしてのマウス13と、所定のデータを出力するためのプリンタ14やディスプレイ(モニタ)15から構成されている。パーソナルコンピュータ本体11は、図示しないが磁気ディスクを内蔵しており、ここに本実施例のワード処理システムを実現するための処理手順を示すプログラムが格納されている。また、フロッピーディスクドライバ17やCDドライバ18を備えている。これらのシステム構成装置を載置した机21の上には、検索対象としての特許情報検索用CD(コンパクトディスク)−ROM(リード・オンリ・メモリ)22が載置されている。
【0029】
このように本実施例のワード処理システムは、特許情報の検索を行なうためのシステムとして構成されているが、操作者が図示しない医学情報検索用CD−ROMを使用するとすれば、このワード処理システムは医学情報の検索システムとして直ちに利用することができる。すなわち、本実施例の特許情報検索用CD−ROM22あるいは図示しない医学情報検索用CD−ROMはそれぞれ検索用の処理手順(プログラム)を格納する領域を有しており、パーソナルコンピュータ本体11はCDドライバ18によってこの領域に格納された処理手順を読み出して実行することで、同一のCD−ROMに格納された特許情報等の情報の検索を可能にしている。
【0030】
図2は、パーソナルコンピュータ本体の回路構成の概要を表わしたものである。このパーソナルコンピュータ本体11はCPU31を搭載している。CPU31は、データバス等のバス32を介して装置内の各部と接続されている。このうちROM33はこのコンピュータ本体を初期的に立ち上げるためのプログラムやその他の固定的なデータを格納したリード・オンリ・メモリである。RAM34は、実行すべきプログラムやそのプログラムの実行時に必要となる各種データを一時的に格納するランダム・アクセス・メモリである。入力回路35はデータの入力を行なうための回路であり、本実施例ではマウス13を接続したキーボード12と接続されている。装置によってはマウス13が入力回路35に直接接続される形態をとっていてもよい。また、マウス13以外に他のポインティング・デバイスが使用されるものであってもよい。
【0031】
磁気ディスクドライバ37は、磁気ディスク38にデータを書き込んだり読み出すための制御回路である。ここで磁気ディスク38には、例えば各種制御のためのプログラムが格納されている。フロッピーディスクドライバ17は、フロッピーディスク39に対してデータを書き込んだり読み出すための制御回路である。本実施例では例えば検索結果をフロッピーディスクに格納することができる。CDドライバ18は特許情報検索用CD−ROM22等のCDからデータの読み出しを行なうようになっている。ディスプレイドライバ41はディスプレイ15に表示用のデータを入力する回路である。プリンタドライバ42はプリンタ14の制御を行なうための回路である。
【0032】
図3は、本実施例の特許情報検索用CD−ROMのデータ格納状態を原理的に表わしたものである。特許情報検索用CD−ROM22には、特許公報としての情報をデータ化した特許公報データベース51が主とし格納されているが、その一部の領域には、ワード処理用付属データ52が格納されている。本実施例でワード処理用付属データ52とは、特許公報データベース51を検索するために用意したプログラムと、後に説明する長語を分解するためのワード(長語分離用ワード)から構成されている。このように特許情報検索用CD−ROM22ごとにワード処理用付属データ52が付属している。したがって、オペレータがこの特許情報検索用CD−ROM22を図1に示したパーソナルコンピュータ本体11あるいは他のどんな形式のコンピュータでも、それらのCDドライバにセットすれば、特別の追加的なプログラムを必要とすることなく、ワード処理を行なうことができる。すなわち、コンピュータおよびその周辺機器を直ちに特別のワード処理システムとして構成することができる。
【0033】
もちろん、本実施例と異なり、特許情報検索用CD−ROM22には特許公報データベース51のみを格納することも可能である。この場合には、ワード処理用付属データ52は例えば他のCD−ROMあるいはフロッピーディスクからパーソナルコンピュータ本体11に予めインストールしておき、これを磁気ディスク38に格納することにより、同様のワード処理システムを構築することが可能である。
【0034】
図4は、本実施例のワード処理システムでCD−ROMをパーソナルコンピュータ本体にセットした際の処理の様子を表わしたものである。図2に示したCPU31は、CDドライバ18に新たなCDがセットされるのを監視している(ステップS101)。特許情報検索用CD−ROM22がこれにセットされると(Y)、CPU31は直前にセットされたCD−ROMと同一であるかどうかのチェックを行なう(ステップS102)。これは、全く同一シリーズの特許情報検索用CD−ROM22が相次いでセットされる状況が存在しうる点に着目して、ワード処理用付属データ52が同一のものであれば、その格納の作業を省略することで処理の高速化を図るためのものである。ワード処理用付属データ52が同一のものであるかどうかは特許情報検索用CD−ROM22に格納されている識別情報を照合することによって行なうことができる。
【0035】
同一プログラムの特許情報検索用CD−ROM22でなければ、ワード処理用付属データ52がCDドライバ18によって読み出され、その内容がRAM34に格納される(ステップS103)。磁気ディスク38に格納されてもよい。CPU31は、RAM34に格納されたワード処理用のプログラムを実行して(ステップS104)、オペレータの希望するワード処理を行なうことになる。これに対して、ワード処理用付属データ52が前回のものと同一である場合には(ステップS103;Y)、ワード処理用の同一のプログラムがすでに読み込まれているので、その実行が直ちに可能になる(ステップS104)。
【0036】
図5は、ワード処理用プログラムを用いてある文献の所定の範囲に記述された内容からキーワードを取り出すまでの処理の流れを表わしたものである。まず、オペレータは検索の元になる文書を開く(ステップS201)。その文書が同一の特許情報検索用CD−ROM22内にあれば、その文書を特定して読み込み、その内容をディスプレイ15に表示する。また、他の技術文献や開発設計のための資料あるいは他の媒体に格納された特許文献のようなものであれば、その文献の内容を格納したフロッピーディスク39やCD等の記憶媒体を別に用意して、該当する文書をパーソナルコンピュータ本体11に読み込み、同様にその内容をディスプレイ15に表示する。
【0037】
このようにして該当の文書の内容がディスプレイ15に表示されたら、オペレータはその中から検索に必要な範囲を指定する(ステップS202)。例えば特許公報には、書誌的な情報としての出願人や発明者およびそれらの住所が技術的な情報の検索に直接必要とされることが少ない。そこで、実施例で示すような特許出願の明細書に対して検索を行なうような場合には、必要としない記載箇所の存在する領域をオペレータがカットするようなかたちで範囲の指定が行なわれることになる。
【0038】
図6は、検索の元となるある特許情報をディスプレイ上に表示した状態を表わしたものである。この特許情報61で技術内容は、「要約」と書かれた箇所よりも下の「目的」あるいは「構成」という箇所に記載されているはずである。そこで、オペレータは例えば図1に示したマウス13を操作してこれらの箇所を特定する形で枠62を設定し、この中からキーワードを抽出するように装置を操作することになる。
【0039】
図5に戻って説明する。このようにして検索の元となる文書の範囲の指定が行なわれたら、ワード処理システムは後に示すような処理手順によって自動的にキーワード検索を実行する(ステップS203)。そして、検索されたワードの一覧をディスプレイ15上に表示することになる(ステップS204)。本実施例では、検索されたワードを出現率(頻度)でふるいにかけてノイズを除去し、所定の頻度以上のものを表示するようにしている。
【0040】
なお、枠62で設定された領域には、「目的」あるいは「構成」という語句が存在し、これらは要約書と呼ばれる箇所に典型的に現われるワードであって、検索の元となる特許情報61に固有のものではない。このような形式的に現われるワードは、キーワードとは無関係なものである。例えばワード処理用のプログラムによっては、所定の配置関係でこれらのワードが出現するときに限って、これらをキーワードとしての検索の対象から外すようにすることも、もちろん可能である。既に説明したように、抽出されたワードを出現頻度でふるい分けるときには、「目的」あるいは「構成」というようなフォーマットとして使用される語句を検索の対象から特に除外しなくても、通常の場合にはこれらの出現頻度は小さいので、キーワードから除外されることになることが多い。
【0041】
図7は、ステップS203で説明したキーワード検索を具体的に表わしたものである。まず、図6に示した枠62内の文章中の1つまたは複数の連続した「平仮名」の部分を識別して、それらの部分を順次1つのカンマ(,)に置き換える(ステップS301)。このようにして、カンマで区切られたワードを抽出する。抽出されたワードは、図2に示したRAM34の所定の一時格納領域に一旦格納される(ステップS302)。
【0042】
図8は、図6に示した枠内の文章をカンマで区切って抽出したワードを表わしたものである。ここでは、更に数字の部分をキーワードの検索の対象から除去する処理を行なっている。これは、特許文献に登場する文章には部品等の名称に数字が付加している場合が多く、この例ではオペレータがこれらの数字自体をキーワードから除去することが適切であると判別したためである。
【0043】
ところで、このようにして抽出されたワードの中には、複数のワードを合成した合成語が存在する。そこで、一時格納領域に格納したワードのそれぞれについて、予め設定した最小分離文字数を越えるかどうかをチェックして、越えるものについては、これを同じくRAM34内に設定した長語分離用ワード格納領域に移す(ステップS303)。例えば図8に示した例で、最小分離文字数を7文字以上とすると、「画像非形成領域」というワードが長語分離用ワード格納領域に移される。また最小分離文字数を4文字以上とした場合には、同一の例の場合に、「感光体ドラム」,「画像非形成領域」,「受光素子」,「波長領域」,「分光感度」,「シアントナー」,「各受光素子」,「第1割算回路」,「演算結果」,「比較演算部」の各ワードが分割の対象となることになる。
【0044】
特許情報検索用CD−ROM22には、前記したようにワード処理用付属データ52が格納される領域があり、この領域に、特許情報検索用CD−ROM22の掲載対象とする技術についての最小分離文字数以下の典型的なワードが登録されている。このようなワードとしては、例えば「感光体」、「ドラム」、「カラートナー」、「画像」等のようにその特許情報検索用CD−ROM22に掲載されている特定の技術分野のワードとして比較的短い長さでかつ出現頻度の高いものの他、「各」、「第1」、「第2」、「入力側」、「出力側」、「制御回路」等のように一般的な技術文献あるいは一般的な文書に広く使用され、かつ比較的短い長さでかつ出現頻度の高いものを挙げることができる。
【0045】
したがって、最小分離文字数が7文字以上の場合であって、特許情報検索用CD−ROM22に「画像」という単語が登録されていたとすると、「画像非形成領域」というワードは、「画像」と「非形成領域」という2つのワードに分離されることになる(ステップS304)。また、最小分離文字数が4文字以上に設定されている場合には、例えば「各受光素子」が「各」と「受光素子」のワードに、「第1割算回路」が「第1」と「割算回路」のワードにそれぞれ分離される。1回の分離作業で分離後のワードがまだ最小分離文字数を越える場合には、登録されている他の単語とそのワードの一部が一致するかどうかのチェックが更に継続して行なわれ、語長の短いワードに分解されることになる。この例には示していないが、例えば「第1感光体製造装置」というワードは、「第1」、「感光体」および「製造装置」というワードが特許情報検索用CD−ROM22に登録されているとすると、まず「第1」「感光体製造装置」という2つのワードに分離され、次に後者のワードが「感光体」と「製造装置」の2つのワードに更に分離されることになる。
【0046】
このようにして分離された後のワードおよび分割できなかった語長の長いワードは、最小分離文字数よりも短いワードと共に、それらの出現頻度のカウントが行なわれる。例えば最小分離文字数が7文字以上の場合における分離処理後の「第1割算回路」というワードは枠62内の文章中に5回登場しており、最も高い出現頻度となっている。予め定めた所定の出現頻度以下のワードはノイズとして除去し、残りのワード(一時格納領域に格納したワードと、長語分離用ワード格納領域に移されたワードであって分離後のワードおよび分離できなかったワード)をディスプレイ15上にキーワードの候補として表示するためのワードとして設定する(ステップS305)。なお、キーワードを抽出するための枠62が小さくて十分な頻度情報を得ることができないような場合には、頻度の高いものと低いものを区別することなく、すべてのワードをディスプレイ15上に表示してもよいことはもちろんである。
【0047】
図9は、以上の結果として、枠62内の文章をワードに分離し、更に最小分離文字数が7文字以上の場合にこれを分割して、更に出現頻度が2回以上のものを検索されたワードとして抽出したものである。オペレータはこの表示された各ワードをキーワードとして直ちに目標とする文献のサーチを行なうこともできるが、一見して関係ないと思われるものを除外してワード処理を行なうこともできる。すなわち、図9に示した表示内容の中からワードの選択が必要かどうかの判別を行い(図5ステップS205)、必要な場合には(Y)、マウス13等の入力手段を使用してワードの選択を行い(ステップS206)、ワードの抽出処理を終了させる(エンド)。表示された内容そのもので文献のサーチを進めるような場合には(ステップS205;N)、そのままワード抽出についての処理を終了させることになる(エンド)。
【0048】
抽出されたキーワードを用いて論理和や論理積等の論理を組んで特許文献のサーチを行なうことについては、一般的な技術なので、ここではその説明を省略する。
【0049】
関連語の割り出しについて
【0050】
ところで、図6に示したような特許情報61を用いてこれと関連する文献の調査を行なうような場合には、その特許情報61から直接抽出されたキーワードのみでなく、それらに関連する語あるいは類語(以下関連語という。)もキーワードに含めないと万全を期すことができない。例えばゼログラフィ方式の画像形成装置は、複写機、コピー機、電子写真装置等の他の名称で文献に使用されている場合があり、画像形成装置というキーワードだけでは同一の技術を検索できない可能性がある。この明細書で関連語とは、上位概念を表わした語や下位概念を表わした語、同義語および意味が関連する語をいう。
【0051】
本実施例のワード処理システムでは、ある程度の文書量の文書から検索対象のワードの関連語を自動的に抽出することができる。これについて次に説明する。
【0052】
図10は、関連語を抽出する処理手順の要部を表わしたものである。まず、図2に示したCPU31は関連語の抽出の元となる指定されたワードと連結された前方語と後方語をピックアップしてそれぞれをカウントする(ステップS401)。次に出現頻度の高い前方語を、RAM34に割り当てられた前方語記憶領域にセットする(ステップS402)。同様に、出現頻度の高い後方語を、RAM34に割り当てられた後方語記憶領域にセットする(ステップS403)。このようにして前方語と後方語がセットされたら、これらのワードで両側を挟まれるワードを抽出する(ステップS404)。この抽出されたワードが関連語としてディスプレイ15に出力される(ステップS405)。この出力内容をプリンタ14でプリントアウトすることも可能である。
【0053】
以上の作業から了解されるように関連語を抽出するためには、まず関連語の抽出の元として指定するワードが、対象とされる文章中である程度出現頻度が高いことが、良好な抽出結果を得るために必要である。
【0054】
図11は、ある文章中で抽出されたワードとそれらの出現頻度を表わしたものである。本実施例で文章中からワードを抽出する方法は、「通常検索」と、「曖昧検索」を選択することができる。ここで「曖昧検索」とは、前方語や後方語が一致するものを含めて検索したり、大文字や小文字を区別しないで検索することをいう。本実施例では、「通常検索」を選択し、「Si」というワードに対する関連語を抽出することにする。
【0055】
この例では前方語と後方語について、それらの出現回数も表示されている。例えば「P型」というワードは、検索の結果として最も出現回数が高く、314回であり、「N型」というワードがこれに次いで231回である。関連語を調べる対象となっている「Si」というワード(矢印で図示。)については、91回の出現となっている。本発明では、後に説明するように関連語抽出の対象とするワードの前後のワードを抽出して、これらのワードを用いて関連語を抽出するようにしている。このため、出現度がある程度の数になっていることが、関連語を正確に抽出するために好ましい。
【0056】
図12は、「Si」というワードに対する前方語と後方語ならびにこれらを用いて抽出される関連語を示したものである。ここで前方語情報とは、図8で示したように関連語を求める対象とする文書を順にワードに区切ったときに「Si」というワードの直前に位置するワードをいう。また、後方語情報とは、このワードに区切った文書における「Si」というワードの直後に位置するワードをいう。これらが1つのワードの一部を構成しているか否かは問われない。
【0057】
図13は、2つの特許文献「P58−×××1」と「P58−××1×」についてこれらを図8に示した手法で順にワードに分解した様子を表わしたものである。この図13で黒塗りの三角(▲)で示したワードが「Si」である。このワードのそれぞれ直前に位置するワード「非晶質」、「非晶質」、「分解」、「バッタ」……が前方語である。また、黒塗りの三角(▲)で示したワード「Si」のそれぞれ直後に位置するワード「生成」、「Ge膜」、「Arイオン」、「基板」、「非晶質」……が後方語である。これらについては、図13でアンダーラインで示している。
【0058】
図12における「前方語情報」とは、前方語を順にカウントしていって、それらを出現頻度順に表わしたものである。ここでは「非晶質」というワードが37回出現して最高となっている。また、「後方語情報」とは、後方語を順にカウントしていって、それらを出現頻度順に表わしたものである。ここでは「太陽電池」というワードが16回現れて最高となっている。
【0059】
このようにして求められた前方語は前方語記憶領域にセットされ、後方語は後方語記憶領域にセットされる。そして、前方語記憶領域にセットされたいずれかのワードと後方記憶領域にセットされたいずれかのワードとによって前方と後方で挟まれるワードを抽出する。
【0060】
図14は、このようにして求められた前方語と後方語を基にして、関連語を抽出する様子を表わしたものである。この図で三角(▲)で示したワードの前後に配置されたアンダーラインで示したワードが前方語と後方語であり、三角(▲)で示したワードがこれらによって抽出された関連語である。例えば「非晶質」という前方語と「太陽電池」という後方語に挟まれた「シリコン」というワードがワード「Si」の関連語となる。同様にして、図14に示した文献からは「珪素」というワードも「Si」の関連語として抽出される。
【0061】
図12における「関連語情報」は、このようにして抽出された関連語の一覧を示したものである。なお、この図12で「前方語情報」および「後方語情報」のうちの出現頻度の高いもの同士で挟まれた関連語は、これ以外の関連語として抽出されたものよりも確度が高い。本実施例では、このような高い確度のものに高いウエイトを付け、更に関連語として抽出された回数を掛け合わせて、その結果得られた数値の高いものから順に関連語情報として表示するようにしている。したがって、図12の「関連語情報」では、上のものほど関連語として適する確率が高くなる。もちろん、関連語として抽出された回数を単純にカウントして、カウント値が多いものから順にディスプレイ15に表示したり、プリンタ14でその内容をプリントアウトするようにしてもよい。
【0062】
以上説明した実施例では、文献および所定のプログラム等の固定的なデータをCD−ROMに格納することにしたが、光ディスク、テープ等の他の記憶媒体に格納してもよいことはもちろんである。また、実施例では特許文献についてのワード処理を説明したが、他の技術文献あるいは一般的な資料に対しても本発明を適用することができる。更に本発明では、CD−ROMにワード処理のための所定のプログラムを格納することにしたが、このようなデータを文献や資料等の検索対象のデータとは別の記憶媒体に単独で格納するようにしてもよいことはもちろんである。
【0063】
【発明の効果】
以上説明したように請求項1または請求項2記載の発明によれば、特定したワードの関連語を各文章で共通して使用するワード等をキーとして求めることにしたので、関連語の抽出が極めて容易になるばかりでなく、抽出した関連語を用いてワード処理を高精度に行なうことができる。
【0067】
更に、請求項3記載の発明によれば、システム側に特別のプログラムを格納する必要なく、それぞれのワード処理に適した処理を簡単に実現することができる。また、記憶媒体にワードの分離等に必要なデータを格納しておくことにより、その記憶媒体の特殊性に応じたデータ処理を実現することができ、ワード処理をより円滑かつ確実なものとすることができる。
【図面の簡単な説明】
【図1】本発明の一実施例におけるワード処理システムの構成を示すシステム構成図である。
【図2】パーソナルコンピュータ本体の回路構成の概要を示すブロック図である。
【図3】本実施例の特許情報検索用CD−ROMのデータ格納状態を原理的に表わした説明図である。
【図4】本実施例のワード処理システムでCD−ROMをパーソナルコンピュータ本体にセットした際の処理の様子を表わした流れ図である。
【図5】ワード処理用プログラムを用いてある文献の所定の範囲に記述された内容からキーワードを取り出すまでの処理の流れを表わした流れ図である。
【図6】ディスプレイ上に表示された検索の元となる特許情報の一例を示す平面図である。
【図7】ステップS203で説明したキーワード検索を具体的に表わした流れ図である。
【図8】図6に示した枠62内の文章をカンマで区切って抽出したワードを表わした説明図である。
【図9】図6に示した枠62内の文章をワードに分離し、更に最小分離文字数が7文字以上の場合にこれを分割して、更に出現頻度が2回以上のものを検索されたワードとして抽出した場合を示す説明図である。
【図10】関連語を抽出する処理手順の要部を表わした流れ図である。
【図11】ある文章中で抽出されたワードとそれらの出現頻度を表わした説明図である。
【図12】Siというワードに対する前方語と後方語ならびにこれらを用いて抽出される関連語を示した説明図である。
【図13】Siというワードに対する前方語と後方語が抽出される処理を具体的に示した説明図である。
【図14】Siというワードの関連語を抽出する処理を具体的に示した説明図である。
【符号の説明】
11 パーソナルコンピュータ本体
12 キーボード
13 マウス
15 ディスプレイ(モニタ)
18 CDドライバ
22 特許情報検索用CD−ROM
31 CPU
34 RAM
38 磁気ディスク
51 特許公報データベース
52 ワード処理用付属データ
61 特許情報
62 枠
Claims (3)
- 関連語を求めようとするワードを指定するワード指定手段と、
このワード指定手段によって指定されたワードの直前に位置するワードとしての前方語を所定の文章中から抽出する前方語抽出手段と、
前記ワード指定手段によって指定されたワードの直後に位置するワードとしての後方語を所定の文章中から抽出する後方語抽出手段と、
ワード処理の対象となる文章を指定する文章指定手段と、
この文章指定手段によって指定された文章中で前記前方語抽出手段と後方語抽出手段によって抽出された前方語と後方語によって挟まれたワードを前記ワード指定手段によって指定されたワードの関連語として出力する関連語出力手段
とを具備することを特徴とするワード処理システム。 - 前記関連語出力手段によって出力された関連語についてそれらの出現頻度を算出する出現頻度算出手段と、
この出現頻度算出手段によって所定の頻度以上とされた関連語を確度の高い関連語として選別する高確度関連語選別手段
とを具備することを特徴とする請求項1記載のワード処理システム。 - ワード処理の対象となる文章が指定されたときのこの文章を構成するワードをワード抽出手段を用いて順に抽出するワード抽出ステップと、
このワード抽出ステップによって抽出されたそれぞれのワードの中から関連語を求める対象としての特定ワードを特定ワード検索手段を用いて検索する特定ワード検索ステップと、
前記ワード抽出ステップによって抽出された一連のワードのうちで特定ワード検索ステップによって検索された特定ワードの直前に位置するワードとしての前方語を前方語抽出手段を用いて抽出する前方語抽出ステップと、
前記ワード抽出ステップによって抽出された一連のワードのうちで前記特定ワード検索ステップによって検索された特定ワードの直後に位置するワードとしての後方語を後方語抽出手段を用いて抽出する後方語抽出ステップと、
前記ワード抽出ステップによって抽出された一連のワードの中から、前記前方語抽出ステップおよび後方語抽出ステップによってそれぞれ抽出された前方語と後方語のそれぞれ1つずつによって挟まれたワードを関連語抽出手段を用いて抽出して前記特定ワードの関連語とする関連語抽出ステップ
とを具備することを特徴とするワード処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29252096A JP3618931B2 (ja) | 1996-11-05 | 1996-11-05 | ワード処理システムおよびワード処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29252096A JP3618931B2 (ja) | 1996-11-05 | 1996-11-05 | ワード処理システムおよびワード処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10134077A JPH10134077A (ja) | 1998-05-22 |
JP3618931B2 true JP3618931B2 (ja) | 2005-02-09 |
Family
ID=17782878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29252096A Expired - Fee Related JP3618931B2 (ja) | 1996-11-05 | 1996-11-05 | ワード処理システムおよびワード処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3618931B2 (ja) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2872706B2 (ja) * | 1989-09-29 | 1999-03-24 | 株式会社リコー | 情報検索装置 |
JP2828692B2 (ja) * | 1989-09-29 | 1998-11-25 | 株式会社リコー | 情報検索装置 |
JP2742115B2 (ja) * | 1989-12-01 | 1998-04-22 | 日本電信電話株式会社 | 類似文書検索装置 |
JP2883153B2 (ja) * | 1990-04-02 | 1999-04-19 | 株式会社リコー | キーワード抽出装置 |
JPH04123264A (ja) * | 1990-09-14 | 1992-04-23 | Hitachi Ltd | 関連語テーブル作成装置及び文書検索装置 |
JPH056398A (ja) * | 1991-06-28 | 1993-01-14 | Ricoh Co Ltd | 文書登録装置及び文書検索装置 |
JPH07192010A (ja) * | 1993-12-27 | 1995-07-28 | Canon Inc | 文書処理装置 |
JP3464055B2 (ja) * | 1994-09-29 | 2003-11-05 | 株式会社リコー | キーワード抽出装置 |
JPH08241328A (ja) * | 1995-03-06 | 1996-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム |
-
1996
- 1996-11-05 JP JP29252096A patent/JP3618931B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH10134077A (ja) | 1998-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210209082A1 (en) | System and method of search indexes using key-value attributes to searchable metadata | |
US20210382927A1 (en) | System and method for hierarchically organizing documents based on document portions | |
US7213205B1 (en) | Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored | |
US20070106499A1 (en) | Natural language search system | |
WO2009086312A1 (en) | Entity, event, and relationship extraction | |
Modjeska et al. | Using the web in machine learning for other-anaphora resolution | |
Ahmed et al. | Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness | |
US20040122660A1 (en) | Creating taxonomies and training data in multiple languages | |
Basha et al. | Evaluating the impact of feature selection on overall performance of sentiment analysis | |
JP2016218512A (ja) | 情報処理装置及び情報処理プログラム | |
Sun et al. | Investigating the cross-linguistic potential of VerbNet-style classification | |
JP7110554B2 (ja) | オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法 | |
JP2000276487A (ja) | 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体 | |
JP3925003B2 (ja) | 文書処理装置および文書処理方法 | |
JP3618931B2 (ja) | ワード処理システムおよびワード処理方法 | |
Osipov et al. | Technologies for semantic analysis of scientific publications | |
CN111008519A (zh) | 阅读页面的展示方法、电子设备及计算机存储介质 | |
JPH11272680A (ja) | 文書データ提供装置およびそのプログラム記録媒体 | |
JP4378106B2 (ja) | 文書検索装置、文書検索方法及びプログラム | |
JP7227705B2 (ja) | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム | |
Maisonnasse et al. | Model fusion in conceptual language modeling | |
Mukherjee et al. | Automatic extraction of significant terms from the title and abstract of scientific papers using the machine learning algorithm: A multiple module approach | |
JP4793932B2 (ja) | 相互に関係する固有表現の組抽出装置及びその方法 | |
JP2005158044A (ja) | 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置 | |
JP2778025B2 (ja) | 共起関係辞書の学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040302 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040506 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040921 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041111 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081119 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081119 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091119 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091119 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101119 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |