JPH10134077A - ワード処理システムおよび記憶媒体 - Google Patents
ワード処理システムおよび記憶媒体Info
- Publication number
- JPH10134077A JPH10134077A JP8292520A JP29252096A JPH10134077A JP H10134077 A JPH10134077 A JP H10134077A JP 8292520 A JP8292520 A JP 8292520A JP 29252096 A JP29252096 A JP 29252096A JP H10134077 A JPH10134077 A JP H10134077A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- sentence
- extracted
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
くても、それに関連する情報を取得するためのワードを
簡易に取得できるようにする。 【解決手段】 特許情報検索用CD−ROM22には、
特許公報等のデータベースと共に、このデータベースを
有効に処理するための手順を記したデータが格納されて
いる。オペレータは、このCD−ROM22をパーソナ
ルコンピュータ本体11のCDドライバにセットし、検
索の元となる文書をディスプレイ15に表示してその対
象とする処理範囲を指定する。これにより、その文書を
構成する一連のワードが抽出される。オペレータは抽出
されたワードのうちから適切なものを選択して、それら
をキーワードとして文献のサーチ等のワード処理を行な
う。類語等の関連語の抽出も可能であり、関連語を併せ
て使用することで制度の高いワード処理が可能になる。
Description
めのワード処理システムおよびワード処理の対象となる
情報を格納したCD等の記憶媒体に関する。
行なう際には、従来から1つまたは複数のキーワードを
選定し、これらと一致する技術内容を抽出することによ
って行なっている。このような処理では、キーワードと
して適切な単語あるいはワード(以下単にワードとい
う。)を抽出することが重要である。したがって、例え
ばある文献に関連する技術文献を抽出するといった処理
を行なう場合には、検索対象となる文献の内容を良く読
んで理解し、適切なキーワードを選択する必要があっ
た。このためには、検索対象となる文献を十分理解でき
る技術者の存在が必要とされる。したがって、各種の技
術について検索を行なう部署では、それぞれの技術に対
応できる人材を確保する必要があり、検索に要する人件
費を高騰させるという問題があった。
ず、一般に関連する情報の検索を行なう場合には、1つ
の適切なキーワードを特定しても、そのキーワードに類
似する類語としてのキーワードをも用意しなければ十分
な検索を行なうことができないという問題もあった。例
えば「コンピュータ」という用語に対しては、「パーソ
ナルコンピュータ」、「パソコン」、「電子計算機」、
「CPU」、「マイクロプロセッサ」等の多くの類語が
ある。したがって、検索対象を漏れなく抽出するために
は、類語も考慮した上でキーワードを設定する必要があ
り、このためには検索対象の分野について十分熟知した
者の存在が必要とされることはもちろんのこと、類語を
可能な限り抽出する努力が必要とされた。
6188号公報)には、入力した用語の最も上位の概念
を自動的に抽出するようにしたワードプロセッサについ
ての技術が開示されている。この技術では、同種の概念
の複数の用語を上位概念から下位概念へツリー状に関連
付けて構成した意味階層辞書を用意している。そして、
下位概念で書かれた文章をこのツリーを用いて上位概念
に書き換えることで、特許明細書の作成等に便宜を図っ
ている。
に対して上位概念のワードを拾い出すことは類語の抽出
の1つの方法として有効である。しかしながら、上位概
念のワードを拾い出してこれをキーワードに選択して
も、色々な下位概念のワードを使用している情報を有効
に抽出することはできない。また、特公平7−4026
7号に開示された技術では、上位概念から下位概念に至
るワードをツリー構造化して用意しておく必要がある。
このため、作成した辞書の範囲内でなければ上位概念あ
るいは下位概念のワードをキーワードとして拾い出すこ
とができず、新しい技術内容についてキーワードを選択
するような場合のように辞書にないワードについては全
く用をなさないことになる。
した用語のような新語に対応することができず、また、
辞書の改定を頻繁に行なう必要があるので、辞書の作成
者に過度の負担を強いるばかりでなく、その辞書を搭載
してワードの処理を行なおうとするワード処理システム
の利用者も経済的にかなりの出費を強いられることにな
る。更に、各種情報について類語や上位あるいは下位概
念の語句を予め定義したシソーラスまでも必要となると
すると、辞書が巨大化してしまう。この結果、辞書の検
索にかなりの時間を要することになって、ワード処理シ
ステムの処理効率を低下させるばかりでなく、システム
を構成するCPU(中央処理装置)を高速のものとした
りメモリとして大容量のものを使用する必要が生じて、
結局、高価な使いづらいシステムとなってしまうという
問題があった。
の対象となる情報を格納した記憶媒体は、例えば特許出
願の公開公報の内容を格納したCD−ROMのように技
術情報のみを格納していた。このため、技術情報の検索
を行なう場合には、検索用の処理手順としてのソフトウ
ェアを別に必要としていた。したがって、ソフトウェア
を別途購入する必要があるばかりか、検索対象の情報に
最も適したソフトウェアを個別に用意する必要があると
いった問題もあった。
ついて特別な知識を有する者でなくても、それに関連す
る情報を取得するためのワードを簡易に取得することの
できるワード処理システムを提供することにある。
する類語としてのワードを簡易に取得することのできる
ワード処理システムを提供することにある。
を簡易に実現できる記憶媒体を提供することにある。
は、(イ)ワード処理の対象となる文章を指定する文章
指定手段と、(ロ)この文章指定手段によって指定され
た文章を構成するワードを順に抽出するワード抽出手段
と、(ハ)このワード抽出手段によって抽出したそれぞ
れのワードを用いて所定のワード処理を実行するワード
処理実行手段とをワード処理システムに具備させる。
処理の対象となる文章から、例えば平仮名の部分を句読
点に変換する等の手法によって個々のワードを抽出し、
それらのワードを使用して検索等の所定のワード処理を
実行するようにしている。これにより、オペレータはワ
ード処理の対象となる文章を指定すればよく、個々の内
容を理解してワードを手作業で抽出するといった面倒な
作業から開放されることになる。
理の対象となる文章を指定する文章指定手段と、(ロ)
この文章指定手段によって指定された文章を構成するワ
ードを順に抽出するワード抽出手段と、(ハ)このワー
ド抽出手段によって抽出したそれぞれのワードのその文
章中における出現頻度を演算する出現頻度演算手段と、
(ニ)この出現頻度演算手段によって出現頻度が所定の
値以上となったワードをワード処理の候補とするワード
処理候補抽出手段と、(ホ)このワード処理候補選定手
段によって抽出されたワードの中からワード処理の対象
となるワードを選択するワード処理対象選択手段と、
(ヘ)このワード処理対象選択手段によって選択された
ワードを用いて所定のワード処理を実行するワード処理
実行手段とをワード処理システムに具備させる。
処理の対象となる文章から、例えば平仮名の部分を句読
点に変換する等の手法によって個々のワードを抽出し、
出現頻度演算手段によってそれぞれのワードのその文章
中における出現頻度を演算する。そして、出現頻度が所
定の値以上となったワードをワード処理の候補とするこ
とで、ノイズの除去を行なう。また、ワード処理の候補
の中から一見して不適切なものがあればこれをワード処
理対象選択手段によって除去する等によってワード処理
の候補を選別し、これによって得られたワードを用いて
検索等のワード処理を行なうようにしている。これによ
り、オペレータはワード処理の対象となる文章を指定し
た後、ワード処理の候補の中から適切と思われるものを
選別すればよく、文章の個々の内容を理解してワードを
手作業で抽出するといった面倒な作業から開放されるば
かりでなく、一次的に選択されたワードの中から一見し
て不適切なものを除去することで、良好なワード処理を
実現することができるようになる。
請求項2記載のワード処理システムで文章指定手段は漢
字、片仮名および平仮名を含む日本語の文章の任意の範
囲を指定し、ワード抽出手段はこの中の平仮名が1文字
以上連続している箇所を1つずつの区切り符号に変換し
ていくことで、区切り符号で区切られたそれぞれのワー
ドを抽出することを特徴としている。
からワードを抽出する作業を平仮名をカンマ等の区切り
符号に変換することによって実現している。文章によっ
ては片仮名や英数字を同様に区切り符号として処理を行
なうことも有効である。
ワード処理システムが(イ)区切り符号で区切られたそ
れぞれのワードの長さが所定の構成文字数よりも長いか
否かを判別する語長判別手段と、(ロ)この語長判別手
段でワードの長さが所定の構成文字数よりも長いと判別
されたワードについて、それがすでにワード抽出手段に
よって抽出されたこれよりも短いいずれかのワードと前
方、中間あるいは後方で一致するか否かを判別する部分
一致有無判別手段と、(ハ)この部分一致有無判別手段
がワードの前方、中間あるいは後方で一致すると判別し
たときこの一致した部分のワードとこれを差し引いたワ
ードにこれを分割するワード分割手段とを具備すること
を特徴としている。
あるいは複合されることによって長くなったワードを分
解するようにしたものである。3つ以上のワードが1つ
のワードを構成しているような場合には、比較のために
用意したワードと前方、中間あるいは後方で一致すれ
ば、それとそれ以外のワードに分割することになる。一
度に3つ以上のワードに分割してもよいし、2つに分割
した後のワードを更に分割することで、3つ以上に分割
するようにしてもよい。
求めようとするワードを指定するワード指定手段と、
(ロ)このワード指定手段によって指定されたワードの
直前に位置するワードとしての前方語を所定の文章中か
ら抽出する前方語抽出手段と、(ハ)ワード指定手段に
よって指定されたワードの直後に位置するワードとして
の後方語を所定の文章中から抽出する後方語抽出手段
と、(ニ)ワード処理の対象となる文章を指定する文章
指定手段と、(ホ)この文章指定手段によって指定され
た文章中で前方語抽出手段と後方語抽出手段によって抽
出された前方語と後方語によって挟まれたワードをワー
ド指定手段によって指定されたワードの関連語として出
力する関連語出力手段とをワード処理システムに具備さ
せる。
ードに類似したり概念が共通する関連語を抽出するため
のもので、そのワードと合成されたりそのワードの直前
や直後に存在するワードが他の文書等でどのようなワー
ドと結合したり、どのようなワードの直前や直後に存在
するかによって、関連語を抽出するようにしている。
ワード処理システムで関連語出力手段によって出力され
た関連語についてそれらの出現頻度を算出する出現頻度
算出手段と、この出現頻度算出手段によって所定の頻度
以上とされた関連語を確度の高い関連語として選別する
高確度関連語選別手段とをワード処理システムに具備さ
せている。
語として抽出されたものの中から出現頻度算出手段によ
って所定の頻度以上とされた関連語を確度の高い関連語
とすることによって、関連語の抽に出際するノイズの影
響を減少させるようにしている。
理の対象となる文章が指定されたときのこの文章を構成
するワードを順に抽出するワード抽出手順と、(ロ)こ
のワード抽出手順によって抽出されたそれぞれのワード
の中から関連語を求める対象としての特定ワードを検索
する特定ワード検索手順と、(ハ)ワード抽出手順によ
って抽出された一連のワードのうちで特定ワード検索手
順によって検索された特定ワードの直前に位置するワー
ドとしての前方語を抽出する前方語抽出手順と、(ニ)
ワード抽出手順によって抽出された一連のワードのうち
で特定ワード検索手順によって検索された特定ワードの
直後に位置するワードとしての後方語を抽出する後方語
抽出手順と、(ホ)ワード抽出手順によって抽出された
一連のワードの中から、前方語抽出手順および後方語抽
出手順によってそれぞれ抽出された前方語と後方語のそ
れぞれ1つずつによって挟まれたワードを抽出して特定
ワードの関連語とする関連語抽出手順とを記憶媒体に具
備させる。
理システムで関連語を抽出する所定の手順を記憶媒体に
格納したことを特徴としている。
記憶媒体に、関連語抽出手順によって抽出された関連語
によって検索される文書を格納したことを特徴としてい
る。このような記憶媒体としては、例えばCD−ROM
が使用される。
理システムの構成を表わしたものである。このワード処
理システムは、パーソナルコンピュータ本体11と、こ
れにデータの入力を行なうキーボード12およびポイン
ティング・デバイスとしてのマウス13と、所定のデー
タを出力するためのプリンタ14やディスプレイ(モニ
タ)15から構成されている。パーソナルコンピュータ
本体11は、図示しないが磁気ディスクを内蔵してお
り、ここに本実施例のワード処理システムを実現するた
めの処理手順を示すプログラムが格納されている。ま
た、フロッピーディスクドライバ17やCDドライバ1
8を備えている。これらのシステム構成装置を載置した
机21の上には、検索対象としての特許情報検索用CD
(コンパクトディスク)−ROM(リード・オンリ・メ
モリ)22が載置されている。
は、特許情報の検索を行なうためのシステムとして構成
されているが、操作者が図示しない医学情報検索用CD
−ROMを使用するとすれば、このワード処理システム
は医学情報の検索システムとして直ちに利用することが
できる。すなわち、本実施例の特許情報検索用CD−R
OM22あるいは図示しない医学情報検索用CD−RO
Mはそれぞれ検索用の処理手順(プログラム)を格納す
る領域を有しており、パーソナルコンピュータ本体11
はCDドライバ18によってこの領域に格納された処理
手順を読み出して実行することで、同一のCD−ROM
に格納された特許情報等の情報の検索を可能にしてい
る。
路構成の概要を表わしたものである。このパーソナルコ
ンピュータ本体11はCPU31を搭載している。CP
U31は、データバス等のバス32を介して装置内の各
部と接続されている。このうちROM33はこのコンピ
ュータ本体を初期的に立ち上げるためのプログラムやそ
の他の固定的なデータを格納したリード・オンリ・メモ
リである。RAM34は、実行すべきプログラムやその
プログラムの実行時に必要となる各種データを一時的に
格納するランダム・アクセス・メモリである。入力回路
35はデータの入力を行なうための回路であり、本実施
例ではマウス13を接続したキーボード12と接続され
ている。装置によってはマウス13が入力回路35に直
接接続される形態をとっていてもよい。また、マウス1
3以外に他のポインティング・デバイスが使用されるも
のであってもよい。
ク38にデータを書き込んだり読み出すための制御回路
である。ここで磁気ディスク38には、例えば各種制御
のためのプログラムが格納されている。フロッピーディ
スクドライバ17は、フロッピーディスク39に対して
データを書き込んだり読み出すための制御回路である。
本実施例では例えば検索結果をフロッピーディスクに格
納することができる。CDドライバ18は特許情報検索
用CD−ROM22等のCDからデータの読み出しを行
なうようになっている。ディスプレイドライバ41はデ
ィスプレイ15に表示用のデータを入力する回路であ
る。プリンタドライバ42はプリンタ14の制御を行な
うための回路である。
ROMのデータ格納状態を原理的に表わしたものであ
る。特許情報検索用CD−ROM22には、特許公報と
しての情報をデータ化した特許公報データベース51が
主とし格納されているが、その一部の領域には、ワード
処理用付属データ52が格納されている。本実施例でワ
ード処理用付属データ52とは、特許公報データベース
51を検索するために用意したプログラムと、後に説明
する長語を分解するためのワード(長語分離用ワード)
から構成されている。このように特許情報検索用CD−
ROM22ごとにワード処理用付属データ52が付属し
ている。したがって、オペレータがこの特許情報検索用
CD−ROM22を図1に示したパーソナルコンピュー
タ本体11あるいは他のどんな形式のコンピュータで
も、それらのCDドライバにセットすれば、特別の追加
的なプログラムを必要とすることなく、ワード処理を行
なうことができる。すなわち、コンピュータおよびその
周辺機器を直ちに特別のワード処理システムとして構成
することができる。
索用CD−ROM22には特許公報データベース51の
みを格納することも可能である。この場合には、ワード
処理用付属データ52は例えば他のCD−ROMあるい
はフロッピーディスクからパーソナルコンピュータ本体
11に予めインストールしておき、これを磁気ディスク
38に格納することにより、同様のワード処理システム
を構築することが可能である。
CD−ROMをパーソナルコンピュータ本体にセットし
た際の処理の様子を表わしたものである。図2に示した
CPU31は、CDドライバ18に新たなCDがセット
されるのを監視している(ステップS101)。特許情
報検索用CD−ROM22がこれにセットされると
(Y)、CPU31は直前にセットされたCD−ROM
と同一であるかどうかのチェックを行なう(ステップS
102)。これは、全く同一シリーズの特許情報検索用
CD−ROM22が相次いでセットされる状況が存在し
うる点に着目して、ワード処理用付属データ52が同一
のものであれば、その格納の作業を省略することで処理
の高速化を図るためのものである。ワード処理用付属デ
ータ52が同一のものであるかどうかは特許情報検索用
CD−ROM22に格納されている識別情報を照合する
ことによって行なうことができる。
OM22でなければ、ワード処理用付属データ52がC
Dドライバ18によって読み出され、その内容がRAM
34に格納される(ステップS103)。磁気ディスク
38に格納されてもよい。CPU31は、RAM34に
格納されたワード処理用のプログラムを実行して(ステ
ップS104)、オペレータの希望するワード処理を行
なうことになる。これに対して、ワード処理用付属デー
タ52が前回のものと同一である場合には(ステップS
103;Y)、ワード処理用の同一のプログラムがすで
に読み込まれているので、その実行が直ちに可能になる
(ステップS104)。
ある文献の所定の範囲に記述された内容からキーワード
を取り出すまでの処理の流れを表わしたものである。ま
ず、オペレータは検索の元になる文書を開く(ステップ
S201)。その文書が同一の特許情報検索用CD−R
OM22内にあれば、その文書を特定して読み込み、そ
の内容をディスプレイ15に表示する。また、他の技術
文献や開発設計のための資料あるいは他の媒体に格納さ
れた特許文献のようなものであれば、その文献の内容を
格納したフロッピーディスク39やCD等の記憶媒体を
別に用意して、該当する文書をパーソナルコンピュータ
本体11に読み込み、同様にその内容をディスプレイ1
5に表示する。
プレイ15に表示されたら、オペレータはその中から検
索に必要な範囲を指定する(ステップS202)。例え
ば特許公報には、書誌的な情報としての出願人や発明者
およびそれらの住所が技術的な情報の検索に直接必要と
されることが少ない。そこで、実施例で示すような特許
出願の明細書に対して検索を行なうような場合には、必
要としない記載箇所の存在する領域をオペレータがカッ
トするようなかたちで範囲の指定が行なわれることにな
る。
ィスプレイ上に表示した状態を表わしたものである。こ
の特許情報61で技術内容は、「要約」と書かれた箇所
よりも下の「目的」あるいは「構成」という箇所に記載
されているはずである。そこで、オペレータは例えば図
1に示したマウス13を操作してこれらの箇所を特定す
る形で枠62を設定し、この中からキーワードを抽出す
るように装置を操作することになる。
索の元となる文書の範囲の指定が行なわれたら、ワード
処理システムは後に示すような処理手順によって自動的
にキーワード検索を実行する(ステップS203)。そ
して、検索されたワードの一覧をディスプレイ15上に
表示することになる(ステップS204)。本実施例で
は、検索されたワードを出現率(頻度)でふるいにかけ
てノイズを除去し、所定の頻度以上のものを表示するよ
うにしている。
的」あるいは「構成」という語句が存在し、これらは要
約書と呼ばれる箇所に典型的に現われるワードであっ
て、検索の元となる特許情報61に固有のものではな
い。このような形式的に現われるワードは、キーワード
とは無関係なものである。例えばワード処理用のプログ
ラムによっては、所定の配置関係でこれらのワードが出
現するときに限って、これらをキーワードとしての検索
の対象から外すようにすることも、もちろん可能であ
る。既に説明したように、抽出されたワードを出現頻度
でふるい分けるときには、「目的」あるいは「構成」と
いうようなフォーマットとして使用される語句を検索の
対象から特に除外しなくても、通常の場合にはこれらの
出現頻度は小さいので、キーワードから除外されること
になることが多い。
ワード検索を具体的に表わしたものである。まず、図6
に示した枠62内の文章中の1つまたは複数の連続した
「平仮名」の部分を識別して、それらの部分を順次1つ
のカンマ(,)に置き換える(ステップS301)。こ
のようにして、カンマで区切られたワードを抽出する。
抽出されたワードは、図2に示したRAM34の所定の
一時格納領域に一旦格納される(ステップS302)。
で区切って抽出したワードを表わしたものである。ここ
では、更に数字の部分をキーワードの検索の対象から除
去する処理を行なっている。これは、特許文献に登場す
る文章には部品等の名称に数字が付加している場合が多
く、この例ではオペレータがこれらの数字自体をキーワ
ードから除去することが適切であると判別したためであ
る。
ドの中には、複数のワードを合成した合成語が存在す
る。そこで、一時格納領域に格納したワードのそれぞれ
について、予め設定した最小分離文字数を越えるかどう
かをチェックして、越えるものについては、これを同じ
くRAM34内に設定した長語分離用ワード格納領域に
移す(ステップS303)。例えば図8に示した例で、
最小分離文字数を7文字以上とすると、「画像非形成領
域」というワードが長語分離用ワード格納領域に移され
る。また最小分離文字数を4文字以上とした場合には、
同一の例の場合に、「感光体ドラム」,「画像非形成領
域」,「受光素子」,「波長領域」,「分光感度」,
「シアントナー」,「各受光素子」,「第1割算回
路」,「演算結果」,「比較演算部」の各ワードが分割
の対象となることになる。
記したようにワード処理用付属データ52が格納される
領域があり、この領域に、特許情報検索用CD−ROM
22の掲載対象とする技術についての最小分離文字数以
下の典型的なワードが登録されている。このようなワー
ドとしては、例えば「感光体」、「ドラム」、「カラー
トナー」、「画像」等のようにその特許情報検索用CD
−ROM22に掲載されている特定の技術分野のワード
として比較的短い長さでかつ出現頻度の高いものの他、
「各」、「第1」、「第2」、「入力側」、「出力
側」、「制御回路」等のように一般的な技術文献あるい
は一般的な文書に広く使用され、かつ比較的短い長さで
かつ出現頻度の高いものを挙げることができる。
の場合であって、特許情報検索用CD−ROM22に
「画像」という単語が登録されていたとすると、「画像
非形成領域」というワードは、「画像」と「非形成領
域」という2つのワードに分離されることになる(ステ
ップS304)。また、最小分離文字数が4文字以上に
設定されている場合には、例えば「各受光素子」が
「各」と「受光素子」のワードに、「第1割算回路」が
「第1」と「割算回路」のワードにそれぞれ分離され
る。1回の分離作業で分離後のワードがまだ最小分離文
字数を越える場合には、登録されている他の単語とその
ワードの一部が一致するかどうかのチェックが更に継続
して行なわれ、語長の短いワードに分解されることにな
る。この例には示していないが、例えば「第1感光体製
造装置」というワードは、「第1」、「感光体」および
「製造装置」というワードが特許情報検索用CD−RO
M22に登録されているとすると、まず「第1」「感光
体製造装置」という2つのワードに分離され、次に後者
のワードが「感光体」と「製造装置」の2つのワードに
更に分離されることになる。
び分割できなかった語長の長いワードは、最小分離文字
数よりも短いワードと共に、それらの出現頻度のカウン
トが行なわれる。例えば最小分離文字数が7文字以上の
場合における分離処理後の「第1割算回路」というワー
ドは枠62内の文章中に5回登場しており、最も高い出
現頻度となっている。予め定めた所定の出現頻度以下の
ワードはノイズとして除去し、残りのワード(一時格納
領域に格納したワードと、長語分離用ワード格納領域に
移されたワードであって分離後のワードおよび分離でき
なかったワード)をディスプレイ15上にキーワードの
候補として表示するためのワードとして設定する(ステ
ップS305)。なお、キーワードを抽出するための枠
62が小さくて十分な頻度情報を得ることができないよ
うな場合には、頻度の高いものと低いものを区別するこ
となく、すべてのワードをディスプレイ15上に表示し
てもよいことはもちろんである。
章をワードに分離し、更に最小分離文字数が7文字以上
の場合にこれを分割して、更に出現頻度が2回以上のも
のを検索されたワードとして抽出したものである。オペ
レータはこの表示された各ワードをキーワードとして直
ちに目標とする文献のサーチを行なうこともできるが、
一見して関係ないと思われるものを除外してワード処理
を行なうこともできる。すなわち、図9に示した表示内
容の中からワードの選択が必要かどうかの判別を行い
(図5ステップS205)、必要な場合には(Y)、マ
ウス13等の入力手段を使用してワードの選択を行い
(ステップS206)、ワードの抽出処理を終了させる
(エンド)。表示された内容そのもので文献のサーチを
進めるような場合には(ステップS205;N)、その
ままワード抽出についての処理を終了させることになる
(エンド)。
理積等の論理を組んで特許文献のサーチを行なうことに
ついては、一般的な技術なので、ここではその説明を省
略する。
1を用いてこれと関連する文献の調査を行なうような場
合には、その特許情報61から直接抽出されたキーワー
ドのみでなく、それらに関連する語あるいは類語(以下
関連語という。)もキーワードに含めないと万全を期す
ことができない。例えばゼログラフィ方式の画像形成装
置は、複写機、コピー機、電子写真装置等の他の名称で
文献に使用されている場合があり、画像形成装置という
キーワードだけでは同一の技術を検索できない可能性が
ある。この明細書で関連語とは、上位概念を表わした語
や下位概念を表わした語、同義語および意味が関連する
語をいう。
程度の文書量の文書から検索対象のワードの関連語を自
動的に抽出することができる。これについて次に説明す
る。
部を表わしたものである。まず、図2に示したCPU3
1は関連語の抽出の元となる指定されたワードと連結さ
れた前方語と後方語をピックアップしてそれぞれをカウ
ントする(ステップS401)。次に出現頻度の高い前
方語を、RAM34に割り当てられた前方語記憶領域に
セットする(ステップS402)。同様に、出現頻度の
高い後方語を、RAM34に割り当てられた後方語記憶
領域にセットする(ステップS403)。このようにし
て前方語と後方語がセットされたら、これらのワードで
両側を挟まれるワードを抽出する(ステップS40
4)。この抽出されたワードが関連語としてディスプレ
イ15に出力される(ステップS405)。この出力内
容をプリンタ14でプリントアウトすることも可能であ
る。
抽出するためには、まず関連語の抽出の元として指定す
るワードが、対象とされる文章中である程度出現頻度が
高いことが、良好な抽出結果を得るために必要である。
とそれらの出現頻度を表わしたものである。本実施例で
文章中からワードを抽出する方法は、「通常検索」と、
「曖昧検索」を選択することができる。ここで「曖昧検
索」とは、前方語や後方語が一致するものを含めて検索
したり、大文字や小文字を区別しないで検索することを
いう。本実施例では、「通常検索」を選択し、「Si」
というワードに対する関連語を抽出することにする。
らの出現回数も表示されている。例えば「P型」という
ワードは、検索の結果として最も出現回数が高く、31
4回であり、「N型」というワードがこれに次いで23
1回である。関連語を調べる対象となっている「Si」
というワード(矢印で図示。)については、91回の出
現となっている。本発明では、後に説明するように関連
語抽出の対象とするワードの前後のワードを抽出して、
これらのワードを用いて関連語を抽出するようにしてい
る。このため、出現度がある程度の数になっていること
が、関連語を正確に抽出するために好ましい。
前方語と後方語ならびにこれらを用いて抽出される関連
語を示したものである。ここで前方語情報とは、図8で
示したように関連語を求める対象とする文書を順にワー
ドに区切ったときに「Si」というワードの直前に位置
するワードをいう。また、後方語情報とは、このワード
に区切った文書における「Si」というワードの直後に
位置するワードをいう。これらが1つのワードの一部を
構成しているか否かは問われない。
×1」と「P58−××1×」についてこれらを図8に
示した手法で順にワードに分解した様子を表わしたもの
である。この図13で黒塗りの三角(▲)で示したワー
ドが「Si」である。このワードのそれぞれ直前に位置
するワード「非晶質」、「非晶質」、「分解」、「バッ
タ」……が前方語である。また、黒塗りの三角(▲)で
示したワード「Si」のそれぞれ直後に位置するワード
「生成」、「Ge膜」、「Arイオン」、「基板」、
「非晶質」……が後方語である。これらについては、図
13でアンダーラインで示している。
語を順にカウントしていって、それらを出現頻度順に表
わしたものである。ここでは「非晶質」というワードが
37回出現して最高となっている。また、「後方語情
報」とは、後方語を順にカウントしていって、それらを
出現頻度順に表わしたものである。ここでは「太陽電
池」というワードが16回現れて最高となっている。
記憶領域にセットされ、後方語は後方語記憶領域にセッ
トされる。そして、前方語記憶領域にセットされたいず
れかのワードと後方記憶領域にセットされたいずれかの
ワードとによって前方と後方で挟まれるワードを抽出す
る。
語と後方語を基にして、関連語を抽出する様子を表わし
たものである。この図で三角(▲)で示したワードの前
後に配置されたアンダーラインで示したワードが前方語
と後方語であり、三角(▲)で示したワードがこれらに
よって抽出された関連語である。例えば「非晶質」とい
う前方語と「太陽電池」という後方語に挟まれた「シリ
コン」というワードがワード「Si」の関連語となる。
同様にして、図14に示した文献からは「珪素」という
ワードも「Si」の関連語として抽出される。
うにして抽出された関連語の一覧を示したものである。
なお、この図12で「前方語情報」および「後方語情
報」のうちの出現頻度の高いもの同士で挟まれた関連語
は、これ以外の関連語として抽出されたものよりも確度
が高い。本実施例では、このような高い確度のものに高
いウエイトを付け、更に関連語として抽出された回数を
掛け合わせて、その結果得られた数値の高いものから順
に関連語情報として表示するようにしている。したがっ
て、図12の「関連語情報」では、上のものほど関連語
として適する確率が高くなる。もちろん、関連語として
抽出された回数を単純にカウントして、カウント値が多
いものから順にディスプレイ15に表示したり、プリン
タ14でその内容をプリントアウトするようにしてもよ
い。
のプログラム等の固定的なデータをCD−ROMに格納
することにしたが、光ディスク、テープ等の他の記憶媒
体に格納してもよいことはもちろんである。また、実施
例では特許文献についてのワード処理を説明したが、他
の技術文献あるいは一般的な資料に対しても本発明を適
用することができる。更に本発明では、CD−ROMに
ワード処理のための所定のプログラムを格納することに
したが、このようなデータを文献や資料等の検索対象の
データとは別の記憶媒体に単独で格納するようにしても
よいことはもちろんである。
れば、ワード処理の対象となる文章からワードを抽出し
て、これを検索等のワード処理に使用することにしたの
で、抽出されたワードを見たり順に追いかけるだけでそ
の内容を類推することができ、内容を精読することなく
文書内容の概要を知ることができる。また、文書の中で
必要なページと不要なページの区切りも容易に付けるこ
とができ、必要な箇所のみを読むといった効率的な情報
処理を実現することができる。
に抽出されたワードを統計的に選別したり技術的な感に
よって選別できるようにしたので、確度の高いワード処
理を実現することが可能になる。
いは複合された可能性のある比較的長いワードを複数の
ワードに分割することにしたので、ワードの長さや概念
が揃うことになり、ワード処理を単純化することができ
る。
は、特定したワードの関連語を各文章で共通して使用す
るワード等をキーとして求めることにしたので、関連語
の抽出が極めて容易になるばかりでなく、抽出した関連
語を用いてワード処理を高精度に行なうことができる。
によれば、以上説明したようなワード処理の手順を記憶
媒体に格納するようにしたので、システム側に特別のプ
ログラムを格納する必要なく、それぞれのワード処理に
適した処理を簡単に実現することができる。また、記憶
媒体にワードの分離等に必要なデータを格納しておくこ
とにより、その記憶媒体の特殊性に応じたデータ処理を
実現することができ、ワード処理をより円滑かつ確実な
ものとすることができる。
ムの構成を示すシステム構成図である。
要を示すブロック図である。
ータ格納状態を原理的に表わした説明図である。
Mをパーソナルコンピュータ本体にセットした際の処理
の様子を表わした流れ図である。
所定の範囲に記述された内容からキーワードを取り出す
までの処理の流れを表わした流れ図である。
特許情報の一例を示す平面図である。
を具体的に表わした流れ図である。
って抽出したワードを表わした説明図である。
し、更に最小分離文字数が7文字以上の場合にこれを分
割して、更に出現頻度が2回以上のものを検索されたワ
ードとして抽出した場合を示す説明図である。
た流れ図である。
出現頻度を表わした説明図である。
ならびにこれらを用いて抽出される関連語を示した説明
図である。
が抽出される処理を具体的に示した説明図である。
を具体的に示した説明図である。
Claims (8)
- 【請求項1】 ワード処理の対象となる文章を指定する
文章指定手段と、 この文章指定手段によって指定された文章を構成するワ
ードを順に抽出するワード抽出手段と、 このワード抽出手段によって抽出したそれぞれのワード
を用いて所定のワード処理を実行するワード処理実行手
段とを具備することを特徴とするワード処理システム。 - 【請求項2】 ワード処理の対象となる文章を指定する
文章指定手段と、 この文章指定手段によって指定された文章を構成するワ
ードを順に抽出するワード抽出手段と、 このワード抽出手段によって抽出したそれぞれのワード
のその文章中における出現頻度を演算する出現頻度演算
手段と、 この出現頻度演算手段によって出現頻度が所定の値以上
となったワードをワード処理の候補とするワード処理候
補抽出手段と、 このワード処理候補選定手段によって抽出されたワード
の中からワード処理の対象となるワードを選択するワー
ド処理対象選択手段と、 このワード処理対象選択手段によって選択されたワード
を用いて所定のワード処理を実行するワード処理実行手
段とを具備することを特徴とするワード処理システム。 - 【請求項3】 前記文章指定手段は漢字、片仮名および
平仮名を含む日本語の文章の任意の範囲を指定し、前記
ワード抽出手段はこの中の平仮名が1文字以上連続して
いる箇所を1つずつの区切り符号に変換していくこと
で、区切り符号で区切られたそれぞれのワードを抽出す
ることを特徴とする請求項1または請求項2記載のワー
ド処理システム。 - 【請求項4】 区切り符号で区切られたそれぞれのワー
ドの長さが所定の構成文字数よりも長いか否かを判別す
る語長判別手段と、 この語長判別手段でワードの長さが所定の構成文字数よ
りも長いと判別されたワードについて、それがすでに前
記ワード抽出手段によって抽出されたこれよりも短いい
ずれかのワードと前方、中間あるいは後方で一致するか
否かを判別する部分一致有無判別手段と、 この部分一致有無判別手段がワードの前方、中間あるい
は後方で一致すると判別したときこの一致した部分のワ
ードとこれを差し引いたワードにこれを分割するワード
分割手段とを具備することを特徴とする請求項3記載の
ワード処理システム。 - 【請求項5】 関連語を求めようとするワードを指定す
るワード指定手段と、 このワード指定手段によって指定されたワードの直前に
位置するワードとしての前方語を所定の文章中から抽出
する前方語抽出手段と、 前記ワード指定手段によって指定されたワードの直後に
位置するワードとしての後方語を所定の文章中から抽出
する後方語抽出手段と、 ワード処理の対象となる文章を指定する文章指定手段
と、 この文章指定手段によって指定された文章中で前記前方
語抽出手段と後方語抽出手段によって抽出された前方語
と後方語によって挟まれたワードを前記ワード指定手段
によって指定されたワードの関連語として出力する関連
語出力手段とを具備することを特徴とするワード処理シ
ステム。 - 【請求項6】 前記関連語出力手段によって出力された
関連語についてそれらの出現頻度を算出する出現頻度算
出手段と、 この出現頻度算出手段によって所定の頻度以上とされた
関連語を確度の高い関連語として選別する高確度関連語
選別手段とを具備することを特徴とする請求項5記載の
ワード処理システム。 - 【請求項7】 ワード処理の対象となる文章が指定され
たときのこの文章を構成するワードを順に抽出するワー
ド抽出手順と、 このワード抽出手順によって抽出されたそれぞれのワー
ドの中から関連語を求める対象としての特定ワードを検
索する特定ワード検索手順と、 前記ワード抽出手順によって抽出された一連のワードの
うちで特定ワード検索手順によって検索された特定ワー
ドの直前に位置するワードとしての前方語を抽出する前
方語抽出手順と、 前記ワード抽出手順によって抽出された一連のワードの
うちで前記特定ワード検索手順によって検索された特定
ワードの直後に位置するワードとしての後方語を抽出す
る後方語抽出手順と、 前記ワード抽出手順によって抽出された一連のワードの
中から、前記前方語抽出手順および後方語抽出手順によ
ってそれぞれ抽出された前方語と後方語のそれぞれ1つ
ずつによって挟まれたワードを抽出して前記特定ワード
の関連語とする関連語抽出手順とを具備することを特徴
とする記憶媒体。 - 【請求項8】 関連語抽出手順によって抽出された関連
語によって検索される文書を前記関連語抽出手順の格納
された媒体と同一の媒体に格納したことを特徴とする請
求項7記載の記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29252096A JP3618931B2 (ja) | 1996-11-05 | 1996-11-05 | ワード処理システムおよびワード処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29252096A JP3618931B2 (ja) | 1996-11-05 | 1996-11-05 | ワード処理システムおよびワード処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10134077A true JPH10134077A (ja) | 1998-05-22 |
JP3618931B2 JP3618931B2 (ja) | 2005-02-09 |
Family
ID=17782878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29252096A Expired - Fee Related JP3618931B2 (ja) | 1996-11-05 | 1996-11-05 | ワード処理システムおよびワード処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3618931B2 (ja) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03116375A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 情報検索装置 |
JPH03116377A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 情報検索装置 |
JPH03172966A (ja) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置 |
JPH03286372A (ja) * | 1990-04-02 | 1991-12-17 | Ricoh Co Ltd | キーワード抽出装置 |
JPH04123264A (ja) * | 1990-09-14 | 1992-04-23 | Hitachi Ltd | 関連語テーブル作成装置及び文書検索装置 |
JPH056398A (ja) * | 1991-06-28 | 1993-01-14 | Ricoh Co Ltd | 文書登録装置及び文書検索装置 |
JPH07192010A (ja) * | 1993-12-27 | 1995-07-28 | Canon Inc | 文書処理装置 |
JPH0895982A (ja) * | 1994-09-29 | 1996-04-12 | Ricoh Co Ltd | キーワード抽出装置 |
JPH08241328A (ja) * | 1995-03-06 | 1996-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム |
-
1996
- 1996-11-05 JP JP29252096A patent/JP3618931B2/ja not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03116375A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 情報検索装置 |
JPH03116377A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 情報検索装置 |
JPH03172966A (ja) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置 |
JPH03286372A (ja) * | 1990-04-02 | 1991-12-17 | Ricoh Co Ltd | キーワード抽出装置 |
JPH04123264A (ja) * | 1990-09-14 | 1992-04-23 | Hitachi Ltd | 関連語テーブル作成装置及び文書検索装置 |
JPH056398A (ja) * | 1991-06-28 | 1993-01-14 | Ricoh Co Ltd | 文書登録装置及び文書検索装置 |
JPH07192010A (ja) * | 1993-12-27 | 1995-07-28 | Canon Inc | 文書処理装置 |
JPH0895982A (ja) * | 1994-09-29 | 1996-04-12 | Ricoh Co Ltd | キーワード抽出装置 |
JPH08241328A (ja) * | 1995-03-06 | 1996-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム |
Also Published As
Publication number | Publication date |
---|---|
JP3618931B2 (ja) | 2005-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5873660A (en) | Morphological search and replace | |
US5694559A (en) | On-line help method and system utilizing free text query | |
US6473754B1 (en) | Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program | |
JP2742115B2 (ja) | 類似文書検索装置 | |
CN111428494A (zh) | 专有名词的智能纠错方法、装置、设备及存储介质 | |
US6219665B1 (en) | Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program | |
Capstick et al. | A system for supporting cross-lingual information retrieval | |
JP2005251115A (ja) | 連想検索システムおよび連想検索方法 | |
Krishnaveni et al. | Automatic text summarization by local scoring and ranking for improving coherence | |
Ahmed et al. | Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness | |
JP6260294B2 (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
US7684975B2 (en) | Morphological analyzer, natural language processor, morphological analysis method and program | |
JP7110554B2 (ja) | オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法 | |
JPH103480A (ja) | 文書検索方法および装置 | |
JPH10134077A (ja) | ワード処理システムおよび記憶媒体 | |
JP2000194721A (ja) | 文書群分類装置および文書群分類方法 | |
JP4378106B2 (ja) | 文書検索装置、文書検索方法及びプログラム | |
JP2018156552A (ja) | 計算機システム及び文章データの検索方法 | |
JP2000285122A (ja) | シソーラス生成装置および方法,ならびにシソーラス生成プログラムを記録した記録媒体 | |
JPH07134720A (ja) | 文章作成システムにおける関連情報提示方法及び装置 | |
JP3486406B2 (ja) | 特許情報検索装置 | |
JP2005158044A (ja) | 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置 | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
JPS61248160A (ja) | 文書情報登録方式 | |
JP2004133510A (ja) | 技術文献検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040302 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040506 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040921 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041111 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081119 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081119 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091119 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091119 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101119 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |