JP2008234047A - 関連語統合システム - Google Patents

関連語統合システム Download PDF

Info

Publication number
JP2008234047A
JP2008234047A JP2007069365A JP2007069365A JP2008234047A JP 2008234047 A JP2008234047 A JP 2008234047A JP 2007069365 A JP2007069365 A JP 2007069365A JP 2007069365 A JP2007069365 A JP 2007069365A JP 2008234047 A JP2008234047 A JP 2008234047A
Authority
JP
Japan
Prior art keywords
word
words
representative
frequency
related word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007069365A
Other languages
English (en)
Other versions
JP4899128B2 (ja
Inventor
Yoshihiro Uno
喜博 宇野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INDUSTRIAL PROPERTY COOPERATION CENTER
Original Assignee
INDUSTRIAL PROPERTY COOPERATION CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INDUSTRIAL PROPERTY COOPERATION CENTER filed Critical INDUSTRIAL PROPERTY COOPERATION CENTER
Priority to JP2007069365A priority Critical patent/JP4899128B2/ja
Publication of JP2008234047A publication Critical patent/JP2008234047A/ja
Application granted granted Critical
Publication of JP4899128B2 publication Critical patent/JP4899128B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 検索式におけるOR結合の語を行とする集合の関連語群から、関連語辞書を作成する関連語統合システムの提供
【解決手段】 検索時に、分野とともに入力された検索式のOR結合の語を行とする集合の関連語群から、関連語辞書を作成する関連語統合システムである。まず、検索式から関連語群を取り込む(S100)。取り込んだ関連語群から各語の出現の数を累積した頻度の順に前記関連語群の各語を並べた語頻度順表を作成する(S110)。そして、関連語頻度順表の頻度順に代表語を選択して、該代表語の関連語を前記関連語群の該代表語が含まれる各行から分野とともに抽出し、前記抽出した関連語の頻度及び該関連語に対応する分野の頻度を蓄積して、関連語辞書の項目を作成する(S130)。
この関連語辞書は、代表語に対する関連語をまとめ、頻度・分野も付与されている。
【選択図】図4

Description

この発明は、テキスト・データベースに対して、検索論理式を用いて検索するに際し、論理式のOR結合された語群を抽出した複数の関連語群から関連語辞書を作成・統合する、関連語統合システムに関するものである。
文字即ちテキストを含む資料の集合体である「テキスト・データベース」を検索して、検索者が必要としている資料を見つけ出す検索システムが用いられている。
この検索システムの構成例を図1に示す。図1において、サーバ等に構築したテキスト・データベース・システム20に対して、インターネットやLAN等の電気通信回線27を介して、液晶等の表示装置25,キーボード・マウス等の入力装置26を備えた、検索端末23から、検索式等を入力して、データベースから目的の文献等の検索を行う。この検索システムでは、検索者がテキスト検索式を作成・入力し、当該検索式が示す内容と一致する、文字配列を持つ資料が抽出されるのである。サーバに構築される「テキスト・データベース」としては、特許公報、新聞や雑誌記事、学会論文、インターネット上のテキスト資料、その他テキストからなる資料、これらの要約などの二次資料、あるいはこれらに関連して付与してある見出し語やタグである。図、画像、動画、音、などからなる資料に付与してある、テキストによる、解説、見出し語、タグ、などの集合である。
テキストによる検索では、例えば、「銀塩フィルムを使用しないで、電子的に撮影するカメラ」の概念を表す、「デジタルカメラ」をテキスト検索式に用いると、コンピュータは「デジタルカメラ」と全く同じ文字列を含む資料しか抽出しない。しかしながら、それぞれの人が記述する文章の表現は千差万別である。そのほかに、「電子カメラ」、「CCDカメラ」、「静止画カメラ」、「電子スチルカメラ」、「デジカメ」、その他の表現が多数ある。この様な、概念が関連している語の関係を「類義語」、その語群を「類義語群」と呼び、「類義語群」を集めて使用の便利を計ったものが「類義語辞書」である。
従って、検索式に「デジタルカメラ」のみを使用すると、「デジタルカメラ」の意味で他の表現が使用された資料は抽出されないが、類義語をOR結合で用いることによって、即ち、検索式を
デジタルカメラ+電子カメラ+CCDカメラ+静止画カメラ+電子スチルカメラ+デジカメ −−(1)
とすることで抽出漏れを減らすことが可能となる。
類義語辞書の作成やその後の修正維持は、人手で行った場合膨大な労力を必要とするので、コンピュータを用いる試みが行われている。
特許文献1には、類義語辞書の作成に際して、語の収集、分類にコンピュータを用いて自動作成する試みが記載されている。検索対象文書から、形態素解析を用いて文を構文解析し、得られた単語間の関係から単語群を纏める例、連想を用いる例、意味解析を行う例、共起関係と出現頻度から閾値を超えた語を辞書登録する例が示されている。
特許文献2〜5においては、検索者が入力した検索式やログデータを解析して、類義語辞書に蓄積する構成が示されている。
特開平8−161343号公報 特開平6−314296号公報 特開平10−320419号公報 特開平11−312168号公報 特開平9−319767号公報
従来の技術で示した特許文献に記載されている、形態素解析、構文解析、連想、意味解析、共起関係の利用等の自然言語処理を使用することによる関連語の集積は、未だ人間が使用する言葉の多様さ、複雑さを理解するには至っておらず、そこから生成される関連語辞書は実用性において不十分なものである。
また、検索者が入力した検索式やログデータを解析して、類義語辞書,関連語辞書等に蓄積する構成のものは、語群の整理統合の問題に関して取り扱っていない。
本発明の目的は、検索式から抽出した語群から、類義語を含む関連語を作成する関連語辞書統合システムを提供するものである。
上述の発明の目的を達成するために、本発明は、検索時に入力された検索式のOR結合の語を行とする集合の関連語群から、関連語辞書を作成する関連語統合システムであって、代表語を重複なく選択する代表語選択手段と、選択された代表語の関連語を、前記関連語群の該代表語が含まれる全ての行から抽出し、前記抽出した関連語、該関連語が出現する頻度を蓄積する関連語蓄積手段と、前記蓄積した関連語を頻度順に並び換えて、関連語辞書の項目を作成する関連語辞書項目作成手段とを備え、代表語の選択が終了するまで、関連語辞書の項目を作成することを特徴とする。
また、検索時に、分野とともに入力された検索式のOR結合の語を行とする集合の関連語群から、関連語辞書を作成する関連語統合システムであって、代表語を重複なく選択する代表語選択手段と、選択された代表語の関連語を、前記関連語群の該代表語が含まれる全ての行から分野とともに抽出し、前記抽出した関連語、該関連語が出現する頻度及び該関連語に対応する分野が出現する頻度を蓄積する関連語蓄積手段と、前記蓄積した関連語及び分野を頻度順に並び換えて、関連語辞書の項目を作成する関連語辞書項目作成手段とを備え、代表語の選択が終了するまで、関連語辞書の項目を作成することを特徴とする。
前記関連語群から、各語の出現の数を累積した頻度の順に前記関連語群の各語を並べた頻度語順表を作成する頻度語順表作成手段をさらに備え、前記代表語選択手段は、前記代表語を該頻度語順表の頻度順に選択し、前記頻度語順表が終了するまで、関連語辞書の項目を作成するとよい。
また、前記代表語選択手段は、予め複数の語を重複無く選択した表から代表語を選択し、前記表が終了するまで、関連語辞書の項目を作成することもできる。
上述の関連語統合システムの各機能をコンピュータ・システムに実現させるためのプログラムやこのプログラムを記録した記録媒体も本発明である。
上述した本発明の関連語統合システムでは、以下の効果がある。
1)例えば、論理式からの語群が1000万行あり、辞書検索語を含む関連する概念の行が1000行ある場合でも、ある語即ち代表語で示される概念に関連する語群が1行で表現され、しかも概念が代表語に近い語ほど代表語に近い位置に示される。
従って、ORで結合する関連語検索式を作成するに際して、当該行を先頭語から順番に、1次元的に調べていけばよいので、見落としが少なく、疲労も少なく、効率的な検索式作成が行える。
2)さらに、分野を指定して表示させると、当該分野に関連して使用される語のみが抽出表示されて、一段と見やすい、使いやすい表示がなされる。
3)大きな関連語群から統合しても、小分けにして統合してから再統合しても同じ結果が得られる。従って、年度毎作成、分野毎作成してから、再統合するなどの統合関連語辞書作成上の自由度が増加する。
発明の実施形態
以下、図面を参照して本発明の実施形態を説明する。
検索者が入力した検索式から、OR結合された語群は、関連語とすることができると考えられるので、この関連語群を検索式から抽出して収集する。この収集した関連語群から関連語辞書を作成することを考える。さて、この抽出した関連語群には、次の様な課題がある。
1)行数が多い。関連語群には、収集場所や期間にもよるが例えば1000万行以上のものが考えられる。この中には同じ概念を表した行が重複存在する。
この様に重複が多い状況下では、関連語群を表示して検索に使用する際、大変に見づらい。
また、関連する行を探し出し統合していくには、多くのコンピュータ資源を必要とする。少ない計算量で目的を達成する手順の開発が求められる。
2)検索者が検索したい項目は千差万別であり、検索者の表現方法も多様であるため、関連する語群といっても各種のものがあり、どれとどれが関連する概念かを判断するのは困難が伴う。
「記憶」の関連語を例に説明する。検索式中に、この「記憶」の語を含んでOR結合して使用された例は多く、このOR結合を抽出した関連語群中の「記憶」の関連語群の中には統合処理のための判断を困難にする事例が存在する。それらを以下に示す。
a)全く同じ語の組み合わせ、語順であるもの(この場合は問題なく統合できる)
蓄積,保存,記憶,メモリ,格納,記録 −−−−(2)
蓄積,保存,記憶,メモリ,格納,記録 −−−−(3)
b)語の組み合わせは語群(2)と同じだが語順が異なるもの
メモリ,保存,記録,格納,記憶,蓄積 −−−−(4)
c)いくつかの語は語群(2)と同じものが含まれるがいくつかの語は異なるもの
記憶,蓄積,保存,メモリ,取り込み,書き込み−−−−(5)
d)語群(2)の一部の語しか含まないもの
記憶,蓄積,保存 −−−−−(6)
e)関連語と言えなくはないが、概念が僅かに離れている語を含むもの
記憶,メモリ,蓄積,格納,登録,ファイル −−−−−(7)
f)常識的に考えて、いくつかの語は関連語と考えられるがいくつかの語は関連語とは考えられないものであるが、検索時の必要性からOR結合で用いられたもの
記憶,蓄積,保存,ナレーション,会話,音声 −−−− (8)
g)使用される場面で概念を異にし、語群を異にするもの。
(以下の例では、語順は多様であるが理解をし易くするため、「記憶」を先頭に配置してある)
記憶,メモリ、RAM,ROM,HD,ノンボラ, −−−−(9)
記憶,メモリ,固定長,可変長 −−−−(10)
記憶,記念,思い出,でき事 −−−−−(11)
記憶,レジスタ,バッファ,ラッチ −−−−−(12)
記憶,リセット,プリセット,書き込み,読み出し −−−−(13)
h)他の概念のもの。この例はAD変換の概念の行である。
記憶,AD変換,A/D変換,A・D変換 −−−−(14)
i)上記b)〜h)において、語の配列順序は多様である。
これらの例は「記憶」を含む語群を例として説明したが行の中のどの語に着目するかも又課題である。ある行とある行とが同じ概念のものであるか、否かを判断する適切な手法の開発が求められる。
3)同義語の扱い。
「ディスプレイ,デスプレイ,デイスプレイ,デスプレー,ディスプレー,デイスプレー,表示」のような語の組は、同義語又は異表記と呼ばれる。文字配列が異なるが意味的には100%同じ概念の語である。同義語は関連語の中に含まれている特殊な例である。全く同じ概念であるにもかかわらず表示行の中で多数のセルを占め表示画面を見にくくする。
4)統合整理処理が完了した後の関連語辞書は見やすく使用しやすいものでなければならない。どの行が重要か、どの語が重要か、関連語検索式を作成するとき、どの語を使用すべきかが分かりやすいことが求められる。
以下で説明する本発明の実施形態は、上述の課題を全て解決するものである。
まず、本発明の1つの実施形態を図2〜図8を用いて詳しく説明する。
図2は、本発明の「関連語統合システム」のハードウェアの構成例の概略を説明するものである。
図2において、処理装置15は、コンピュータ・システムにおける中心的な装置で、関連語統合のための処理プログラム16をインストールして、関連語統合システムとして機能する。記憶装置10は、処理装置15と情報の交換ができ、関連語辞書統合システムに使用する各種の表が格納してある、あるいは格納することのできるものである。記憶装置10には、関連語統合システムに使用する、関連語群11,関連語辞書12,その他のデータ等14が格納されている。これらの関連語群11,関連語辞書12,その他のデータ等14については、後で詳しく説明する。記憶装置10内には、このほかにも必要に応じて処理の途中で使用される各種の表やデータが格納される。なお、関連語群は、背景技術で説明した検索システムの検索端末23で入力された検索式からOR結合したものをサーバ20で選択して蓄積したものであり、まだ関連語辞書に統合前のものである。
表示装置17は、処理結果等を表示し、入力装置18は処理装置15に指示を与えるためのものであり、例えばキーボードやマウスである。
なお、上述の図2に示した関連語統合システムの構成を、図1のサーバ20内に構成してもよい。
<関連語辞書の3次元マトリックス構造>
図3に、本発明の関連語辞書の3次元マトリックス構造30の概念図を示す。関連語辞書は語群の集合であるが、マトリックス構造で示すことにより説明や理解、計算機での取り扱いが容易となる。
図3においては、直交する3つの軸が原点31より出ている。3つの軸は、代表語軸32、関連語軸33、分野軸34である。通常は、このうちの2軸を用いて、2次元マトリックスとして、処理や表示に使用される。代表語、分野の意味に関しては後で説明する。
以下で、関連語辞書の表示の際、図3に示した3次元マトリックスの部分としての2次元マトリックスで提示する。本発明では以下マトリックス構造を用いて説明するが、辞書の構造はこれに限るものではない。
<統合処理>
本発明の実施形態において取り扱うのは、検索論理式で用いられた式から抽出した関連語群である。関連語とは言えない語群を含む場合もあるが、検索論理式で、OR結合で使用された語群は、関連語として扱う。OR結合とは、ORの他、+、空白、等「又は」の意味で結合されていた語群を集めたものである。
以下に検索論理式の例を示す。
Y1=カメラ+表示+液晶+撮影 −−−(15)
Y2=(カメラ+表示+液晶+撮影)*(案内+観光) −−−(16)
Y3=(カメラ+表示+液晶+撮影)+(案内+観光) −−−(17)
Y4=カメラ+表示+液晶+撮影+案内+観光 −−−(19)
Y5=(カメラ+表示+液晶+撮影)近傍式記号(案内+観光)−−−(20)
関連語群は上記のごとき多様な表現から、1組のOR結合された部分を1群の、即ち1行の関連語として集め、配列したものである。上記Y2式、Y3式、Y5式の場合には、2行の関連語群として収集される。
図4は、図2で示したシステムで行われる統合処理を示すフローチャートである。図4のフローチャートでは、検索式からOR結合したものを蓄積した新規の関連語群を統合して、図3にその概念を示した関連語辞書12を作成する工程を説明している。
まず、検索式からの関連語群を取り出して、関連語群11として記憶装置10に格納する工程(S100)である。本実施形態では、検索論理式を入力するときに、分野を指定できる。この検索論理式を収集するときには、指定された分野も合わせて収集している。
図5は、この様にして収集された関連語群11の例である。行内語順は検索式に使用された順である。図5では、論理式を入力したときに、すべて分野を指定している。図5の分野記号の列には、例えば、図6に分野一覧表の例として示すような、検索対象の分野を示す記号を記入している。
検索時に分野を指定しないで検索を行った場合には、分野のセルは空白である。分野記号の箇所が空白のセルは、後で説明する処理を行い、推定分野を記入する。
なお、分野が指定されていないセルに関しては、人間による指定を行っても良いし、空白のままでも良い。空白のときは空白という分野が指定されたことになる。
(分野の記号例)
図6は、本実施形態で用いている分野の記号例を示している。これは、階層構造をしている場合の記号を示している。ある分野で、下位に具体的分野が存在する場合には、下位の分野が示される。例えば、「機械」分野(階層3:CAA)の下位(階層4)に「カメラ」分野(CAA1)があり、更にその下位(階層5)に「デジタルカメラ」分野(CAA11)と「フィルムカメラ」分野(CAA12)がある。
(頻度語順表)
次に、「頻度語順表」を作成する工程(図4のS110)を行う。
「頻度語順表」はこれから統合しようとする「関連語群」に含まれる全ての語を重複無く、出現した回数である頻度の降順に並べたものである。この「頻度語順表」(図7参照)は、後の代表語を順次選ぶときに用いている。この表を作成するためには、「関連語群」の各語の現れる回数を各語ごとに求め、それを降順に並べる処理を行う。
(代表語の項目(関連語辞書の基本構成要素)を作成)
代表語とは、関連語辞書の関連する語(関連語)で形成される各項目において、その項目を代表する語である。代表語は、関連語辞書の各項目内の語において、最も使用される頻度の高い語である。以下で、「頻度語順表」(図7参照)から頻度の高い順に、代表語となる語を選んで、順次、選んだ語を代表語とする関連語辞書の項目を作成する。
まず、「頻度語順表」から最初の「代表語」を選ぶ工程(図4のS120)を行う。この場合、図7に示した頻度語順表から、最初の(即ち、頻度が一番高い)「表示」が選ばれる。
次に、この代表語に関連する語を選び、頻度と分野を付与して、「選択した代表語の項目を作る」工程(図4のS130)を行う。この工程が終了すると、図8に示すような、代表語を先頭語として、行方向に代表語の関連語が左から右に頻度の降順に並び、先頭語を含む各語を最上行として、その下の列として、当該語を抽出した論理式の指定テーマである(検索時の)分野記号が分野頻度の降順に並ぶ項目ができる。これが、関連語辞書の基本構成要素であり、各関連語及び分野記号の下には頻度が記されている。
図8は代表語が「表示」の項目であるが、代表語を含め36語であるため、3つの図(図8(a)〜図8(c))に分けて図示してある。
なお、図8に示した頻度の表示は、概念を表わすためであり、実際の記憶方式を表わすものではない。頻度が語や分野記号に関連づけられていれば、どのような記憶方式でも良い。
「選択した代表語の項目を作る」工程(図4のS130)の詳細を、図9に示す。
図9において、まず、関連語群(図5参照)の当該行(この場合、第1行目)を選択して、読み取る(S131)。そして、当該行に当該代表語(この場合は「表示」)があるかを調べる(S132)。無ければ(No)S134の工程に移行する。あれば(Yes)S133の工程に移行する。
この場合、第1行目に代表語である「表示」がある(Yes)ので、この行の各語を順次抽出する(S133)。このときに抽出した当該代表語を含む行の全ての語は当該代表語の関連語であり、論理式を作成するときに分野記号として指定した分野の語である。
そして、抽出した行の各語を抽出順に、同じ語があるかを、関連語辞書の代表語の行(この場合、「表示」の行)の左端から順次調べ、一致した語があればその語の頻度に1を加算する。最後の語まで調べても一致する語が無いときは、最後の語の右に当該語を書き、頻度を1とする(即ち、0に1を加算)。これを関連語群から抽出した行の全ての語に対して行う。この場合は、最初なので、一致する語がなく、単に行の各語を順にならべ、頻度を1とする。
語の頻度を1加算した場合、その語に対応する分野記号があればその分野の頻度1を加算し、分野記号が無ければ分野記号を最後の記号の下のセルに書き、頻度を1とする。この場合、最初なので、対応する分野記号がなく、分野記号を関連語の行の下に書き込み、頻度を全て1とする。
このように、S133の工程では、関連語群の当該行(図5参照)の語を、作成中の関連語辞書の行方向に頻度を加算しつつ重複無く並べ、頻度を加算した語の列に、列方向に頻度を加算しつつ、対応する分野記号を重複無く並べるような処理を行う。
次に、関連語群の当該行が最終行かを調べる(S134)。最終行であれば(Yes)S135の工程に移行する。最終行でなければ(No)、関連語群(図5)の行を1行下げて(進めて)(S131)、S132の工程に戻る。
そして、関連語群が最終行である場合(Yes)、関連語の行の語毎に(列毎に)分野記号の頻度をキーとして、当該語に続けて上から下に分野記号を降順に並べ換える(S135)。その後関連語の頻度をキーとして、代表語列に続けて左から右に関連語の列を降順に並べ換える。
この工程(S135)が終了すると、図8に例示する当該代表語(例:表示)に対する関連語辞書の項目ができる。
図4に戻って、最終まで処理を行ったか(頻度語順表の最終代表語候補か)を調べる(S140)。最終まで処理を行う(Yes)と工程は終了し、関連語辞書が完成する。最終行でなければ(No)、次の代表語を選択する工程(120)に戻り、また、関連語辞書の項目作成の工程(S130)に移行する。
このようにして作成した関連語辞書を図10に示す。図10は、図5の関連語群から作成した関連語辞書の一部分である。図10は、語「表示」を原点(図3の原点31)とし、縦軸に代表語、横軸に関連語を、紙面の範囲で示したものである。「・・・・・」は続きがあることを示している。図10のセルには、上段左詰めで語を、下段右詰めで頻度を示している。図3の概念図から理解できるように、図10に示した関連語辞書の各行は、代表語軸32と関連語軸33を2軸とする2次元のマトリクスで表示することができる。また、必要に応じて、図8に示した様な、関連語軸33を横軸とし、分野軸34を縦軸とする2次元マトリックス表示をすることもできる。
他の実施形態
<複数の関連語辞書の統合処理>
複数の小さな関連語辞書を統合して、新たな関連語辞書を作ることもできる。
図11〜図14を用いて、関連語辞書の統合処理を説明する。図11は、統合処理を説明するフローチャートである。図12Aと図12Bは統合対象の比較的小さな関連語辞書である。図12A,図12Bは、統合処理の説明のために、図5の類義語群の前半(行番号1〜25)の部分,後半(行番号26〜50)の部分から作成した関連語辞書である。
図11において、まず、図12A,図12Bに示す統合対象の関連語辞書を読み出す(S210)。次に、頻度語順表を作る(S220)。この頻度語順表は、図7に示した頻度語順表と同じものであり、図12A及び図12Bの関連語辞書から作成する。
なお、この頻度語順表は、図12Aと図12Bに示した関連辞書ごとに作成して、マージしてもよい。このとき、対応する語がある場合、その頻度は加算される。
そして、頻度語順表から、最初の代表語を選択する(S230)。図13に示した頻度語順表の最初の語「表示」を最初の代表語(代表語行番号=1)に選択する。
次に、統合後の関連語辞書の項目を作る(図11のS240)。この工程(S240)では、各「小さな関連語辞書」から当該代表語が代表語である項目(当該項目)を選び出し、各当該項目に含まれる語とその頻度を加算して、当該代表語が代表語である統合後の関連語辞書の項目を作成する。統合後の関連語辞書の項目に関連語の重複はない。
この処理を、当該代表語として、頻度語順表で2番目の語である「マップ」を代表語候補として選び出し、これを代表語とする統合した関連語辞書の項目とする処理を行う場合で説明する。図14は、当該項目を作成する手順を分かりやすく説明するためのものである。
さて、図12Aの関連語辞書において、代表語が「マップ」である項目は5番目である。この行を図14(a)の行記号A5として示す。図12Bの関連語辞書において、代表語が「マップ」の項目は6番目であり、これを図14(b)の項目記号B6として示す。図14(a)の行記号A5の項目と図14(b)の項目記号B6の項目との統合処理を行う。図14(c)は、代表語を「マップ」とする、統合後の関連語辞書の2番目である。
まず、A5の項目から最初の語(マップ)を選び、この語がB6の項目にあるかを調べ、あればそれらの頻度を合計して、統合処理後の統合関連語辞書の項目記号2の項目に語と頻度を記入する。これを項目A5,項目B6の全ての語について行う。一方の行にしか無い語はそのまま、語と頻度を統合関連語辞書項目行に記入する。全ての語の統合が終了したら、統合処理後の統合関連語辞書の項目記号2の行において、代表語に続けて、関連語の頻度をキーとして関連語と関連語を降順に並べ換える。
図14(c)に示す項目はこの状態を示している。これで、代表語「マップ」の項目の統合が完了して、統合後の関連語辞書の「マップ」の項目が完成した。分野記号に関しても、図8で説明したことと同様の処理を行う。
最後は、最終代表語か(図11のS250)の工程である。最終代表語項目で無ければ、代表語選択の処理(S230)の工程に移行する。最終項目であれば、頻度語順表の全ての語を代表語とする統合後の関連語辞書の構成要素である項目が作成される。これで、小さな関連語辞書を統合して、統合済関連語辞書を作成する工程は完了する。
図12A及び図12Bを統合した辞書は、図10に示したものと同じである。このことは、関連語群を小分けにして関連語辞書を作成して、その後、関連語辞書を再統合しても、小分けにしない場合と同じ結果が得られる事を示している。新規の関連語辞書を、年度毎、分野毎作成しても同じ結果が得られるので、関連語辞書の追加、増大を行う場合の自由度を大きくする。
<代表語を予め作成した表から選択>
ここで代表語の選択に関する他の実施形態について説明する。
図4の説明においては、対象とする関連語群から頻度語順表を作成して、頻度語順表の初めから順に代表語を選択し、当該代表語に対して項目を作成した。代表語を頻度語順表から選択すると、関連語群に含まれる全ての語を過不足なく代表語に選択することができ、代表語に対して必ず1語以上の関連語が存在しているという利点がある。
ここでは、図15に示すような、予め作成した表から代表語を選択することを説明する。
図15の表は、関連語辞書作成者が代表語としたい、重複のない1以上の語を予め選択した表であり、配列の順は任意である。発生順、重要度順、頻度順、JISコード表順等としてもよい。なお、代表語に重複があっても辞書としては成り立つが、重複があれば同じ語を代表語とする複数の行が発生することとなり、辞書の質が低下する。
このような表を用いて、関連語群から、この表の語を代表語とする関連語辞書の項目を作成することができる。
図16は、図15に示すような表を用いて、関連語辞書を作成するための工程図である。図4の工程と類似であり、図4と同じ工程は、図4と同じ符号で示してある。以下の説明では、図15に示す表を用いて、処理対象とする関連語群は、図5に示したものを例として説明する。
まず、図4と同様に、関連語群を取り込む(S100)。次に、予め作成しておいた図15に示すような表を取り込む工程である(S310)。
さて、取り込んだ表の初めから、順次代表語を選択し(S320)、選択した代表語の項目を作成する(S130)。代表語の項目作成の処理は、図9に示したフローチャートと同じである。
そして、処理の最後ではない場合(S340でNO)、予め作成した図15の表から次々と読み出し(S320)、代表語の項目作成を行う(S130)。
図15は、関連語辞書作成者が代表語としたい語を表にしたものであるので、例えば、語番号が5の「ガイド」は、図5に示した関連語群に含まれていない。このように、選択された代表語が関連語群に含まれていない場合には、当該代表語の項目は作成されない。
予め作成した表の全ての語を処理した場合(S340でYES)は、処理を終了する。
<分野が指定されなかった関連語項目の分野の指定>
検索時に分野の指定が行われなかった等の理由で、収集された一部の関連語群の関連語項目に分野の情報(図5の分野記号の列)が空(未記入)の場合の措置について述べる。
1)空のままとする。空と言う分野として処置する。空のままでも良いし、空の記号「KU」を付与しても良い。
2)語群から、人間が判断し、追加記入する。
3)既存の統合済関連語辞書を使用して、関連語項目の分野をコンピュータに推定させる。
この場合、関連語項目の分野評価値を求め、当該空の分野記号欄に求めた分野評価値最大の分野の記号名を記入する。分野評価値の求め方は下記の例に限らず目的を達成する方法が使用できる。次に分野評価値の求め方の例を示す。
(分野評価値例1)
分野記号が未記入の関連語項目の例として、図5の行番号5の、関連語群「観光」、「案内」、「表示」、「マップ」を用いる。これを分野不詳関連語群とする。
図17は、図3に示した関連語辞書の3次元マトリックス構造において、代表語軸を縦軸に、分野軸を横軸とした表から、代表語が、分野不詳関連語群の語を含む項目のみを抜粋したものである。図18は、図17にある各分野記号と分野記号の頻度を合計したものとの関係を示す表である。図18において,CCAは頻度25で最多であるので、分野不詳関連語群であった語群の分野はCCAであるとして、これを図5の当該行の分野の列に記入する。評価値が同じものが複数あるときは、適当な方法で決める。例えば出現順である。
(分野評価値例2)
分野不詳関連語群の語を代表語とする分野記号の行(図17)において、全語に共通に存在する分野記号のみの頻度を合計し、頻度最大の分野を、当該語群の分野とする。図17の例ではCCAのみがこの条件を満たす。
当該語群全語に対して共通の分野が存在しない場合には、存在する最大数の語数で同様の計算から評価値を求め、分野を決める。分野不詳関連語の数が4であるが、共通の分野の最大は3である場合、3語を満たす全ての分野の頻度の合計を求めて最大のものを当該語群の分野とする。
<分野が存在していない関連語群からの関連語辞書作成>
上述では、1部の関連語群に分野が入力されていない場合について説明した。統合対象の関連語群の分野が存在しない場合もある。これは、検索時に分野が全て入力されていない場合や、同じ分野の関連語群同士の統合処理で、分野に対して処理を行う必要のない場合である。
この場合、図3の分野軸は縮退して存在せず、図4及び図9に示した統合処理では、分野及び分野の頻度についての処理は行われず、分野及び分野の頻度の項は作成されない。
<統合済関連語辞書の表示>
図19は、図1の検索システムにおいて、上述の処理で作成した関連語辞書を使用して、検索を行うときの様子を説明するものである。まず、図1のサーバ20又は検索端末23等に、上述の処理で作成された関連語辞書を格納して、検索端末23から検索できるようにする。
図19は、図1の検索端末23における表示装置25で表示されている、検索式作成をするための画面例40である。検索式は、「検索式作成領域」45に入力装置26から文字を入力して作成される。
さて、図19に示した検索入力画面において、本発明で作成した関連語辞書を用いて検索式を作成することを説明する。まず、関連語辞書に対して語検索を行うための検索語入力欄41に検索語を入力する。ここに例えば「表示」という語を入力する。さらに分野指定欄42に分野記号を入力する。図19において、分野指定欄42は空欄の状態であり分野は指定していない。分野の指定に関しては後に詳しく説明する。
これらを入力して「語検索」ボタン43を押すと、関連語辞書が検索されて、「関連語辞書検索結果表示領域」44に、検索結果が表示される。図19では、「表示」を代表語とした関連語辞書の項目が表示されている。辞書検索結果の表示方法に関しては、後に詳しく説明する。
検索を行うユーザは、この表示された関連語を参照して、カットアンドペーストで、「検索式作成領域」45に必要な語をコピーして、適切な検索式を完成させることができる。その後、「資料検索」ボタン46を押して、入力した検索式により資料を検索する事ができる。図19において、バー47は「関連語辞書検索結果表示領域」44を水平方向に、バー48は「関連語辞書検索結果表示領域」44を垂直方向にスクロールするスクロールバーであり、画面から隠れている部分を見るために使用する。「備考」49の列は、その他の必要な目的に使用し、図19では当該項目の語数「36語」を例示している。
次に、図19の「関連語辞書検索結果表示領域」44に表示する例を示す。
(表示例1)
先頭語が辞書検索語(検索語入力域41に入力した語)である項目を表示する。頻度も合わせ表示することも可能である。これが図19に示されている。多くの語が画面の右に隠れているが、スクロールバー47を操作することにより全ての語を見ることができる。
(表示例2)
先頭語が辞書検索語(検索語入力域41に入力した語)である項目の隠れている部分を、表示域44の2行目以降に折り返し表示する。
(表示例3)
2行目以降に、先頭語が辞書検索語を含む項目をそれぞれ1行で表示する。例えば、辞書検索語が「表示」の場合、先頭語が「表示装置」、「副表示」、「表示灯」、「表示ムラ」、「非表示」、「順次表示」等を先頭語とする項目を、表示する。項目の配列順序としては先頭語(代表語)の使用頻度等である。
(表示例4)
先頭語が辞書検索語(検索語入力域41に入力した語)である項目を1行に頻度と語を示し、2行目以降に各語の出身分野の分野記号と頻度を列方向(縦方向)に表示する。即ち図8の語、分野を頻度と共に1行に(図8は折り返して示してある。もちろん折り返しても良い。)表示する。
(表示例5)
表示例1〜表示例4では、分野指定がなされていない場合に関して説明した。表示例1について言えば、当該行は、代表語(先頭語)の関連語が代表語と共に用いられた使用頻度の高い順に並んでいる。検索論理式の作成に際して、採用すべき語かどうかを調べるが、時として必要な語が遙か右側にあり、手間を要する場合がある。辞書検索時に、分野指定域42で分野を指定して辞書検索を行って、指定された分野を含まない語は表示しない様にする。この事によって必要な語が代表語の近くに表示されるようになる。
次に、分野指定域42に入力する分野記号について説明する。入力の仕方に制限はない。1分野、複数分野、上位分野、分野を論理式で表現する、等の方法がある。いくつかの例を以下に示す。
分野記号入力例1。1分野入力する、CAA11。デジタルカメラ分野のみ。
分野記号入力例2。複数分野入力する。CAA11,CAA12,CCA。
分野記号記入例3。階層が上位の分野、CAA1。CAA11+CAA12と等価。
分野記号記入例4。CAA1−CCB。カメラからスポーツを除く。
分野記号記入例5。CAA1*CCA*CCB。カメラと、観光と、スポーツの全ての分野に用いられる関連語。
分野指定を行った場合でも、上記表示例1〜表示例4は可能である。
ここで、代表語が「表示」の場合に分野指定を行った例に関して例示する。図20(a)、図20(b),図20(c)は、分野指定がそれぞれ、デジタルカメラ(CAA11)、安全(BA)、観光(CCA)とし、辞書検索語を「表示」とした場合に表示される例を示したものである。分野指定を行わなければ、図8に示した表示となる。分野指定を行うことによって、分野で特徴的に使用される関連語が抽出され、利用の便利が増すことが理解される。
従来のテキスト検索システムの構成を示す図である。 関連語辞書を作成するためのシステム構成例を示す図である。 関連語辞書の概念を示す図である。 関連語辞書の作成処理のフローチャートを示す図である。 作成された関連語群を示す図である。 分野の記号構成を示す図である。 作成された頻度語順表を示す図である。 代表語「表示」の関連語辞書の項目を示す図である。 関連語の項目を作成するフローチャートである。 作成された関連語辞書の内容を示す図である。 複数の関連語辞書を統合する処理を示すフローチャートである。 統合対象の関連語辞書Aを示す図である。 統合対象の他の関連語辞書Bを示す図である。 作成された頻度語順表を示す図である。 統合される関連語辞書の項目の作成処理を説明するための図である。 関連語辞書作成者が予め選択した、代表語としたい語の表を示す図である。 図15の表を用いて代表語を選択し、関連語辞書を作成するフローチャートである。 関連語辞書の代表語と分野との関係を説明するための図である。 関連語の分野評価値の例を示す図である。 関連語辞書の画面表示を示す図である。 代表語が「表示」で分野指定した場合の表示例を示す図である。

Claims (6)

  1. 検索時に入力された検索式のOR結合の語を行とする集合の関連語群から、関連語辞書を作成する関連語統合システムであって、
    代表語を重複なく選択する代表語選択手段と、
    選択された代表語の関連語を、前記関連語群の該代表語が含まれる全ての行から抽出し、前記抽出した関連語、該関連語が出現する頻度を蓄積する関連語蓄積手段と、
    前記蓄積した関連語を頻度順に並び換えて、関連語辞書の項目を作成する関連語辞書項目作成手段とを備え、
    代表語の選択が終了するまで、関連語辞書の項目を作成することを特徴とする関連語統合システム。
  2. 検索時に、分野とともに入力された検索式のOR結合の語を行とする集合の関連語群から、関連語辞書を作成する関連語統合システムであって、
    代表語を重複なく選択する代表語選択手段と、
    選択された代表語の関連語を、前記関連語群の該代表語が含まれる全ての行から分野とともに抽出し、前記抽出した関連語、該関連語が出現する頻度及び該関連語に対応する分野が出現する頻度を蓄積する関連語蓄積手段と、
    前記蓄積した関連語及び分野を頻度順に並び換えて、関連語辞書の項目を作成する関連語辞書項目作成手段とを備え、
    代表語の選択が終了するまで、関連語辞書の項目を作成することを特徴とする関連語統合システム。
  3. 請求項1又は2に記載の関連語統合システムにおいて、
    前記関連語群から、各語の出現の数を累積した頻度の順に前記関連語群の各語を並べた頻度語順表を作成する頻度語順表作成手段をさらに備え、
    前記代表語選択手段は、前記代表語を該頻度語順表の頻度順に選択し、
    前記頻度語順表が終了するまで、関連語辞書の項目を作成することを特徴とする関連語統合システム。
  4. 請求項1又は2に記載の関連語統合システムにおいて、
    前記代表語選択手段は、予め複数の語を重複無く選択した表から代表語を選択し、
    前記表が終了するまで、関連語辞書の項目を作成することを特徴とする関連語統合システム。
  5. 請求項1〜4のいずれかに記載の関連語統合システムの各機能をコンピュータ・システムに実現させるためのプログラム。
  6. 請求項1〜4のいずれかに記載の関連語統合システムの各機能をコンピュータ・システムに実現させるためのプログラムを記録した記録媒体。
JP2007069365A 2007-03-16 2007-03-16 関連語統合システム Expired - Fee Related JP4899128B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007069365A JP4899128B2 (ja) 2007-03-16 2007-03-16 関連語統合システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007069365A JP4899128B2 (ja) 2007-03-16 2007-03-16 関連語統合システム

Publications (2)

Publication Number Publication Date
JP2008234047A true JP2008234047A (ja) 2008-10-02
JP4899128B2 JP4899128B2 (ja) 2012-03-21

Family

ID=39906786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007069365A Expired - Fee Related JP4899128B2 (ja) 2007-03-16 2007-03-16 関連語統合システム

Country Status (1)

Country Link
JP (1) JP4899128B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107603A (ja) * 2017-03-10 2017-06-15 一般財団法人工業所有権協力センター 関連語統合プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314296A (ja) * 1993-03-02 1994-11-08 Fujitsu Ltd 情報検索システム
JPH09319767A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 類義語辞書登録方法
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JP2002518748A (ja) * 1998-06-15 2002-06-25 アマゾン ドット コム インコーポレイテッド 検索照会改善システムおよび方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314296A (ja) * 1993-03-02 1994-11-08 Fujitsu Ltd 情報検索システム
JPH09319767A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 類義語辞書登録方法
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JP2002518748A (ja) * 1998-06-15 2002-06-25 アマゾン ドット コム インコーポレイテッド 検索照会改善システムおよび方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107603A (ja) * 2017-03-10 2017-06-15 一般財団法人工業所有権協力センター 関連語統合プログラム

Also Published As

Publication number Publication date
JP4899128B2 (ja) 2012-03-21

Similar Documents

Publication Publication Date Title
US11048882B2 (en) Automatic semantic rating and abstraction of literature
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
US20090300046A1 (en) Method and system for document classification based on document structure and written style
JP4959603B2 (ja) ドキュメントを解析するためのプログラム,装置および方法
JP2009015796A (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
JP2009288870A (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
JP4719921B2 (ja) データ表示装置およびデータ表示プログラム
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP4899128B2 (ja) 関連語統合システム
JP3937741B2 (ja) 文書の標準化
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2009064213A (ja) 目的指向書籍推薦システム
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
JP2000020538A (ja) 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
JP5679400B2 (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
Putra et al. BudayaKB: Extraction of cultural heritage entities from heterogeneous formats
JP2009265770A (ja) 重要文提示システム
JP2017107603A (ja) 関連語統合プログラム
Behrisch et al. The News Auditor: Visual Exploration of Clusters of Stories.
JP7324577B2 (ja) テキスト処理方法及び、テキスト処理装置
JP2004070376A (ja) 文書表示装置および方法
Thanadechteemapat et al. Thai word segmentation for visualization of thai web sites
JP7403216B2 (ja) テキスト表示方法及び、テキスト表示装置
US20230205779A1 (en) System and method for generating a scientific report by extracting relevant content from search results

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081211

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111213

R150 Certificate of patent or registration of utility model

Ref document number: 4899128

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees