JP2840664B2 - 意味分類方法 - Google Patents

意味分類方法

Info

Publication number
JP2840664B2
JP2840664B2 JP1105926A JP10592689A JP2840664B2 JP 2840664 B2 JP2840664 B2 JP 2840664B2 JP 1105926 A JP1105926 A JP 1105926A JP 10592689 A JP10592689 A JP 10592689A JP 2840664 B2 JP2840664 B2 JP 2840664B2
Authority
JP
Japan
Prior art keywords
document
keyword
classification
keywords
thesaurus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1105926A
Other languages
English (en)
Other versions
JPH02285419A (ja
Inventor
哲也 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1105926A priority Critical patent/JP2840664B2/ja
Publication of JPH02285419A publication Critical patent/JPH02285419A/ja
Application granted granted Critical
Publication of JP2840664B2 publication Critical patent/JP2840664B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は文書検索装置、より具体的には文書データベ
ース等に登録しようとする文書中に同形異義語(同一表
記を持ちながら意味の異なる語)が存在する場合、同形
異義語の意味を判定する文書検索装置における意味分類
方法に関する。
[従来の技術] 多量の文献が発表される情報化洪水時代において、電
子計算機を利用した様々な文献検索システムが開発され
ている。このような従来技術としてたとえば長尾他によ
る「日本語文献における重要語の自動抽出」、情報処理
1976年第17巻、第2号に記載のものがある。
これに記載された方式は、キーワードの出現頻度の偏
りを用いてキーワードを分類する方式であり、あらかじ
め大量の標本データを分類別に分類してカイ自乗値を計
算し、分類用データを用意しておく必要がある。
[発明が解決しようとする課題] しかしながらこのような従来技術では、この標本デー
タの分類に人手による作業が必要となる。このため、人
的分類によるばらつきや不適切さが介入する確率が高
い。
その他以下のような短所を持つ。同一表記を持つ異義
語(同形異義語)の分離ができない。あらかじめ設定さ
れた分野にしか分類できない。複数の分野にまたがった
概念を持つ語彙や所属分類が設定されていない語彙も無
理矢理分類してしまう欠点がある。
なお、同形異義語とは、同一の表記を持ちながら意味
の異なる語である。例えば、「カラー」は“色”と
“襟”の2種類の意味を持ち、「INS」は“高度情報通
信システム”、“慣性航法システム”または“絶縁”の
3種類の意味を持つ。特に「INS」のようなアルファベ
ット3文字略語には同形異義語が数多くある。これらの
同形異義語を表記だけで分類した場合、検索機能(検索
結果の適合性、分離性)を劣化させる原因となる。一般
にキーワード分類集(シソーラス)の中の同形異義語の
いくつかは、あらかじめその意味によって分類されてい
るか、Use参照として他の表記が用意されていたり、関
連語を使用するようにして衝突を避けている。しかしこ
れは利用者にとって不便であり、混乱を招く原因にもな
っていた。
本発明はこのような欠点を解消し、人手によるキーワ
ード分類を必要とせず、同形異義語も分離して意味分類
ができる意味分類方法を提供することを目的とする。
[課題を解決するための手段] 本発明は上記目的を達成するために、キーワードを所
定のキーワード分類に分類したシソーラスを有する文書
検索装置における意味分類方式は、シソーラスに含まれ
るキーワードを多数の文書から抽出し、キーワードごと
の出現頻度を統計処理し同一表記を持つ異義語である同
形異義語を含む文書が新たに入力されたとき文書からキ
ーワードを抽出し、キーワードから同形異義語を除いた
キーワードと所定の計算式を用いて文書の意味を示す概
念的特徴量を求め、文書の概念的特徴量と各同異義語候
補の概念的特徴量との距離が最小となる候補を前記文書
の意味とする。
[作 用] 本発明による文書検索装置は、シソーラスのキーワー
ドを多数の文書から抽出し、その出現頻度を統計処理
し、同形異義語を含む文書から抽出した同形異義語をシ
ーソラスのキーワードから除いたキーワードと所定の計
算式から文書の意味を示す概念特徴量を求める。次に文
書と各同形異義語候補とそれぞれの概念特徴量の距離が
最小となる候補を文書の意味とする。
[実施例] 次に添付図面を参照して本発明による意味分類方法の
実施例を説明する。
本実施例では、体系的に語彙分類されたシソーラス
や、多数の標準文書を統計的処理することによって作成
された語彙分類等を概念空間と考える。そして、この空
間において同一表記を持つ異義語と、その語を含む文書
とをベクトルで表わし、両者の概念的距離を計算するこ
とにより同形異義語の意味分類を行なう。すなわち、同
実施例では第2図に示すような体系に分類されたキーワ
ード分類集と、標準となる多数の文書を統計処理して得
られる各分類kにおけるキーワードjの理論経験確率Po
(k,j)とを作成し、保持しておく。
第1図に本発明による同形異義語分類方式の実施例を
示す概念検索装置の構成を示す。概念検索装置30におい
て、その理論経験確率計算部10および文書検索部12は、
互いに接続され、文書データベースファイル22に共通に
接続されている。理論経験確率部10は、接続されている
シソーラスファイル20と、文書データベースファイル22
から登録文書1を用いてキーワードの標本空間と分類の
標本空間が独立であると仮定したときのM*N事象の経
験化率(理論経験確率)を求める。
前述のキーワード分類集は、キーワードを要素事象と
する有限標本空間と、分類を要素事象とする有限標本空
間との直積標本空間である。ここでキーワードの種類の
数をM、キーワード分類集の分類の数をNとするとこの
直積標本空間はM*N個の事象を持つ。いまキーワード
の標本空間と分類の標本空間が独立であると仮定したと
きのM*N事象の経験確率を理論経験確率と呼び、個々
のキーワードの経験確率と個々の分類の経験確率とを用
いて以下のように求めることができる。
分類kとキーワードjのそれぞれの経験確率PC
(k).PK(j)は、分類kに含まれるキーワードの出
現度数をNC(k)、キーワードjの出現度数をNK
(j)、キーワードの述べ出現度数をSとすると、以下
の式で表わされる。
分類kにおいてキーワードjが出現する理論経験確率
Po(k,j)および理論出現頻度No(k,j)は、次式で表わ
される。
Po(k,j)=PC(k)*PK(j) …(3) No(k,j)=Po(k,j)*S =PC(k)*PK(j)*S …(4) キーワードの集合である分類を1つの次元と考えれ
ば、N個の分類で構成されるシソーラスは、N次元のユ
ークリッド空間Rnとして定義できる。このユークリッド
空間Rn上の点(位置)はN要素からなるベクトルで指し
示され、語彙や文書に対してもこの空間上の位置関係を
定義することができる。ここでは、このようなユークリ
ッド空間を概念特徴量空間と呼ぶ。概念特徴量空間で
は、語彙や文書がN個の各分類に対してどれだけ帰属し
ているかを示すN個の数値(帰属度と呼ぶ)からなるN
次元ベクトルCF∈Rnによって、それらの語彙や文書の概
念的位置が定められる。
キーワード集の分類数をN、文書iから分類kへ帰属
する度合をRk(i)とすると、文書iの概念特徴量ベク
トルとしてCF(i)は(5)式のように表現できる。
CF(i)=[R1(i),R2(i).…,Rk(i), …,RN(i)] …(5) ここで、文書iの分類kへの帰属度Rk(i)の計算方
式の例としては以下のようないくつかの方式が考えられ
る。文書iに含まれるキーワードの種類の数をqr、文書
i中のキーワードjの出現度数をNKi(j)とすると、 方式1:文書iにおける分類kのキーワードの出現頻度
の総和をキーワードの延べ出現頻度数で正規化したも
の。
方式2:文書iにおける分類kのキーワードの出現度数
と理論出現頻度との差にカイ自乗値を掛けたもの。
Rk(i)={NKi(j)−N0(k,j)}*xk 2 ={NKi(j)−P0(k,j)}*qr}*xk 2 …(7) xk 2:分類kにおけるキーワード出現度数のカイ自乗値 なお、カイ自乗値とは、体系的に語彙分類されたシソ
ーラスを用いて、キーワード等が各分類に出現する偏り
を求めるカイ自乗検定と呼ばれる統計的手法において使
用される。これは語彙をあらかじめ設定した分類へ自動
的に分類する方式である。カイ自乗検定ではまずキーワ
ードの出現頻度の分類による偏りを示す指標としてカイ
自乗値を求める。カイ自乗値は、各キーワードの出現頻
度値と各分類ごとの総キーワード数が独立事象であると
仮定した場合のキーワードの出現頻度値を理論度数と
し、実測値との差を求め正規化したものである。
文書検索部12は、理論経験確率部10より入力されるベ
クトル間距離Dにより、複数の語彙または文書を昇順ま
たは降順にソートして表示部2に表示させる。
理論経験確率計算部10は、同形異義語の意味分類を行
なう場合、新たに登録しようとする文書が入力されると
その文書からキーワードが抽出し、さらにそれらの出現
度数を計算する。そして、入力文書から抽出されたキー
ワードのうち既にキーワード分類集に存在しているキー
ワードの出現度数を用いて、前述のキーワード分類(概
念空間)におけるこの文書の位置を指し示すN次元ベク
トルを求める。このベクトルをここでは文書の概念特徴
量ベクトルと呼ぶ。文書の概念特徴量ベクトルの一構成
例としては、前述のように分類数Nを次数とするベクト
ルが考えられる。このベクトルの各要素をそれぞれ該文
書の各分類への帰属度とする。
文書の概念特徴量ベクトルが求められたら、文書中の
同形意義語の判定に使用する概念距離を計算する。同形
異義語とは、前述のように同一の表記を持ちながら意味
の異なる語であり、ここではキーワード分類集におい
て、これらの同形異義語はあらかじめその意味によって
分類されているものとする。例えば、「カラー」は
“色”と“襟”の2種類の意味を持つので、前者が「カ
ラー」、後者が「カラー」のように登録されている
ものとする。
ここで、キーワードjの概念特徴量ベクトルも文書i
と同様に(8)式の形で与えられる。キーワードjの概
念特徴量ベクトルCF(j)は、 CF(j)=[R1(j),R2(j),…,Rk(j),… …,RN(j)] …(8) ただし、j∈分類kのときRk(j)=1 else Rk(j)=0 文書iの特徴量ベクトルCF(i)とキーワードjの特
徴量ベクトルCF(j)を用いてベクトル間の距離が計算
できる。文書iに現われたキーワードjに対するシソー
ラスの同形異義語を(j1,j2…js…)とすると、文書i
と同形異義語との概念距離をそれぞれ計算でき、距離が
最小となる語を文書(i)におけるキーワードとして登
録する。
計算方法の一例としてユークリッド距離を用いると概
念距離D(i,js)は、 D(i,js)を全てのjsについて求め、D(i,js)をを
最小とするjsを文書(i)中のキーワードjの意味とし
て登録する。例えば文書iから「カラー」というキーワ
ードが抽出された場合、文書iの概念特徴量ベクトルCF
(i)と、キーワード「カラー」・「カラー」との
間の概念距離Dを求め、距離が最小となるキーワードを
文書(i)のキーワードとする。
以上の様にして文書i中のキーワードjがシソーラス
の同形異義語(j1,j2,…js)のうち、どの意味に使用さ
れているのが判定できる。
第3図は、シソーラスと標準となる文書を用いて理論
的経験確率を求める動作の流れの例を示すフローチャー
トである。
理論経験確率計算部10は、登録文書1から標準文書を
読み込みキーワードを抽出する(100)。抽出キーワー
ドをキーワードファイル20に登録する(102)。ファイ
ル20の分類kに属するキーワードの出願度数をカウント
し、(1)式のNC(k)に代入する(104)。シソーラ
スファイル20に属するキーワードjの出現度数をカウン
トして(1)式のNK(j)に代入する(106)。キーワ
ードjの延び出現度数を(1),(2)式のSに代入し
(108)、PC(k),PK(j)を求める。これらを用い理
論経験確率P0(k,j)=PC(k)*PK(j)を計算する
(110)。
第4図は同形異義語の意味分類を行なう動作の流れの
例を示すフローチャートである。理論経験確率部10は、
新たに登録しようとする文書iが入力されると(12
0)、文書iからキーワードjを抽出する(122)。さら
に、文書iにおけるキーワードjの出現度数NKi(j)
を計算する(124)。文書iの分類kにおける帰属度Rk
(i)を(6)または(7)式により計算する(12
6)。同様に同形異義語js間の分類kにおける帰属度を
計算し、文書iおよび同形異義語jsのベクトル距離D
(i,js)を(9)式により計算する(128)。D(i,
js)を全ての同形異義語について求め、最小のD(i,
js)を文書iのキーワードとして登録する(130)。
[発明の効果] 以上説明したように本発明によれば、文書中の語彙と
その文書との概念的距離が計算できるため、キーワード
抽出等において抽出された語彙のランク付け等が可能と
なる。また、文書検索時に同形異義語が検索手掛かりと
して使用された場合、検索システムが提示する同形異義
語候補の中から利用者が意図する候補を指定することに
より検索性能(適合率)を向上させることができる。
【図面の簡単な説明】
第1図は本発明の意味分類方法の実施例を示す機能ブロ
ック図、 第2図は、本実施例におけるシソーラスの構成例の説明
図、 第3図は、本実施例における理論経験確率を求めるフロ
ー図、 第4図は、本実施例における同形異義語の意味分類の動
作例を示すフロー図である。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 JICST科学技術文献ファイル

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】キーワードを所定のキーワード分類に分類
    したシソーラスを有する文書検索装置における意味分類
    方法において、 前記シソーラスに含まれるキーワードを多数の文書から
    抽出し、 前記キーワードごとの出現頻度を統計処理し、同一表記
    を持つ異義語である同形異義語を含む文書が新たに入力
    されたとき前記文書からキーワードを抽出し、 該キーワードから前記同形異義語を除いたキーワードと
    所定の計算式を用いて前記文書の意味を示す概念的特徴
    量を求め、 前記文書の概念的特徴量と各同形異義語候補の概念的特
    徴量との距離が最小となる候補を前記文書の意味とする
    ことを特徴とする意味分類方法。
JP1105926A 1989-04-27 1989-04-27 意味分類方法 Expired - Fee Related JP2840664B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1105926A JP2840664B2 (ja) 1989-04-27 1989-04-27 意味分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1105926A JP2840664B2 (ja) 1989-04-27 1989-04-27 意味分類方法

Publications (2)

Publication Number Publication Date
JPH02285419A JPH02285419A (ja) 1990-11-22
JP2840664B2 true JP2840664B2 (ja) 1998-12-24

Family

ID=14420465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1105926A Expired - Fee Related JP2840664B2 (ja) 1989-04-27 1989-04-27 意味分類方法

Country Status (1)

Country Link
JP (1) JP2840664B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066888A (ja) * 2008-09-09 2010-03-25 Dainippon Printing Co Ltd 同文字異議語の検索装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108726A (ja) * 1991-10-16 1993-04-30 Agency Of Ind Science & Technol マルチ属性類似データ検索装置
JP3439494B2 (ja) * 1992-12-02 2003-08-25 富士通株式会社 文脈依存自動分類装置
JP3198932B2 (ja) * 1996-08-02 2001-08-13 松下電器産業株式会社 文書検索装置
US6757692B1 (en) * 2000-06-09 2004-06-29 Northrop Grumman Corporation Systems and methods for structured vocabulary search and classification
JP4679003B2 (ja) * 2001-08-24 2011-04-27 ヤフー株式会社 データからの特徴アイテム抽出方法
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
CN110717040A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 词典扩充方法及装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田村,渡辺,原,笠原,「統計的手法による文書自動分類」,情報処理学会第36回(昭和63年前期)全国大会講演論文集(▲II▼),p1305−1306(昭63−3−16)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066888A (ja) * 2008-09-09 2010-03-25 Dainippon Printing Co Ltd 同文字異議語の検索装置

Also Published As

Publication number Publication date
JPH02285419A (ja) 1990-11-22

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN106599278B (zh) 应用搜索意图的识别方法及装置
CN109815314B (zh) 一种意图识别方法、识别设备及计算机可读存储介质
Maron Automatic indexing: an experimental inquiry
US8266077B2 (en) Method of analyzing documents
CN111143597B (zh) 图像检索方法、终端及存储装置
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN109033385B (zh) 图片检索方法、装置、服务器及存储介质
JP2005352888A (ja) 表記揺れ対応辞書作成システム
CN109062895B (zh) 一种智能语义处理方法
JP2840664B2 (ja) 意味分類方法
WO2023010427A1 (en) Systems and methods generating internet-of-things-specific knowledge graphs, and search systems and methods using such graphs
CN109766447A (zh) 一种确定敏感信息的方法和装置
CN110609952A (zh) 数据采集方法、系统和计算机设备
CN108804550B (zh) 一种查询词拓展方法、装置以及电子设备
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN112613310A (zh) 一种人名匹配方法、装置、电子设备及存储介质
CN114610859A (zh) 基于内容与协同过滤的产品推荐方法、装置及设备
JP2812509B2 (ja) 専門用語抽出システム
CN114461783A (zh) 关键词生成方法、装置、计算机设备、存储介质和产品
CN113656575A (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN116628142B (zh) 知识检索方法、装置、设备及可读存储介质
JP2019128925A (ja) 事象提示システムおよび事象提示装置
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees