JP3614765B2 - 概念辞書拡張装置 - Google Patents

概念辞書拡張装置 Download PDF

Info

Publication number
JP3614765B2
JP3614765B2 JP2000278108A JP2000278108A JP3614765B2 JP 3614765 B2 JP3614765 B2 JP 3614765B2 JP 2000278108 A JP2000278108 A JP 2000278108A JP 2000278108 A JP2000278108 A JP 2000278108A JP 3614765 B2 JP3614765 B2 JP 3614765B2
Authority
JP
Japan
Prior art keywords
word
vector
database
attribute
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000278108A
Other languages
English (en)
Other versions
JP2002092017A (ja
Inventor
俊朗 牧野
正之 杉崎
博人 稲垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000278108A priority Critical patent/JP3614765B2/ja
Publication of JP2002092017A publication Critical patent/JP2002092017A/ja
Application granted granted Critical
Publication of JP3614765B2 publication Critical patent/JP3614765B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、コンピュータ上で、自然言語文の意味処理を行うために用いる概念辞書に新しい語を追加する概念辞書拡張装置に関する。
【0002】
【従来の技術】
近年のインターネットの発達などにより、電子化された文書が多数存在するようになり、それらを検索、分類したいという要望が高まっている。電子化された文書を検索、分類する手法には、単語の出現頻度に基づく文書ベクトルを利用する方法や、単語の意味を属性ベクトルで表現した概念辞書を用いて、文書内に出現する各単語の属性ベクトルの和により表現した文書ベクトルを利用する方法などがある。
【0003】
単語の出現頻度を利用するものは、特に辞書を必要としないという利点はあるが、表記にのみ依存するので、表記の違う単語同士は、全く別の語として取り扱われてしまうため、単語間の意味の近さを表現できないという欠点がある。これに対して、概念辞書を用いる方法は、概念辞書中の属性ベクトルの近い語は類似の語として判断することが可能なので、単語間の意味の類似性を取り扱うことができる。
【0004】
概念辞書を作成する手法としては、既存の国語辞書などを利用し、見出し語の単語を、その後の語義文中に出現する単語を属性とし、その出現回数をその属性の値として、属性ベクトルを定義するという方法がある。
【0005】
【発明が解決しようとする課題】
しかしながら、辞書の語義文を利用する方法では、辞書に掲載されている以外の語の属性ベクトルを定義することはできない。このため、インターネット上のWWWページなどに出現する固有名詞や新語を取り扱うことができないという問題がある。
【0006】
本発明の目的は、概念辞書中に存在しない固有名詞や新語の属性ベクトルを計算し、概念辞書に追加し、概念辞書を拡張する概念辞書拡張装置を提供することにある。
【0007】
【課題を解決するための手段】
本発明の概念辞書拡張装置は概念辞書と検索ログデータベースと関連語データベースと新語リストと一時保存ベクトルデータベースと新語辞書と関連度計算部と新語ベクトル計算部を有する。
【0008】
関連度計算部は、検索ログから得られる、検索ユーザが使用した各2つの検索語の使用された時間間隔の情報を用いて両検索語間の関連度を算出し、検索語とその関連度を含む関連語データを作成する。
【0009】
新語ベクトル計算部は、属性ベクトルを追加する新語のリストである新語リストから単語を1つ読み込み、関連語データベースから、その単語に関する関連語を関連度ともに受け取る。
【0010】
次に、関連語の中で概念辞書に既に存在するものについて、属性ベクトルを概念辞書から取得し、それを関連度で重みづけした上で足し合わせて、新語の属性ベクトルとする。これを新語リストの各単語について行い、結果を一時保存ベクトルデータベースへ保存する。
【0011】
次に、新語ベクトル計算部は、再び新語リストから単語を1つ読み込み、先程と同様に、関連語とその関連度を関連語データベースから取得する。
【0012】
関連語の中で概念辞書に存在するものは、概念辞書から、一時保存ベクトルデータベースに存在するものに関しては、一時保存ベクトルデータベースから属性ベクトルを取得し、関連度で重みづけした上で足し合わせて、新語の新たな属性ベクトルとし、一時保存ベクトルデータベースに記録する。
【0013】
関連語データを取得し、概念辞書と一時保存ベクトルデータベース中の属性ベクトルデータを利用して、新たな属性ベクトルを計算するという動作を、予め定められた回数、あるいは前回の属性ベクトルと新たな属性ベクトルの差分の総和が予め定められた閾値を下回るまで繰り返し、最終的に得られた結果を新語辞書に出力する。
【0014】
以上のように、検索ログと概念辞書より新たな語の属性ベクトルを算出し、新語辞書を概念辞書に加えることにより、概念辞書の拡張を行うことができる。
【0015】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0016】
図1を参照すると、本発明の一実施形態の概念辞書拡張装置は新語リスト1と概念辞書2と検索ログデータベース3と関連度計算部4と関連語データベース5と新語ベクトル計算部6と一時保存ベクトルデータベース7と新語辞書8で構成されている。
【0017】
新語リスト1は属性ベクトルを追加する単語のリストを保存している。概念辞書2は語の意味を属性ベクトルで表現した辞書である。検索ログデータベース3はWWWの検索エンジンの検索ログまたはデータベースの検索ログを保存している。関連度計算部4は検索ログデータベース3中の検索ログから、ユーザID(または端末ID)、検索語、検索時刻の情報を取得し、検索語間の関連度を計算し、関連語データベース5に検索語と関連度を含む関連語データを出力する。関連語データベース5は関連度計算部4が出力した関連語データを保存する。新語ベクトル計算部6は新語リスト1から読み込んだ単語に関する関連語データを関連語データベース5より取得し、それに基づき概念辞書2および一時保存ベクトルデータベース7内の語の属性ベクトル情報を利用して、新語の属性ベクトルを計算し、一時保存ベクトルデータベース7や新語辞書8に出力する。一時保存ベクトルデータベース7は新語ベクトル計算部6が算出した、新語の属性ベクトルの途中結果を一時的に保存する。新語辞書8は新語ベクトル計算部6が算出した最終的な新語の属性ベクトルを保存する。
【0018】
図2は、新語リスト1中の単語リストの例である。概念辞書2に新たに追加したい語を1行に1単語記述したものである。
【0019】
表1は、概念辞書2中の辞書データの例である。図中の「電話」「レストラン」「グラフ」などが単語であり、「A」「B」「C」・・・・「ZZZ」が属性名である。各語について、各属性の値を定義してあり、これにより単語が属性ベクトルとして表現されている。これは、予め作成して与えておく。なお、一時保存ベクトルデータベース7、新語辞書8中のデータも同様の形式である。
【0020】
【表1】
Figure 0003614765
【0021】
表2は、検索ログデータベース3中の検索ログの例である。ユーザまたは端末を表すユーザIDとそのユーザが入力した単語とその単語が入力された時刻が記述してある。
【0022】
【表2】
Figure 0003614765
【0023】
この例では、時刻はある時点を起点として、そこからの秒数で表現してある。ログの表現形式は一例であり、ユーザID、検索時刻、検索語の情報が含まれていれば、形式に制限はない。
【0024】
図3は、関連語データベース5中の関連語データの例である。2つの語と、その関連度が記述されている。この値が大きいほど、2つの語の関連度が高いことを示している。
【0025】
次に、本概念辞書拡張装置の動作について、図4に示すフローチャートをもとに説明する。
【0026】
ステップ101に、関連度計算部4は検索ログデータベース3中の検索ログを読み込み、関連度を計算し、関連語と関連度を含む関連語データを作成し、関連語データベース5に保存する。検索語wとwの関連度Vjkは例えば以下の式で求める。
【0027】
【数1】
Figure 0003614765
【0028】
ここで、iは、検索語wとwの両方の語を使用したユーザを表し、
【0029】
【外1】
Figure 0003614765
【0030】
は、以下で与えられるものとする。
【0031】
【数2】
Figure 0003614765
【0032】
ただし、tijは、ユーザiが検索語wを使用した時刻とする。
【0033】
また、関数f(x)は、xの値が大きいほど、小さい値を与える関数とする。
【0034】
検索語wとwの関連度は、あるユーザiがwとwを使用した時間間隔が小さいほど大きくなり、また、wとwの両方を使用したユーザの数が大きいほど大きくなる。
【0035】
上記の方法で、全ての検索語の組み合わせについて、関連度を計算し、図3に示すような形式の関連語データを作成し、関連語データベース5に保存する。
【0036】
ステップ102に、新語ベクトル計算部6は、新語リスト1中のリストLから単語tを取り出す。
【0037】
ステップ103に、新語ベクトル計算部6は関連語データベース5から単語tの関連語データRを取得する。関連語データRは、単語tの関連語rと、単語tの関連語rの関連度vの組(r,v)の集合である。ここで、iは関連語の番号である。
【0038】
ステップ104に、新語ベクトル計算部6は、関連語データR中の関連語riのうちで、概念辞書2中に存在する語に関して、概念辞書2より各関連語rの属性ベクトル
【0039】
【外2】
Figure 0003614765
【0040】
を取得する。
【0041】
ステップ105に、新語ベクトル計算部6は、関連語データR中の語rのうちで、一時保存ベクトルデータベース7中に存在する語に関して、一時保存データベース7よりその属性ベクトル
【0042】
【外3】
Figure 0003614765
【0043】
を取得する。なお、初期状態では、一時保存ベクトルデータベース7中にはデータはない。
【0044】
ステップ106に、新語ベクトル計算部6は、関連度の高い語同士は意味的な関連も深いと仮定し、ステップ104または105で取得した属性ベクトルデータ
【0045】
【外4】
Figure 0003614765
【0046】
とステップ103で求めた関連度の値vを用いて、単語tの属性ベクトル
【0047】
【外5】
Figure 0003614765
【0048】
を次式により計算
【0049】
【数3】
Figure 0003614765
【0050】
する。
【0051】
ここで、添字1は単語tの属性ベクトルの1回目の計算結果であることを表す。一般に単語tの属性ベクトルのn回目の計算結果を
【0052】
【外6】
Figure 0003614765
【0053】
で表す。
【0054】
ステップ107に、新語リストL中に未処理の単語が存在するかどうか判定する。存在する場合は、ステップ102へ、全ての単語について処理を終えた場合は、ステップ108へ進む。この時点で、新語リストL中の各語についての属性ベクトルの計算が1回、終了したことになる。
【0055】
ステップ108に、新語ベクトル計算部6は、終了条件を判定する。終了条件としては、予め設定した計算回数に達したか否かや、各単語の属性ベクトルの前回の計算結果との差分の総和Dが、予め設定した閾値より小さいか否かなどが考えられる。Dは次式で定義される。
【0056】
【数4】
Figure 0003614765
【0057】
終了条件が満たされている場合は、ステップ110へ、満たされていない場合は、ステップ109へ進む。
【0058】
ステップ109に、新語ベクトル計算部6は、今回計算した各語の属性ベクトルで、一時保存ベクトルデータベース7を書き換え、ステップ102へ戻る。
【0059】
ステップ110に、新語ベクトル計算部6は、今回計算した各語の属性ベクトルを新語辞書8へ書き出す。
【0060】
本実施形態によれば、既存の概念辞書2と検索ログを用意するだけで、自動的に新語の属性ベクトルを算出することが可能となる。
【0061】
なお、以上説明した図4の処理は概念辞書拡張プログラムとして、フロッピィディスク、CD−ROM、光磁気ディスクなどの記録媒体に記録しておき、パソコンなどのコンピュータ上で実行することができる。
【0062】
【発明の効果】
以上説明したように、本発明は、インターネットの検索エンジンやデータベースの検索ログから、検索語、検索語が使用された時刻、検索語の使用者あるいは使用端末のID情報を獲得し、これらに基づき検索語間の関連の程度を表す関連度を算出し、この関連度と概念辞書に定義された単語の属性ベクトルを用い、新語の属性ベクトルを自動的に算出することにより、新語や固有名詞に対応した概念辞書を容易に構築できるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態の概念辞書拡張装置のブロック図である。
【図2】図1に示した新語リスト1中の単語リストの例の一部である。
【図3】図1に示した関連度計算部4が生成し、関連語データベース5に保存される関連語データの例の一部である。
【図4】図1の概念辞書拡張装置の動作を示すフローチャートである。
【符号の説明】
1 新語リスト
2 概念辞書
3 検索ログデータベース
4 関連度計算部
5 関連語データベース
6 新語ベクトル計算部
7 一時保存ベクトルデータベース
8 新語辞書
101〜110 ステップ

Claims (3)

  1. 語の意味をベクトル表現した概念辞書と、
    ユーザの検索を記録した検索ログを保持する検索ログデータベースと、
    検索語とその関連度を含む関連語データを一時保存する関連語データベースと

    新たに属性ベクトルを追加する新語のリストである新語リストと、
    属性ベクトルを一時保存する一時保存ベクトルデータベースと、
    最終的な新語の属性ベクトルの計算結果を保持する新語辞書と、
    前記検索ログデータベース中の検索ログを読み込み、検索ログから得られる、検索ユーザが使用した各2つの検索語の使用された時間間隔の情報を用いて両検索語間の関連度を算出し、検索語とその関連度を含む関連語データを前記関連語データベースに保存する関連度計算部と、
    前記新語リスト中の各単語について、前記関連語データベースから、その単語に関する関連語を関連度とともに取得し、取得した関連語の中で前記概念辞書に既に存在するものについて、属性ベクトルを前記概念辞書から取得し、取得した関連語の中で前記一時保存ベクトルデータベースに存在するものについて、属性ベクトルを前記一時保存ベクトルデータベースから取得し、前記の取得した属性ベクトルを前記関連度で重みづけした上で足し合わせて前記単語の属性ベクトルを計算し、所定の終了条件が満たされたかどうか判定し、満たされていない場合、今回計算した各語の属性ベクトルで前記一時保存ベクトルデータベースを書き換え、前記の単語の属性ベクトルの計算に戻り、満たされていた場合、今回計算した各語の属性ベクトルを前記新語辞書へ書き出す新語ベクトル計算部を有する概念辞書拡張装置。
  2. 前記終了条件が、計算回数が予め設定された計算回数に達したか否かである、請求項1に記載の装置
  3. 前記終了条件が、各単語の属性ベクトルの前回の計算結果との差分の総和が、予め設定された閾値よりも小さいか否かである、請求項1に記載の装置
JP2000278108A 2000-09-13 2000-09-13 概念辞書拡張装置 Expired - Fee Related JP3614765B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000278108A JP3614765B2 (ja) 2000-09-13 2000-09-13 概念辞書拡張装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000278108A JP3614765B2 (ja) 2000-09-13 2000-09-13 概念辞書拡張装置

Publications (2)

Publication Number Publication Date
JP2002092017A JP2002092017A (ja) 2002-03-29
JP3614765B2 true JP3614765B2 (ja) 2005-01-26

Family

ID=18763319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000278108A Expired - Fee Related JP3614765B2 (ja) 2000-09-13 2000-09-13 概念辞書拡張装置

Country Status (1)

Country Link
JP (1) JP3614765B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316699A (ja) * 2004-04-28 2005-11-10 Hitachi Ltd コンテンツ公開システム、コンテンツ公開方法、及びコンテンツ公開プログラム
WO2008139568A1 (ja) 2007-05-08 2008-11-20 Fujitsu Limited キーワード出力プログラム、キーワード出力装置およびキーワード出力方法
JP5547030B2 (ja) * 2010-10-18 2014-07-09 日本電信電話株式会社 情報分析装置及び方法及びプログラム
CN104573003B (zh) * 2015-01-08 2017-11-10 浙江大学 基于新闻主题信息检索的金融时间序列预测方法
US10846319B2 (en) * 2018-03-19 2020-11-24 Adobe Inc. Online dictionary extension of word vectors
CN110321552A (zh) * 2019-05-30 2019-10-11 泰康保险集团股份有限公司 词向量构建方法、装置、介质及电子设备

Also Published As

Publication number Publication date
JP2002092017A (ja) 2002-03-29

Similar Documents

Publication Publication Date Title
JP4173774B2 (ja) 重み付き編集距離に基づく例文の自動検索用システムおよび方法
US6199103B1 (en) Electronic mail determination method and system and storage medium
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
JP4664423B2 (ja) 適合性のある情報を検索する方法
JP2005174336A (ja) 情報抽出のための一般化文字列パターンの学習および使用
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
JP3614765B2 (ja) 概念辞書拡張装置
KR20000069633A (ko) 파일 처리 방법, 데이터 처리 장치 및 기억 매체
JPH1049543A (ja) 文書検索装置
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH09282331A (ja) 文書類似判定装置および文書類似判定方法
JP3472032B2 (ja) 情報フィルタ装置及び情報フィルタ方法
JP3178406B2 (ja) 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP3836607B2 (ja) 音声認識のための統計的言語モデル作成装置
JP3862059B2 (ja) 検索式拡張方法および検索システム
JP3558854B2 (ja) データ検索装置及びコンピュータ読み取り可能な記録媒体
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JP3500698B2 (ja) キーワード抽出装置及びキーワード抽出方法
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007149022A (ja) 文書特徴抽出装置、方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040721

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040913

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040913

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041027

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees