JP3614765B2 - 概念辞書拡張装置 - Google Patents
概念辞書拡張装置 Download PDFInfo
- Publication number
- JP3614765B2 JP3614765B2 JP2000278108A JP2000278108A JP3614765B2 JP 3614765 B2 JP3614765 B2 JP 3614765B2 JP 2000278108 A JP2000278108 A JP 2000278108A JP 2000278108 A JP2000278108 A JP 2000278108A JP 3614765 B2 JP3614765 B2 JP 3614765B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- database
- attribute
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、コンピュータ上で、自然言語文の意味処理を行うために用いる概念辞書に新しい語を追加する概念辞書拡張装置に関する。
【0002】
【従来の技術】
近年のインターネットの発達などにより、電子化された文書が多数存在するようになり、それらを検索、分類したいという要望が高まっている。電子化された文書を検索、分類する手法には、単語の出現頻度に基づく文書ベクトルを利用する方法や、単語の意味を属性ベクトルで表現した概念辞書を用いて、文書内に出現する各単語の属性ベクトルの和により表現した文書ベクトルを利用する方法などがある。
【0003】
単語の出現頻度を利用するものは、特に辞書を必要としないという利点はあるが、表記にのみ依存するので、表記の違う単語同士は、全く別の語として取り扱われてしまうため、単語間の意味の近さを表現できないという欠点がある。これに対して、概念辞書を用いる方法は、概念辞書中の属性ベクトルの近い語は類似の語として判断することが可能なので、単語間の意味の類似性を取り扱うことができる。
【0004】
概念辞書を作成する手法としては、既存の国語辞書などを利用し、見出し語の単語を、その後の語義文中に出現する単語を属性とし、その出現回数をその属性の値として、属性ベクトルを定義するという方法がある。
【0005】
【発明が解決しようとする課題】
しかしながら、辞書の語義文を利用する方法では、辞書に掲載されている以外の語の属性ベクトルを定義することはできない。このため、インターネット上のWWWページなどに出現する固有名詞や新語を取り扱うことができないという問題がある。
【0006】
本発明の目的は、概念辞書中に存在しない固有名詞や新語の属性ベクトルを計算し、概念辞書に追加し、概念辞書を拡張する概念辞書拡張装置を提供することにある。
【0007】
【課題を解決するための手段】
本発明の概念辞書拡張装置は概念辞書と検索ログデータベースと関連語データベースと新語リストと一時保存ベクトルデータベースと新語辞書と関連度計算部と新語ベクトル計算部を有する。
【0008】
関連度計算部は、検索ログから得られる、検索ユーザが使用した各2つの検索語の使用された時間間隔の情報を用いて両検索語間の関連度を算出し、検索語とその関連度を含む関連語データを作成する。
【0009】
新語ベクトル計算部は、属性ベクトルを追加する新語のリストである新語リストから単語を1つ読み込み、関連語データベースから、その単語に関する関連語を関連度ともに受け取る。
【0010】
次に、関連語の中で概念辞書に既に存在するものについて、属性ベクトルを概念辞書から取得し、それを関連度で重みづけした上で足し合わせて、新語の属性ベクトルとする。これを新語リストの各単語について行い、結果を一時保存ベクトルデータベースへ保存する。
【0011】
次に、新語ベクトル計算部は、再び新語リストから単語を1つ読み込み、先程と同様に、関連語とその関連度を関連語データベースから取得する。
【0012】
関連語の中で概念辞書に存在するものは、概念辞書から、一時保存ベクトルデータベースに存在するものに関しては、一時保存ベクトルデータベースから属性ベクトルを取得し、関連度で重みづけした上で足し合わせて、新語の新たな属性ベクトルとし、一時保存ベクトルデータベースに記録する。
【0013】
関連語データを取得し、概念辞書と一時保存ベクトルデータベース中の属性ベクトルデータを利用して、新たな属性ベクトルを計算するという動作を、予め定められた回数、あるいは前回の属性ベクトルと新たな属性ベクトルの差分の総和が予め定められた閾値を下回るまで繰り返し、最終的に得られた結果を新語辞書に出力する。
【0014】
以上のように、検索ログと概念辞書より新たな語の属性ベクトルを算出し、新語辞書を概念辞書に加えることにより、概念辞書の拡張を行うことができる。
【0015】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0016】
図1を参照すると、本発明の一実施形態の概念辞書拡張装置は新語リスト1と概念辞書2と検索ログデータベース3と関連度計算部4と関連語データベース5と新語ベクトル計算部6と一時保存ベクトルデータベース7と新語辞書8で構成されている。
【0017】
新語リスト1は属性ベクトルを追加する単語のリストを保存している。概念辞書2は語の意味を属性ベクトルで表現した辞書である。検索ログデータベース3はWWWの検索エンジンの検索ログまたはデータベースの検索ログを保存している。関連度計算部4は検索ログデータベース3中の検索ログから、ユーザID(または端末ID)、検索語、検索時刻の情報を取得し、検索語間の関連度を計算し、関連語データベース5に検索語と関連度を含む関連語データを出力する。関連語データベース5は関連度計算部4が出力した関連語データを保存する。新語ベクトル計算部6は新語リスト1から読み込んだ単語に関する関連語データを関連語データベース5より取得し、それに基づき概念辞書2および一時保存ベクトルデータベース7内の語の属性ベクトル情報を利用して、新語の属性ベクトルを計算し、一時保存ベクトルデータベース7や新語辞書8に出力する。一時保存ベクトルデータベース7は新語ベクトル計算部6が算出した、新語の属性ベクトルの途中結果を一時的に保存する。新語辞書8は新語ベクトル計算部6が算出した最終的な新語の属性ベクトルを保存する。
【0018】
図2は、新語リスト1中の単語リストの例である。概念辞書2に新たに追加したい語を1行に1単語記述したものである。
【0019】
表1は、概念辞書2中の辞書データの例である。図中の「電話」「レストラン」「グラフ」などが単語であり、「A」「B」「C」・・・・「ZZZ」が属性名である。各語について、各属性の値を定義してあり、これにより単語が属性ベクトルとして表現されている。これは、予め作成して与えておく。なお、一時保存ベクトルデータベース7、新語辞書8中のデータも同様の形式である。
【0020】
【表1】
【0021】
表2は、検索ログデータベース3中の検索ログの例である。ユーザまたは端末を表すユーザIDとそのユーザが入力した単語とその単語が入力された時刻が記述してある。
【0022】
【表2】
【0023】
この例では、時刻はある時点を起点として、そこからの秒数で表現してある。ログの表現形式は一例であり、ユーザID、検索時刻、検索語の情報が含まれていれば、形式に制限はない。
【0024】
図3は、関連語データベース5中の関連語データの例である。2つの語と、その関連度が記述されている。この値が大きいほど、2つの語の関連度が高いことを示している。
【0025】
次に、本概念辞書拡張装置の動作について、図4に示すフローチャートをもとに説明する。
【0026】
ステップ101に、関連度計算部4は検索ログデータベース3中の検索ログを読み込み、関連度を計算し、関連語と関連度を含む関連語データを作成し、関連語データベース5に保存する。検索語wjとwkの関連度Vjkは例えば以下の式で求める。
【0027】
【数1】
【0028】
ここで、iは、検索語wjとwkの両方の語を使用したユーザを表し、
【0029】
【外1】
【0030】
は、以下で与えられるものとする。
【0031】
【数2】
【0032】
ただし、tijは、ユーザiが検索語wjを使用した時刻とする。
【0033】
また、関数f(x)は、xの値が大きいほど、小さい値を与える関数とする。
【0034】
検索語wjとwkの関連度は、あるユーザiがwjとwkを使用した時間間隔が小さいほど大きくなり、また、wjとwkの両方を使用したユーザの数が大きいほど大きくなる。
【0035】
上記の方法で、全ての検索語の組み合わせについて、関連度を計算し、図3に示すような形式の関連語データを作成し、関連語データベース5に保存する。
【0036】
ステップ102に、新語ベクトル計算部6は、新語リスト1中のリストLから単語tを取り出す。
【0037】
ステップ103に、新語ベクトル計算部6は関連語データベース5から単語tの関連語データRを取得する。関連語データRは、単語tの関連語riと、単語tの関連語riの関連度viの組(ri,vi)の集合である。ここで、iは関連語の番号である。
【0038】
ステップ104に、新語ベクトル計算部6は、関連語データR中の関連語riのうちで、概念辞書2中に存在する語に関して、概念辞書2より各関連語riの属性ベクトル
【0039】
【外2】
【0040】
を取得する。
【0041】
ステップ105に、新語ベクトル計算部6は、関連語データR中の語rのうちで、一時保存ベクトルデータベース7中に存在する語に関して、一時保存データベース7よりその属性ベクトル
【0042】
【外3】
【0043】
を取得する。なお、初期状態では、一時保存ベクトルデータベース7中にはデータはない。
【0044】
ステップ106に、新語ベクトル計算部6は、関連度の高い語同士は意味的な関連も深いと仮定し、ステップ104または105で取得した属性ベクトルデータ
【0045】
【外4】
【0046】
とステップ103で求めた関連度の値viを用いて、単語tの属性ベクトル
【0047】
【外5】
【0048】
を次式により計算
【0049】
【数3】
【0050】
する。
【0051】
ここで、添字1は単語tの属性ベクトルの1回目の計算結果であることを表す。一般に単語tの属性ベクトルのn回目の計算結果を
【0052】
【外6】
【0053】
で表す。
【0054】
ステップ107に、新語リストL中に未処理の単語が存在するかどうか判定する。存在する場合は、ステップ102へ、全ての単語について処理を終えた場合は、ステップ108へ進む。この時点で、新語リストL中の各語についての属性ベクトルの計算が1回、終了したことになる。
【0055】
ステップ108に、新語ベクトル計算部6は、終了条件を判定する。終了条件としては、予め設定した計算回数に達したか否かや、各単語の属性ベクトルの前回の計算結果との差分の総和Dが、予め設定した閾値より小さいか否かなどが考えられる。Dは次式で定義される。
【0056】
【数4】
【0057】
終了条件が満たされている場合は、ステップ110へ、満たされていない場合は、ステップ109へ進む。
【0058】
ステップ109に、新語ベクトル計算部6は、今回計算した各語の属性ベクトルで、一時保存ベクトルデータベース7を書き換え、ステップ102へ戻る。
【0059】
ステップ110に、新語ベクトル計算部6は、今回計算した各語の属性ベクトルを新語辞書8へ書き出す。
【0060】
本実施形態によれば、既存の概念辞書2と検索ログを用意するだけで、自動的に新語の属性ベクトルを算出することが可能となる。
【0061】
なお、以上説明した図4の処理は概念辞書拡張プログラムとして、フロッピィディスク、CD−ROM、光磁気ディスクなどの記録媒体に記録しておき、パソコンなどのコンピュータ上で実行することができる。
【0062】
【発明の効果】
以上説明したように、本発明は、インターネットの検索エンジンやデータベースの検索ログから、検索語、検索語が使用された時刻、検索語の使用者あるいは使用端末のID情報を獲得し、これらに基づき検索語間の関連の程度を表す関連度を算出し、この関連度と概念辞書に定義された単語の属性ベクトルを用い、新語の属性ベクトルを自動的に算出することにより、新語や固有名詞に対応した概念辞書を容易に構築できるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態の概念辞書拡張装置のブロック図である。
【図2】図1に示した新語リスト1中の単語リストの例の一部である。
【図3】図1に示した関連度計算部4が生成し、関連語データベース5に保存される関連語データの例の一部である。
【図4】図1の概念辞書拡張装置の動作を示すフローチャートである。
【符号の説明】
1 新語リスト
2 概念辞書
3 検索ログデータベース
4 関連度計算部
5 関連語データベース
6 新語ベクトル計算部
7 一時保存ベクトルデータベース
8 新語辞書
101〜110 ステップ
Claims (3)
- 語の意味をベクトル表現した概念辞書と、
ユーザの検索を記録した検索ログを保持する検索ログデータベースと、
検索語とその関連度を含む関連語データを一時保存する関連語データベースと
、
新たに属性ベクトルを追加する新語のリストである新語リストと、
属性ベクトルを一時保存する一時保存ベクトルデータベースと、
最終的な新語の属性ベクトルの計算結果を保持する新語辞書と、
前記検索ログデータベース中の検索ログを読み込み、検索ログから得られる、検索ユーザが使用した各2つの検索語の使用された時間間隔の情報を用いて両検索語間の関連度を算出し、検索語とその関連度を含む関連語データを前記関連語データベースに保存する関連度計算部と、
前記新語リスト中の各単語について、前記関連語データベースから、その単語に関する関連語を関連度とともに取得し、取得した関連語の中で前記概念辞書に既に存在するものについて、属性ベクトルを前記概念辞書から取得し、取得した関連語の中で前記一時保存ベクトルデータベースに存在するものについて、属性ベクトルを前記一時保存ベクトルデータベースから取得し、前記の取得した属性ベクトルを前記関連度で重みづけした上で足し合わせて前記単語の属性ベクトルを計算し、所定の終了条件が満たされたかどうか判定し、満たされていない場合、今回計算した各語の属性ベクトルで前記一時保存ベクトルデータベースを書き換え、前記の単語の属性ベクトルの計算に戻り、満たされていた場合、今回計算した各語の属性ベクトルを前記新語辞書へ書き出す新語ベクトル計算部を有する概念辞書拡張装置。 - 前記終了条件が、計算回数が予め設定された計算回数に達したか否かである、請求項1に記載の装置。
- 前記終了条件が、各単語の属性ベクトルの前回の計算結果との差分の総和が、予め設定された閾値よりも小さいか否かである、請求項1に記載の装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000278108A JP3614765B2 (ja) | 2000-09-13 | 2000-09-13 | 概念辞書拡張装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000278108A JP3614765B2 (ja) | 2000-09-13 | 2000-09-13 | 概念辞書拡張装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002092017A JP2002092017A (ja) | 2002-03-29 |
JP3614765B2 true JP3614765B2 (ja) | 2005-01-26 |
Family
ID=18763319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000278108A Expired - Fee Related JP3614765B2 (ja) | 2000-09-13 | 2000-09-13 | 概念辞書拡張装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3614765B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005316699A (ja) * | 2004-04-28 | 2005-11-10 | Hitachi Ltd | コンテンツ公開システム、コンテンツ公開方法、及びコンテンツ公開プログラム |
WO2008139568A1 (ja) | 2007-05-08 | 2008-11-20 | Fujitsu Limited | キーワード出力プログラム、キーワード出力装置およびキーワード出力方法 |
JP5547030B2 (ja) * | 2010-10-18 | 2014-07-09 | 日本電信電話株式会社 | 情報分析装置及び方法及びプログラム |
CN104573003B (zh) * | 2015-01-08 | 2017-11-10 | 浙江大学 | 基于新闻主题信息检索的金融时间序列预测方法 |
US10846319B2 (en) * | 2018-03-19 | 2020-11-24 | Adobe Inc. | Online dictionary extension of word vectors |
CN110321552A (zh) * | 2019-05-30 | 2019-10-11 | 泰康保险集团股份有限公司 | 词向量构建方法、装置、介质及电子设备 |
-
2000
- 2000-09-13 JP JP2000278108A patent/JP3614765B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002092017A (ja) | 2002-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4173774B2 (ja) | 重み付き編集距離に基づく例文の自動検索用システムおよび方法 | |
US6199103B1 (en) | Electronic mail determination method and system and storage medium | |
JP3719415B2 (ja) | 情報検索方法、情報検索システム、およびプログラム | |
JP4664423B2 (ja) | 適合性のある情報を検索する方法 | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
JP3614765B2 (ja) | 概念辞書拡張装置 | |
KR20000069633A (ko) | 파일 처리 방법, 데이터 처리 장치 및 기억 매체 | |
JPH1049543A (ja) | 文書検索装置 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH09282331A (ja) | 文書類似判定装置および文書類似判定方法 | |
JP3472032B2 (ja) | 情報フィルタ装置及び情報フィルタ方法 | |
JP3178406B2 (ja) | 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体 | |
JP2001265774A (ja) | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP2894301B2 (ja) | 文脈情報を用いた文書検索方法および装置 | |
JP2003108571A (ja) | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 | |
JP3836607B2 (ja) | 音声認識のための統計的言語モデル作成装置 | |
JP3862059B2 (ja) | 検索式拡張方法および検索システム | |
JP3558854B2 (ja) | データ検索装置及びコンピュータ読み取り可能な記録媒体 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP2002108888A (ja) | ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体 | |
JP3500698B2 (ja) | キーワード抽出装置及びキーワード抽出方法 | |
JPH1145254A (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2007149022A (ja) | 文書特徴抽出装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040721 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040913 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040913 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041020 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041027 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071112 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091112 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101112 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101112 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111112 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111112 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121112 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121112 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131112 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |