JP2002092017A - Concept dictionary extending method and its device and recording medium with concept dictionary extending program recorded thereon - Google Patents

Concept dictionary extending method and its device and recording medium with concept dictionary extending program recorded thereon

Info

Publication number
JP2002092017A
JP2002092017A JP2000278108A JP2000278108A JP2002092017A JP 2002092017 A JP2002092017 A JP 2002092017A JP 2000278108 A JP2000278108 A JP 2000278108A JP 2000278108 A JP2000278108 A JP 2000278108A JP 2002092017 A JP2002092017 A JP 2002092017A
Authority
JP
Japan
Prior art keywords
word
vector
database
new
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000278108A
Other languages
Japanese (ja)
Other versions
JP3614765B2 (en
Inventor
Toshiaki Makino
俊朗 牧野
Masayuki Sugizaki
正之 杉崎
Hiroto Inagaki
博人 稲垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000278108A priority Critical patent/JP3614765B2/en
Publication of JP2002092017A publication Critical patent/JP2002092017A/en
Application granted granted Critical
Publication of JP3614765B2 publication Critical patent/JP3614765B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To calculate the attribute vectors of specific nouns or new words which do not exist in a concept dictionary, and to add those attribute vectors to the concept dictionary. SOLUTION: A relevancy calculating part 4 acquires the information of a user ID (or a terminal ID), retrieval words, and a retrieval time from a retrieval log in a retrieval log data base 3, and calculates relevancy among the retrieval words, and preserves relevant word data in a relevant data base 5. A new word vector calculating part 6 acquires relevant word data related with words read from a new word list 1 from the relevant word data base 5, and calculates the attribute vectors of new words by using word attribute vector information in a concept dictionary 2 and a temporarily preserved vector data base 7 based on the relevant word data, and outputs the attribute vectors of the new words to the temporarily preserved vector data base 7 or a new word dictionary 8.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、コンピュータ上
で、自然言語文の意味処理を行うために用いる概念辞書
に新しい語を追加する概念辞書拡張装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a concept dictionary extending apparatus for adding a new word to a concept dictionary used for performing a semantic processing of a natural language sentence on a computer.

【0002】[0002]

【従来の技術】近年のインターネットの発達などによ
り、電子化された文書が多数存在するようになり、それ
らを検索、分類したいという要望が高まっている。電子
化された文書を検索、分類する手法には、単語の出現頻
度に基づく文書ベクトルを利用する方法や、単語の意味
を属性ベクトルで表現した概念辞書を用いて、文書内に
出現する各単語の属性ベクトルの和により表現した文書
ベクトルを利用する方法などがある。
2. Description of the Related Art With the recent development of the Internet and the like, a large number of digitized documents are present, and there is an increasing demand for searching and classifying them. The method of searching and classifying digitized documents includes a method using a document vector based on the frequency of occurrence of a word, and a method using a concept dictionary expressing the meaning of the word with an attribute vector, and each word appearing in the document. There is a method of using a document vector expressed by the sum of the attribute vectors.

【0003】単語の出現頻度を利用するものは、特に辞
書を必要としないという利点はあるが、表記にのみ依存
するので、表記の違う単語同士は、全く別の語として取
り扱われてしまうため、単語間の意味の近さを表現でき
ないという欠点がある。これに対して、概念辞書を用い
る方法は、概念辞書中の属性ベクトルの近い語は類似の
語として判断することが可能なので、単語間の意味の類
似性を取り扱うことができる。
[0003] Those utilizing the frequency of appearance of words have the advantage of not requiring a dictionary in particular, but rely only on the notation, and words with different notations are treated as completely different words. There is a drawback that closeness of meaning between words cannot be expressed. On the other hand, in the method using the concept dictionary, words having similar attribute vectors in the concept dictionary can be determined as similar words, and therefore, similarity of meaning between words can be handled.

【0004】概念辞書を作成する手法としては、既存の
国語辞書などを利用し、見出し語の単語を、その後の語
義文中に出現する単語を属性とし、その出現回数をその
属性の値として、属性ベクトルを定義するという方法が
ある。
[0004] As a method of creating a concept dictionary, an existing Japanese language dictionary or the like is used, a word of a headword is set as an attribute of a word appearing in a subsequent meaning sentence, and the number of appearances is set as a value of the attribute. There is a way to define a vector.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、辞書の
語義文を利用する方法では、辞書に掲載されている以外
の語の属性ベクトルを定義することはできない。このた
め、インターネット上のWWWページなどに出現する固有
名詞や新語を取り扱うことができないという問題があ
る。
However, in the method using the meaning of the dictionary, it is not possible to define an attribute vector of a word other than a word included in the dictionary. For this reason, there is a problem that proper nouns and new words appearing on WWW pages on the Internet cannot be handled.

【0006】本発明の目的は、概念辞書中に存在しない
固有名詞や新語の属性ベクトルを計算し、概念辞書に追
加し、概念辞書を拡張する概念辞書拡張方法、装置、お
よび概念辞書拡張プログラムを記録した記録媒体を提供
することにある。
An object of the present invention is to provide a concept dictionary extension method, a concept dictionary extension program and a concept dictionary extension method for calculating an attribute vector of a proper noun or a new word which does not exist in the concept dictionary, adding the vector to the concept dictionary, and extending the concept dictionary. An object of the present invention is to provide a recorded recording medium.

【0007】[0007]

【課題を解決するための手段】本発明の概念辞書拡張装
置は概念辞書と検索ログデータベースと関連語データベ
ースと新語リストと一時保存ベクトルデータベースと新
語辞書と関連度計算部と新語ベクトル計算部を有する。
The concept dictionary expansion apparatus of the present invention has a concept dictionary, a search log database, a related word database, a new word list, a temporary storage vector database, a new word dictionary, a relevance calculator, and a new word vector calculator. .

【0008】関連度計算部は、検索ログから得られる、
検索ユーザが使用した各2つの検索語の使用された時間
間隔の情報を用いて両検索語間の関連度を算出し、検索
語とその関連度を含む関連語データを作成する。
[0008] The relevance calculation unit is obtained from the search log.
The degree of relevance between the two search terms is calculated using the information on the time interval of each of the two search terms used by the search user, and related word data including the search terms and their relevance is created.

【0009】新語ベクトル計算部は、属性ベクトルを追
加する新語のリストである新語リストから単語を1つ読
み込み、関連語データベースから、その単語に関する関
連語を関連度ともに受け取る。
The new word vector calculation unit reads one word from a new word list which is a list of new words to which an attribute vector is added, and receives a related word relating to the word together with the degree of relevance from a related word database.

【0010】次に、関連語の中で概念辞書に既に存在す
るものについて、属性ベクトルを概念辞書から取得し、
それを関連度で重みづけした上で足し合わせて、新語の
属性ベクトルとする。これを新語リストの各単語につい
て行い、結果を一時保存ベクトルデータベースへ保存す
る。
Next, for related words that already exist in the concept dictionary, attribute vectors are obtained from the concept dictionary,
These are weighted by the degree of relevance and then added to obtain a new word attribute vector. This is performed for each word in the new word list, and the result is stored in the temporary storage vector database.

【0011】次に、新語ベクトル計算部は、再び新語リ
ストから単語を1つ読み込み、先程と同様に、関連語と
その関連度を関連語データベースから取得する。
Next, the new word vector calculation unit reads one word from the new word list again, and obtains related words and their degrees of relevance from the related word database in the same manner as described above.

【0012】関連語の中で概念辞書に存在するものは、
概念辞書から、一時保存ベクトルデータベースに存在す
るものに関しては、一時保存ベクトルデータベースから
属性ベクトルを取得し、関連度で重みづけした上で足し
合わせて、新語の新たな属性ベクトルとし、一時保存ベ
クトルデータベースに記録する。
[0012] Among the related words, those existing in the concept dictionary are:
For those existing in the temporary storage vector database from the concept dictionary, the attribute vectors are obtained from the temporary storage vector database, weighted by the degree of relevance, and added together to form a new attribute vector for the new word. To record.

【0013】関連語データを取得し、概念辞書と一時保
存ベクトルデータベース中の属性ベクトルデータを利用
して、新たな属性ベクトルを計算するという動作を、予
め定められた回数、あるいは前回の属性ベクトルと新た
な属性ベクトルの差分の総和が予め定められた閾値を下
回るまで繰り返し、最終的に得られた結果を新語辞書に
出力する。
The operation of acquiring related word data and calculating a new attribute vector by using the attribute vector data in the concept dictionary and the temporary storage vector database is performed a predetermined number of times, It repeats until the sum of the differences of the new attribute vectors falls below a predetermined threshold, and outputs the finally obtained result to the new word dictionary.

【0014】以上のように、検索ログと概念辞書より新
たな語の属性ベクトルを算出し、新語辞書を概念辞書に
加えることにより、概念辞書の拡張を行うことができ
る。
As described above, the concept dictionary can be expanded by calculating the attribute vector of a new word from the search log and the concept dictionary and adding the new word dictionary to the concept dictionary.

【0015】[0015]

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
Next, embodiments of the present invention will be described with reference to the drawings.

【0016】図1を参照すると、本発明の一実施形態の
概念辞書拡張装置は新語リスト1と概念辞書2と検索ロ
グデータベース3と関連度計算部4と関連語データベー
ス5と新語ベクトル計算部6と一時保存ベクトルデータ
ベース7と新語辞書8で構成されている。
Referring to FIG. 1, an apparatus for expanding a concept dictionary according to an embodiment of the present invention includes a new word list 1, a concept dictionary 2, a search log database 3, a relevance calculator 4, a related word database 5, and a new word vector calculator 6. And a temporary storage vector database 7 and a new word dictionary 8.

【0017】新語リスト1は属性ベクトルを追加する単
語のリストを保存している。概念辞書2は語の意味を属
性ベクトルで表現した辞書である。検索ログデータベー
ス3はWWWの検索エンジンの検索ログまたはデータベー
スの検索ログを保存している。関連度計算部4は検索ロ
グデータベース3中の検索ログから、ユーザID(または
端末ID)、検索語、検索時刻の情報を取得し、検索語間
の関連度を計算し、関連語データベース5に検索語と関
連度を含む関連語データを出力する。関連語データベー
ス5は関連度計算部4が出力した関連語データを保存す
る。新語ベクトル計算部6は新語リスト1から読み込ん
だ単語に関する関連語データを関連語データベース5よ
り取得し、それに基づき概念辞書2および一時保存ベク
トルデータベース7内の語の属性ベクトル情報を利用し
て、新語の属性ベクトルを計算し、一時保存ベクトルデ
ータベース7や新語辞書8に出力する。一時保存ベクト
ルデータベース7は新語ベクトル計算部6が算出した、
新語の属性ベクトルの途中結果を一時的に保存する。新
語辞書8は新語ベクトル計算部6が算出した最終的な新
語の属性ベクトルを保存する。
The new word list 1 stores a list of words to which an attribute vector is added. The concept dictionary 2 is a dictionary expressing the meaning of a word by an attribute vector. The search log database 3 stores a search log of a WWW search engine or a search log of a database. The relevance calculator 4 obtains information on the user ID (or terminal ID), the search term, and the search time from the search log in the search log database 3, calculates the relevance between the search terms, and stores it in the related term database 5. Outputs related word data including search terms and relevance. The related word database 5 stores the related word data output by the relevance calculator 4. The new word vector calculation unit 6 acquires related word data relating to the word read from the new word list 1 from the related word database 5 and uses the concept dictionary 2 and the attribute vector information of the words in the temporary storage vector database 7 based on the word data. Is calculated and output to the temporary storage vector database 7 and the new word dictionary 8. The temporary storage vector database 7 is calculated by the new word vector calculation unit 6,
Temporarily save the intermediate results of the new word attribute vector. The new word dictionary 8 stores the final new word attribute vector calculated by the new word vector calculation unit 6.

【0018】図2は、新語リスト1中の単語リストの例
である。概念辞書2に新たに追加したい語を1行に1単
語記述したものである。
FIG. 2 is an example of a word list in the new word list 1. A word to be newly added to the concept dictionary 2 is described one word per line.

【0019】表1は、概念辞書2中の辞書データの例で
ある。図中の「電話」「レストラン」「グラフ」などが
単語であり、「A」「B」「C」・・・・「ZZZ」が属性名
である。各語について、各属性の値を定義してあり、こ
れにより単語が属性ベクトルとして表現されている。こ
れは、予め作成して与えておく。なお、一時保存ベクト
ルデータベース7、新語辞書8中のデータも同様の形式
である。
Table 1 is an example of dictionary data in the concept dictionary 2. In the figure, "telephone", "restaurant", "graph" and the like are words, and "A", "B", "C",... "ZZZ" are attribute names. The value of each attribute is defined for each word, whereby the word is represented as an attribute vector. This is created and given in advance. The data in the temporary storage vector database 7 and the new word dictionary 8 have the same format.

【0020】[0020]

【表1】 [Table 1]

【0021】表2は、検索ログデータベース3中の検索
ログの例である。ユーザまたは端末を表すユーザIDとそ
のユーザが入力した単語とその単語が入力された時刻が
記述してある。
Table 2 is an example of a search log in the search log database 3. A user ID representing a user or a terminal, a word input by the user, and a time at which the word was input are described.

【0022】[0022]

【表2】 [Table 2]

【0023】この例では、時刻はある時点を起点とし
て、そこからの秒数で表現してある。ログの表現形式は
一例であり、ユーザID、検索時刻、検索語の情報が含ま
れていれば、形式に制限はない。
In this example, the time is represented by the number of seconds from a certain point as a starting point. The expression format of the log is an example, and there is no limitation on the format as long as the information includes the user ID, the search time, and the search word.

【0024】図3は、関連語データベース5中の関連語
データの例である。2つの語と、その関連度が記述され
ている。この値が大きいほど、2つの語の関連度が高い
ことを示している。
FIG. 3 is an example of related word data in the related word database 5. Two words and their relevance are described. The larger the value, the higher the degree of relevance between the two words.

【0025】次に、本概念辞書拡張装置の動作につい
て、図4に示すフローチャートをもとに説明する。
Next, the operation of the concept dictionary expanding apparatus will be described with reference to the flowchart shown in FIG.

【0026】ステップ101に、関連度計算部4は検索
ログデータベース3中の検索ログを読み込み、関連度を
計算し、関連語と関連度を含む関連語データを作成し、
関連語データベース5に保存する。検索語wjとwkの関連
度Vjkは例えば以下の式で求める。
In step 101, the relevance calculator 4 reads the search log in the search log database 3, calculates the relevance, and generates related word data including the related word and the relevance.
It is stored in the related word database 5. The degree of relevance V jk between the search words w j and w k is determined by, for example, the following equation.

【0027】[0027]

【数1】 (Equation 1)

【0028】ここで、iは、検索語wjとwkの両方の語を
使用したユーザを表し、
Here, i represents a user who has used both the search words w j and w k ,

【0029】[0029]

【外1】 [Outside 1]

【0030】は、以下で与えられるものとする。Is given below.

【0031】[0031]

【数2】 (Equation 2)

【0032】ただし、tijは、ユーザiが検索語wjを使用
した時刻とする。
Here, t ij is the time when the user i uses the search word w j .

【0033】また、関数f(x)は、xの値が大きいほど、
小さい値を与える関数とする。
Further, the larger the value of x, the more the function f (x)
A function that gives a small value.

【0034】検索語wjとwkの関連度は、あるユーザiが
wjとwkを使用した時間間隔が小さいほど大きくなり、ま
た、wjとwkの両方を使用したユーザの数が大きいほど大
きくなる。
The relevance between the search terms w j and w k is determined by a certain user i
It becomes larger as the time interval using w j and w k is smaller, and becomes larger as the number of users using both w j and w k is larger.

【0035】上記の方法で、全ての検索語の組み合わせ
について、関連度を計算し、図3に示すような形式の関
連語データを作成し、関連語データベース5に保存す
る。
With the above-described method, the degree of relevance is calculated for all combinations of search words, related word data in a format as shown in FIG. 3 is created, and stored in the related word database 5.

【0036】ステップ102に、新語ベクトル計算部6
は、新語リスト1中のリストLから単語tを取り出す。
In step 102, the new word vector calculation unit 6
Extracts the word t from the list L in the new word list 1.

【0037】ステップ103に、新語ベクトル計算部6
は関連語データベース5から単語tの関連語データRを取
得する。関連語データRは、単語tの関連語riと、単語t
の関連語riの関連度viの組(ri,vi)の集合である。ここ
で、iは関連語の番号である。
In step 103, the new word vector calculation unit 6
Acquires the related word data R of the word t from the related word database 5. The related word data R includes a related word r i of the word t and a word t
Set of relevance v i of related words r i (r i, v i ) is the set of. Here, i is the number of the related word.

【0038】ステップ104に、新語ベクトル計算部6
は、関連語データR中の関連語riのうちで、概念辞書2
中に存在する語に関して、概念辞書2より各関連語ri
属性ベクトル
In step 104, the new word vector calculation unit 6
Is the concept dictionary 2 among the related words ri in the related word data R.
Attribute vector of each related word r i from concept dictionary 2

【0039】[0039]

【外2】 [Outside 2]

【0040】を取得する。Is obtained.

【0041】ステップ105に、新語ベクトル計算部6
は、関連語データR中の語rのうちで、一時保存ベクトル
データベース7中に存在する語に関して、一時保存デー
タベース7よりその属性ベクトル
In step 105, the new word vector calculation unit 6
Is the attribute vector of the word r in the related word data R, which is present in the temporary storage vector database 7, from the temporary storage database 7.

【0042】[0042]

【外3】 [Outside 3]

【0043】を取得する。なお、初期状態では、一時保
存ベクトルデータベース7中にはデータはない。
Is obtained. In the initial state, there is no data in the temporary storage vector database 7.

【0044】ステップ106に、新語ベクトル計算部6
は、関連度の高い語同士は意味的な関連も深いと仮定
し、ステップ104または105で取得した属性ベクト
ルデータ
In step 106, the new word vector calculation unit 6
Assumes that words having a high degree of relevance are deeply semantically related, and the attribute vector data acquired in step 104 or 105

【0045】[0045]

【外4】 [Outside 4]

【0046】とステップ103で求めた関連度の値vi
用いて、単語tの属性ベクトル
[0046] and by using the relevance of the value v i obtained in step 103, attribute vector of the word t

【0047】[0047]

【外5】 [Outside 5]

【0048】を次式により計算Is calculated by the following equation.

【0049】[0049]

【数3】 (Equation 3)

【0050】する。Then,

【0051】ここで、添字1は単語tの属性ベクトルの
1回目の計算結果であることを表す。一般に単語tの属
性ベクトルのn回目の計算結果を
Here, the subscript 1 represents the result of the first calculation of the attribute vector of the word t. In general, the n-th calculation result of the attribute vector of word t is

【0052】[0052]

【外6】 [Outside 6]

【0053】で表す。Is represented by

【0054】ステップ107に、新語リストL中に未処
理の単語が存在するかどうか判定する。存在する場合
は、ステップ102へ、全ての単語について処理を終え
た場合は、ステップ108へ進む。この時点で、新語リ
ストL中の各語についての属性ベクトルの計算が1回、
終了したことになる。
In step 107, it is determined whether or not an unprocessed word exists in the new word list L. If there is, the process proceeds to step 102, and if the processing has been completed for all words, the process proceeds to step 108. At this point, the calculation of the attribute vector for each word in the new word list L is performed once,
It has ended.

【0055】ステップ108に、新語ベクトル計算部6
は、終了条件を判定する。終了条件としては、予め設定
した計算回数に達したか否かや、各単語の属性ベクトル
の前回の計算結果との差分の総和Dが、予め設定した閾
値より小さいか否かなどが考えられる。Dは次式で定義
される。
In step 108, the new word vector calculation unit 6
Determines the termination condition. Examples of the termination condition include whether or not a predetermined number of calculations has been reached, and whether or not the sum D of the difference between the attribute vector of each word and the previous calculation result is smaller than a predetermined threshold. D is defined by the following equation.

【0056】[0056]

【数4】 (Equation 4)

【0057】終了条件が満たされている場合は、ステッ
プ110へ、満たされていない場合は、ステップ109
へ進む。
If the termination condition is satisfied, the process proceeds to step 110; otherwise, the process proceeds to step 109.
Proceed to.

【0058】ステップ109に、新語ベクトル計算部6
は、今回計算した各語の属性ベクトルで、一時保存ベク
トルデータベース7を書き換え、ステップ102へ戻
る。
In step 109, the new word vector calculation unit 6
Rewrites the temporary storage vector database 7 with the attribute vector of each word calculated this time, and returns to step 102.

【0059】ステップ110に、新語ベクトル計算部6
は、今回計算した各語の属性ベクトルを新語辞書8へ書
き出す。
In step 110, the new word vector calculation unit 6
Writes the attribute vector of each word calculated this time to the new word dictionary 8.

【0060】本実施形態によれば、既存の概念辞書2と
検索ログを用意するだけで、自動的に新語の属性ベクト
ルを算出することが可能となる。
According to the present embodiment, it is possible to automatically calculate the attribute vector of a new word only by preparing the existing concept dictionary 2 and the search log.

【0061】なお、以上説明した図4の処理は概念辞書
拡張プログラムとして、フロッピィディスク、CD−RO
M、光磁気ディスクなどの記録媒体に記録しておき、パ
ソコンなどのコンピュータ上で実行することができる。
The above-described processing of FIG. 4 is performed as a concept dictionary extension program by using a floppy disk, a CD-RO
M, recorded on a recording medium such as a magneto-optical disk, and can be executed on a computer such as a personal computer.

【0062】[0062]

【発明の効果】以上説明したように、本発明は、インタ
ーネットの検索エンジンやデータベースの検索ログか
ら、検索語、検索語が使用された時刻、検索語の使用者
あるいは使用端末のID情報を獲得し、これらに基づき検
索語間の関連の程度を表す関連度を算出し、この関連度
と概念辞書に定義された単語の属性ベクトルを用い、新
語の属性ベクトルを自動的に算出することにより、新語
や固有名詞に対応した概念辞書を容易に構築できるとい
う効果がある。
As described above, the present invention obtains a search term, a time at which the search term was used, ID information of a user of the search term or a terminal used from a search log of an Internet search engine or a database. Then, based on these, the degree of relevance indicating the degree of relevance between the search words is calculated, and by using the degree of relevance and the attribute vector of the word defined in the concept dictionary, the attribute vector of the new word is automatically calculated. There is an effect that a concept dictionary corresponding to a new word or a proper noun can be easily constructed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態の概念辞書拡張装置のブロ
ック図である。
FIG. 1 is a block diagram of a concept dictionary extension device according to an embodiment of the present invention.

【図2】図1に示した新語リスト1中の単語リストの例
の一部である。
FIG. 2 is a part of an example of a word list in the new word list 1 shown in FIG.

【図3】図1に示した関連度計算部4が生成し、関連語
データベース5に保存される関連語データの例の一部で
ある。
FIG. 3 is a part of an example of related word data generated by a relevance calculator 4 shown in FIG. 1 and stored in a related word database 5;

【図4】図1の概念辞書拡張装置の動作を示すフローチ
ャートである。
FIG. 4 is a flowchart showing an operation of the concept dictionary extension device of FIG. 1;

【符号の説明】 1 新語リスト 2 概念辞書 3 検索ログデータベース 4 関連度計算部 5 関連語データベース 6 新語ベクトル計算部 7 一時保存ベクトルデータベース 8 新語辞書 101〜110 ステップ[Description of Signs] 1 New word list 2 Concept dictionary 3 Search log database 4 Relevance calculator 5 Related word database 6 New word vector calculator 7 Temporary storage vector database 8 New word dictionary 101 to 110 steps

フロントページの続き (72)発明者 稲垣 博人 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B075 ND03 NK46 NR12 PR03 PR10 QM07 UU01 Continuation of front page (72) Inventor Hiroto Inagaki 2-3-1 Otemachi, Chiyoda-ku, Tokyo F-term in Nippon Telegraph and Telephone Corporation (reference) 5B075 ND03 NK46 NR12 PR03 PR10 QM07 UU01

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 検索ログから得られる、検索ユーザが使
用した各2つの検索語の使用された時間間隔の情報を用
いて両検索語間の関連度を算出し、検索語とその関連度
を含む関連語データを作成し、関連語データベースに保
存する第1のステップと、 新語リストから単語を1つ読み込み、前記関連語データ
ベースから、その単語に関する関連語を関連度とともに
取得し、取得した関連語の中で概念辞書に既に存在する
ものについて、属性ベクトルを概念辞書から取得し、取
得した関連語の中で一時保存ベクトルデータベースに存
在するものについて、属性ベクトルを前記一時保存ベク
トルデータベースから取得し、前記取得した属性ベクト
ルを前記関連度で重みづけした上で足し合わせて前記単
語の属性ベクトルを計算することを、前記新語リスト内
の全ての単語について行う第2のステップと、 所定の終了条件が満たされたかどうか判定する第3のス
テップと、 所定の終了条件が満たされていない場合、今回計算した
各語の属性ベクトルで前記一時保存ベクトルデータベー
スを書き換え、第2のステップに戻る第4のステップ
と、 所定の終了条件が満たされている場合、今回計算した各
語の属性ベクトルを新語辞書へ書き出す第5のステップ
を有する概念辞書拡張方法。
A relevance between two search terms is calculated using information on time intervals of two search terms used by a search user obtained from a search log, and the search terms and the relevance are calculated. A first step of creating related word data including the related word database and storing the related word data in a related word database; reading one word from the new word list; obtaining related words related to the word together with the degree of relevance from the related word database; For words that already exist in the concept dictionary, the attribute vector is obtained from the concept dictionary, and for the acquired related words that exist in the temporary storage vector database, the attribute vector is obtained from the temporary storage vector database. Calculating the attribute vector of the word by adding the acquired attribute vectors after weighting them with the degree of association, A second step for all the words in the list, a third step for determining whether a predetermined end condition is satisfied, and an attribute vector of each word calculated this time when the predetermined end condition is not satisfied. A fourth step of rewriting the temporary storage vector database and returning to the second step, and a fifth step of writing the attribute vector of each word calculated this time to the new word dictionary when a predetermined end condition is satisfied. Concept dictionary expansion method to have.
【請求項2】 前記終了条件が、計算回数が予め設定さ
れた計算回数に達したか否かである、請求項1に記載の
方法。
2. The method according to claim 1, wherein the termination condition is whether the number of calculations has reached a predetermined number of calculations.
【請求項3】 前記終了条件が、各単語の属性ベクトル
の前回の計算結果との差分の総和が、予め設定された閾
値よりも小さいか否かである、請求項1に記載の方法。
3. The method according to claim 1, wherein the end condition is whether or not a sum of differences between the attribute vector of each word and a previous calculation result is smaller than a preset threshold.
【請求項4】 語の意味をベクトル表現した概念辞書
と、 ユーザの検索を記録した検索ログを保持する検索ログデ
ータベースと、 検索語とその関連度を含む関連語データを一時保存する
関連語データベースと、 新たに属性ベクトルを追加する新語のリストである新語
リストと、 属性ベクトルを一時保存する一時保存ベクトルデータベ
ースと、 最終的な新語の属性ベクトルの計算結果を保持する新語
辞書と、 前記検索ログデータベース中の検索ログを読み込み、検
索ログから得られる、検索ユーザが使用した各2つの検
索語の使用された時間間隔の情報を用いて両検索語間の
関連度を算出し、検索語とその関連度を含む関連語デー
タを前記関連語データベースに保存する関連度計算部
と、 前記新語リスト中の各単語について、前記関連語データ
ベースから、その単語に関する関連語を関連度とともに
取得し、取得した関連語の中で前記概念辞書に既に存在
するものについて、属性ベクトルを前記概念辞書から取
得し、取得した関連語の中で前記一時保存ベクトルデー
タベースに存在するものについて、属性ベクトルを前記
一時保存ベクトルデータベースから取得し、前記の取得
した属性ベクトルを前記関連度で重みづけした上で足し
合わせて前記単語の属性ベクトルを計算し、所定の終了
条件が満たされたかどうか判定し、満たされていない場
合、今回計算した各語の属性ベクトルで前記一時保存ベ
クトルデータベースを書き換え、前記の単語の属性ベク
トルの計算に戻り、満たされていた場合、今回計算した
各語の属性ベクトルを前記新語辞書へ書き出す新語ベク
トル計算部を有する概念辞書拡張装置。
4. A concept dictionary in which the meaning of a word is expressed in a vector, a search log database that holds a search log that records a user's search, and a related word database that temporarily stores related word data including a search word and its relevance. A new word list that is a list of new words to which a new attribute vector is to be added; a temporary storage vector database that temporarily stores an attribute vector; a new word dictionary that holds the final new word attribute vector calculation result; and the search log. The search log in the database is read, and the degree of relevance between the two search terms is calculated using information on the time interval of each of the two search terms used by the search user obtained from the search log. A relevance calculator that stores related word data including a relevance in the related word database; and, for each word in the new word list, the related word data. From the database, a related word related to the word is acquired together with the degree of relevance, and among the acquired related words that already exist in the concept dictionary, an attribute vector is acquired from the concept dictionary. For those that exist in the temporary storage vector database, obtain the attribute vector from the temporary storage vector database, calculate the attribute vector of the word by adding the acquired attribute vectors after weighting them with the degree of association, It is determined whether a predetermined termination condition is satisfied.If not, the temporary storage vector database is rewritten with the attribute vector of each word calculated this time, and the process returns to the calculation of the attribute vector of the word, and the condition is satisfied. In this case, there is a new word vector calculation unit for writing the attribute vector of each word calculated this time into the new word dictionary. Concept dictionary expansion device.
【請求項5】 検索ログから得られる、検索ユーザが使
用した各2つの検索語の使用された時間間隔の情報を用
いて両検索語間の関連度を算出し、検索語とその関連度
を含む関連語データを作成し、関連語データベースに保
存する第1の処理と、 新語リストから単語を1つ読み込み、前記関連語データ
ベースから、その単語に関する関連語を関連度とともに
取得し、取得した関連語の中で概念辞書に既に存在する
ものについて、属性ベクトルを概念辞書から取得し、取
得した関連語の中で一時保存ベクトルデータベースに存
在するものについて、属性ベクトルを前記一時保存ベク
トルデータベースから取得し、前記取得した属性ベクト
ルを前記関連度で重みづけした上で足し合わせて前記単
語の属性ベクトルを計算することを、前記新語リスト内
の全ての単語について行う第2の処理と、 所定の終了条件が満たされたかどうか判定する第3の処
理と、 所定の終了条件が満たされていない場合、今回計算した
各語の属性ベクトルで前記一時保存ベクトルデータベー
スを書き換え、第2の処理に戻る第4の処理と、 所定の終了条件が満たされている場合、今回計算した各
語の属性ベクトルを新語辞書へ書き出す第5の処理をコ
ンピュータに実行させるための概念辞書拡張プログラム
を記録した記録媒体。
5. The degree of relevancy between two search terms is calculated using information on time intervals of two search terms used by a search user obtained from a search log, and the search term and its relevance are calculated. A first process of creating related word data including the related word database and storing the related word data in a related word database; reading one word from the new word list; acquiring a related word related to the word together with the degree of relevance from the related word database; For words that already exist in the concept dictionary, the attribute vector is obtained from the concept dictionary, and for the acquired related words that exist in the temporary storage vector database, the attribute vector is obtained from the temporary storage vector database. Calculating the attribute vector of the word by adding the acquired attribute vectors after weighting them with the degree of relevance, A second process to be performed on all the words in, a third process to determine whether a predetermined end condition has been satisfied, and, if the predetermined end condition has not been satisfied, an attribute vector of each word calculated this time is used. A fourth process of rewriting the temporary storage vector database and returning to the second process, and a fifth process of writing the attribute vector of each word calculated this time to a new word dictionary when a predetermined end condition is satisfied, Storage medium storing a concept dictionary extension program to be executed by a user.
JP2000278108A 2000-09-13 2000-09-13 Concept dictionary expansion device Expired - Fee Related JP3614765B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000278108A JP3614765B2 (en) 2000-09-13 2000-09-13 Concept dictionary expansion device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000278108A JP3614765B2 (en) 2000-09-13 2000-09-13 Concept dictionary expansion device

Publications (2)

Publication Number Publication Date
JP2002092017A true JP2002092017A (en) 2002-03-29
JP3614765B2 JP3614765B2 (en) 2005-01-26

Family

ID=18763319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000278108A Expired - Fee Related JP3614765B2 (en) 2000-09-13 2000-09-13 Concept dictionary expansion device

Country Status (1)

Country Link
JP (1) JP3614765B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316699A (en) * 2004-04-28 2005-11-10 Hitachi Ltd Content disclosure system, content disclosure method and content disclosure program
WO2008139568A1 (en) * 2007-05-08 2008-11-20 Fujitsu Limited Keyword output program and device
JP2012088854A (en) * 2010-10-18 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> Information analysis device, method, and program
CN104573003A (en) * 2015-01-08 2015-04-29 浙江大学 Method for predicating financial time series based on news topic information retrieval
CN110287330A (en) * 2018-03-19 2019-09-27 奥多比公司 The online dictionary of term vector extends
CN110321552A (en) * 2019-05-30 2019-10-11 泰康保险集团股份有限公司 Term vector construction method, device, medium and electronic equipment

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316699A (en) * 2004-04-28 2005-11-10 Hitachi Ltd Content disclosure system, content disclosure method and content disclosure program
WO2008139568A1 (en) * 2007-05-08 2008-11-20 Fujitsu Limited Keyword output program and device
US8244773B2 (en) 2007-05-08 2012-08-14 Fujitsu Limited Keyword output apparatus and method
JP2012088854A (en) * 2010-10-18 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> Information analysis device, method, and program
CN104573003A (en) * 2015-01-08 2015-04-29 浙江大学 Method for predicating financial time series based on news topic information retrieval
CN110287330A (en) * 2018-03-19 2019-09-27 奥多比公司 The online dictionary of term vector extends
CN110287330B (en) * 2018-03-19 2024-01-23 奥多比公司 On-line dictionary expansion of word vectors
CN110321552A (en) * 2019-05-30 2019-10-11 泰康保险集团股份有限公司 Term vector construction method, device, medium and electronic equipment

Also Published As

Publication number Publication date
JP3614765B2 (en) 2005-01-26

Similar Documents

Publication Publication Date Title
JP4173774B2 (en) System and method for automatic retrieval of example sentences based on weighted edit distance
JP2004348591A (en) Document search method and device thereof
AU2018250372B2 (en) Method to construct content based on a content repository
JP3023943B2 (en) Document search device
JP2019082931A (en) Retrieval device, similarity calculation method, and program
CN111859013A (en) Data processing method, device, terminal and storage medium
KR100495593B1 (en) File processing method, data processing device, and storage medium
JP4065346B2 (en) Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method
JP3614765B2 (en) Concept dictionary expansion device
JPH09282331A (en) Device and method for judging document similarity
JP6805927B2 (en) Index generator, data search program, index generator, data search device, index generation method, and data search method
JP2001265774A (en) Method and device for retrieving information, recording medium with recorded information retrieval program and hypertext information retrieving system
JPH11250077A (en) Information processor, information processing method and record medium
JPH1173415A (en) Device and method for retrieving similar document
JP2003108571A (en) Document summary device, control method of document summary device, control program of document summary device and recording medium
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
JP3558854B2 (en) Data retrieval device and computer-readable recording medium
JP2000200285A (en) Method and device for information retrieval, and recording medium where information retrieval program is recorded
JP2002108888A (en) Device and method for extracting keyword of digital contents and computer readable recording medium
JP3744136B2 (en) Translation device and storage medium
JP2006004283A (en) Method and system for extracting/narrowing keyword from text information source
JP3500698B2 (en) Keyword extraction device and keyword extraction method
CN113593543B (en) Intelligent loudspeaker voice service system, method, device and equipment
JP2002215672A (en) Retrieval expression extension method, retrieval system and retrieval expression extension computer program
JP2006127077A (en) Information processing apparatus ane method, recording medium and program

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040721

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040913

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040913

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041027

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees