JP3553795B2 - Synonym calculation apparatus and method, and medium recording synonym calculation program - Google Patents

Synonym calculation apparatus and method, and medium recording synonym calculation program Download PDF

Info

Publication number
JP3553795B2
JP3553795B2 JP11857998A JP11857998A JP3553795B2 JP 3553795 B2 JP3553795 B2 JP 3553795B2 JP 11857998 A JP11857998 A JP 11857998A JP 11857998 A JP11857998 A JP 11857998A JP 3553795 B2 JP3553795 B2 JP 3553795B2
Authority
JP
Japan
Prior art keywords
relevance
group
words
belonging
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP11857998A
Other languages
Japanese (ja)
Other versions
JPH11312168A (en
Inventor
雅且 大久保
孝史 井上
正之 杉崎
一男 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11857998A priority Critical patent/JP3553795B2/en
Publication of JPH11312168A publication Critical patent/JPH11312168A/en
Application granted granted Critical
Publication of JP3553795B2 publication Critical patent/JP3553795B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、単語同士の関連度が定義された複数の辞書を用いて、同義語とみなせる単語をグループ化する同義語計算装置及びその方法並びに同義語計算プログラムを記録した媒体に関するものである。
【0002】
【従来の技術】
従来、表記は異なるが同じ意味を持つ単語をまとめた辞書として、同義語辞書があった。
【0003】
同義語辞書は、例えば情報検索において1つの単語を検索語として入力した際に、同義語辞書を用いてその検索語を補完して検索することによって、利用者の意図する情報を簡単に検索できるようにするために使用される。あるいは、情報検索サービスにおいて、さまざまな情報に対する利用者からの要求の強さは検索語の使用回数によって測定することができるが、その際、同義語に対する使用回数をまとめて集計することによって、より正確な値を求めることができる。
【0004】
しかし、単語同士の関係は、時と共に変化する。例えば「オリンピック」という検索語は、オリンピックの歴史や競技種目を検索する場合、オリンピック会場へのアクセス方法や入場チケットについて検索する場合、オリンピックの競技結果の速報を知りたい場合、次に開催されるオリンピックについて知りたい場合等、時期に応じて様々な用途で使用される。
【0005】
従来の同義語辞書は、このような時と共に変化する関係は考慮されておらず、このため、同義語辞書を用いて検索しても、常に同じ検索結果しか得られないという問題があった。また、情報要求の強さについても、従来の同義語辞書では正確な測定ができないという問題があった。
【0006】
【発明が解決しようとする課題】
ところで、本出願人が先に提案した検索ログを解析する情報関連づけ装置(特願平9−148519号)を用いることにより、時と共に変化する関係に自動的に追随した関連度辞書を構築できる。しかし、このようにして作成された関連度辞書では、単語同士の関連度は求められるが、どの単語とどの単語が、その時に同義語として利用されているかを正確に判定することはできない。関連度が所定の閾値以上のものを同義語とみなすことも考えられるが、この方法では誤差が大きくなることが懸念される。
【0007】
例えば、3つの単語W1,W2,W3があって、W1とW2、W2とW3の間の関連度がそれぞれ閾値より大きかったとしても、W1とW3の関連度が閾値より大きいとは限らない。即ち、単純に閾値だけによる判定では、このような連鎖による誤判定を招いてしまう。また、前記の情報関連付け装置では、異なる2種類の観点からの関連度を求めることができるが、この両者を効果的に組み合わせて同義語辞書を構築する手段については述べていなかった。
【0008】
本発明の目的は、上記のような問題点に鑑みてなされたものであり、少なくとも2種類の辞書を効果的に組み合わせて同義語とみなされる単語を自動的にグループ化し得る、同義語計算装置及びその方法並びに同義語計算プログラムを記録した媒体を提供することにある。
【0009】
【課題を解決するための手段】
上記目的を達成するため、本発明では、少なくとも2種類の関連度辞書を用い、一の関連度辞書に基づいて単語グループを初期化するとともに、各関連度辞書に基づいて単語グループを併合処理することによって同義語グループを作成するため、少なくとも2種類の関連度を反映した同義語辞書を作成することができる。また、関連度辞書として所定期間の検索ログを解析して作成した辞書を用いることにより、一般的な同義語ではなく、その時期に同義語的に用いられた関連語を集約できるので、現在の情報ニーズを反映した同義語辞書を作成することができる。
【0010】
【発明の実施の形態】
以下、本発明を図面に基づいて詳述する。
【0011】
図1は本発明の実施の形態の一例を示すもので、図中、1は間隔関連度辞書、2は時系列関連度辞書、3は単語グループ初期化部、4は単語グループ化部である。
【0012】
間隔関連度辞書1は、本出願人が先に提案した、検索ログを解析する情報関連づけ装置(特願平9−148519号)を用いて、同一利用者による検索の時間間隔に基づいて単語同士の関連度を定義・作成したもので、図2にその一例を示す。
【0013】
図2において、単語W1と単語W2,W3,……との関連度(間隔関連度と呼ぶ。)は、それぞれ、Ir(1,2),Ir(1,3),……であることを示している。また、Ir(1,2)=Ir(2,1),Ir(1,3)=Ir(3,1),……である。
【0014】
時系列関連度辞書2は、本出願人が先に提案した、検索ログを解析する情報関連づけ装置(特願平9−148519号)を用いて、各検索語の使用頻度の時系列の相関係数に基づいて単語同士の関連度を定義・作成したもので、図3にその一例を示す。
【0015】
図3において、単語W1と単語W2,W3,……との関連度(時系列関連度と呼ぶ。)は、それぞれ、Cr(1,2),Cr(1,3),……であることを示している。また、Cr(1,2)=Cr(2,1),Cr(1,3)=Cr(3,1),……である。
【0016】
単語グループ初期化部3は、各単語が属するグループの初期値を設定するもので、図4に初期値設定フローチャートの一例を示す。図4において、G[Wi]は、単語Wiが属するグループの名前を表しており、初期値としてG[Wi]=iとしている。即ち、各単語はそれぞれ、その単語のみからなるグループに属するように設定される。
【0017】
単語グループ化部4は、各単語間の間隔関連度と時系列関連度に基づいて単語をグループ化するもので、図5に単語グループ化処理の基本フローチャートの一例を示す。図5では、2つの単語WjとWkの基準となる関連度をR(j,k)、R(j,k)の閾値をTHとしている。
【0018】
処理の流れは、
R(j,k)の最も大きな組(j,k)を取り出し(ステップS1)、R(j,k)>THでなければ終了する(ステップS2)。R(j,k)>THであれば、G[Wj]に属する単語(要素)Wp、G[Wk]に属する単語(要素)Wqをそれぞれ取り出し(ステップS3)、WpとWqとがグループ化条件を満たすかどうかを検査する(ステップS4)。
【0019】
条件を満たす場合、G[Wj]内の全ての要素Wpと、G[Wk]内の全ての要素Wqとについて検査し(ステップS5)、これらがグループ化条件を満たす場合、G[Wk]をG[Wj]に併合して1つのグループとする、即ちG[Wj]=G[Wj]+G[Wk]とする(ステップS6)。
【0020】
全ての(j,k)についてステップS2からS6までの処理を行っていれば終了し(ステップS7)、そうでなければ、次に大きなR(j,k)値を持つ(j,k)の組を取り出し(ステップS8)、これがG[Wj]=G[Wk]でなければ(ステップS9)、ステップS2からS6まで繰り返す。
【0021】
単語グループ化部4では、上記基本フローチャートに基づいて単語のグループ化処理を行う。この際に、R(j,k)としてIr(j,k)、閾値としてTHI1を用い、また、ステップS4におけるグループ化条件として、
Ir(p,q)>THI2またはCr(p,q)>THCR1……(条件1)
を用いる。
【0022】
この結果、各単語はグループに分けることができ、各グループに含まれる単語間には(条件1)が成り立つ。即ち、各グループ内の単語は間隔関連度がTHI2より大きいか、または時系列関連度がTHCR1より大きくなっており、それらの単語同士を同義語として出力する。
【0023】
図6は単語グループ初期化部3の別の例を示すもので、図1と同一構成部分は同一符号をもって表す。即ち、1は間隔関連度辞書、5は単独グループ生成部、6はコアグループ生成部である。
【0024】
単独グループ生成部5は、図4のフローチャートに基づいて各単語のみからのグループを生成する。また、コアグループ生成部6は間隔関連度に基づいてコアとなる単語グループを生成する。この処理は図5の基本フローチャートにおいて、R(j,k)としてIr(j,k)、閾値としてTHI3を用い、また、ステップS4におけるグループ化条件として、
Ir(p,q)>THI3 ……(条件2)
を用いて行う。この結果、各グループ内の単語は(条件2)が成り立ち、このコアグループを初期値として前記のグループ化処理を行う。
【0025】
図7は単語グループ初期化部3のさらに別の例を示すもので、図6と同一構成部分は同一符号をもって表す。即ち、1は間隔関連度辞書、5は単独グループ生成部、7は余弦計算部、8はコアグループ生成部である。
【0026】
余弦計算部7は、単語WjとWkとの間の余弦値Cos(j,k)を以下のようにして計算する。即ち、間隔関連度辞書1に基づいて、Wj={Ir(j,1),Ir(j,2),……Ir(j,n)}、Wk={Ir(k,1),Ir(k,2),……Ir(k,n)}とする時(但し、j=1,2,……n、k=1,2,……n、j≠k)、

Figure 0003553795
として計算する。
【0027】
上記式で求められたCos(j,k)は、各Wj,Wkをn次元空間で表した時のコサイン値(余弦値)に等しい。ここで、各間隔関連度は全て0以上の値であるので、Cos(j,k)の値は、0から1までの間の値となる。即ち、Cos(j,k)の値が大きいほどWjとWkの角度は小さくなる。
【0028】
また、コアグループ生成部8では、各単語間の余弦値に基づいてコアとなる単語グループを生成する。この処理は図5の基本フローチャートにおいて、R(j,k)としてCos(j,k)、閾値としてTHCOS1を用い、また、ステップS4におけるグループ化条件として、
Cos(p,q)>THCOS1 ……(条件3)
を用いて行う。この結果、各グループ内の単語は(条件2)が成り立ち、このコアグループを初期値として単語のグループ化処理を行う。
【0029】
単語グループ初期化部を図7の構成とした時、単語グループ化部4の処理は、図5の基本フローチャートにおいて、R(j,k)としてIr(j,k)、閾値としてTHI4を用い、また、ステップS4におけるグループ化条件として、
Ir(p,q)>THI4またはCr(p,q)>THCR2
またはCos(p,q)>THCOS2 ……(条件4)
を用いて行う。
【0030】
この結果、各単語はグループに分けることができ、各グループに含まれる単語間には(条件4)が成り立つ。即ち、各グループ内の単語は間隔関連度がTHI4より大きいか、または時系列関連度がTHCR2より大きいか、あるいは余弦値がTHCOS2より大きくなっており、それらの単語同士を同義語として出力する。
【0031】
このように、性格の異なる2種類の関連度をもとにして、各単語が同義語としてみなすことができるかどうかを判定し、同義語同士を同じグループに入れることができる。また、関連度辞書として、本出願人が先に提案した検索ログを解析する情報関連づけ装置(特願平9−148519号)によって生成された辞書を用いることにより、「その時点で同義語的に使用された単語」をグループ化することができるため、時代の流れに即した同義語辞書を自動的に生成できる。
【0032】
なお、関連度辞書の構成としては、各単語間の関連度が記述してあればその構成は任意であることはいうまでもない。
【0033】
【発明の効果】
以上説明したように、本発明によれば、単語同士の関連度を定義した少なくとも2種類の辞書を用いることによって同義語を検出しグループ化するため、同義語辞書を自動的に作成することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態の一例を示すブロック図
【図2】間隔関連度辞書の一例を示す説明図
【図3】時系列関連度辞書の一例を示す説明図
【図4】単語グループ初期化部における処理のフローチャート
【図5】関連度に基づいて単語をグループ化する処理のフローチャート
【図6】単語グループ初期化部の別の例を示すブロック図
【図7】単語グループ初期化部のさらに別の例を示すブロック図
【符号の説明】
1:間隔関連度辞書、2:時系列関連度辞書、3:単語グループ初期化部、4:単語グループ化部、5:単独グループ生成部、6,8:コアグループ生成部、7:余弦計算部。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a synonym calculation apparatus and method for grouping words that can be regarded as synonyms using a plurality of dictionaries in which the degree of association between words is defined, and a medium storing a synonym calculation program.
[0002]
[Prior art]
Conventionally, there is a synonym dictionary as a dictionary in which words having different notations but the same meaning are put together.
[0003]
The synonym dictionary can easily search for information intended by a user by, for example, inputting one word as a search word in an information search and complementing the search word using the synonym dictionary to perform a search. Used to be so. Alternatively, in an information search service, the strength of a request from a user for various information can be measured by the number of times a search term is used. An accurate value can be obtained.
[0004]
However, the relationship between words changes over time. For example, the search term "Olympics" will be held next when searching for the history and sports of the Olympics, searching for access to the Olympic venues and entry tickets, and wanting to know the breaking results of the Olympic games. It is used for various purposes depending on the season, such as when you want to know about the Olympics.
[0005]
The conventional synonym dictionary does not consider such a relationship that changes with time, and therefore, there is a problem that even if a search is performed using the synonym dictionary, only the same search result is always obtained. Also, there is a problem that the conventional synonym dictionary cannot accurately measure the strength of the information request.
[0006]
[Problems to be solved by the invention]
By using an information associating apparatus (Japanese Patent Application No. 9-148519) for analyzing a search log previously proposed by the present applicant, a relevance dictionary automatically following a relationship that changes with time can be constructed. However, in the relevance dictionary created in this way, the relevance between words is obtained, but it is not possible to accurately determine which words and which words are used as synonyms at that time. It is conceivable that a word whose relevance is equal to or more than a predetermined threshold value is regarded as a synonym, but there is a concern that this method may increase an error.
[0007]
For example, even if there are three words W1, W2, and W3 and the relevance between W1 and W2 and between W2 and W3 is greater than the threshold, the relevance between W1 and W3 is not necessarily greater than the threshold. That is, a simple determination based on only the threshold value causes an erroneous determination due to such a chain. Further, in the above-mentioned information associating device, it is possible to obtain the degree of relevance from two different viewpoints, but there is no description of means for effectively combining the two to construct a synonym dictionary.
[0008]
An object of the present invention has been made in view of the above-mentioned problems, and has a synonym calculating apparatus capable of automatically combining at least two types of dictionaries and automatically grouping words regarded as synonyms. Another object of the present invention is to provide a medium storing a synonym calculation program and a method thereof.
[0009]
[Means for Solving the Problems]
In order to achieve the above object, according to the present invention, at least two types of relevance dictionaries are used, a word group is initialized based on one relevance dictionary, and a word group is merged based on each relevance dictionary. Thus, since a synonym group is created, a synonym dictionary reflecting at least two types of relevance can be created. In addition, by using a dictionary created by analyzing a search log for a predetermined period as a relevance dictionary, related terms used synonymously at that time can be aggregated instead of general synonyms. A synonym dictionary that reflects information needs can be created.
[0010]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, the present invention will be described in detail with reference to the drawings.
[0011]
FIG. 1 shows an example of an embodiment of the present invention. In the figure, 1 is an interval relevance dictionary, 2 is a time-series relevance dictionary, 3 is a word group initialization unit, and 4 is a word grouping unit. .
[0012]
The interval relevance dictionary 1 uses an information associating device (Japanese Patent Application No. 9-148519) for analyzing a search log, which has been previously proposed by the present applicant, to compare words with each other based on the time interval of search by the same user. Are defined and created, and FIG. 2 shows an example thereof.
[0013]
In FIG. 2, the relevance (referred to as an interval relevance) between the word W1 and the words W2, W3,... Is Ir (1,2), Ir (1,3),. Is shown. Further, Ir (1,2) = Ir (2,1), Ir (1,3) = Ir (3,1),...
[0014]
The time-series relevance dictionary 2 uses an information associating device (Japanese Patent Application No. 9-148519) for analyzing a search log, which has been proposed by the present applicant, to determine the time-series phase relationship of the frequency of use of each search word. FIG. 3 shows an example in which the degree of association between words is defined and created based on the number.
[0015]
In FIG. 3, the relevance (referred to as a time-series relevance) between the word W1 and the words W2, W3,... Is Cr (1,2), Cr (1,3),. Is shown. Also, Cr (1,2) = Cr (2,1), Cr (1,3) = Cr (3,1),...
[0016]
The word group initialization unit 3 sets an initial value of a group to which each word belongs. FIG. 4 shows an example of an initial value setting flowchart. In FIG. 4, G [Wi] represents the name of the group to which the word Wi belongs, and G [Wi] = i as an initial value. That is, each word is set to belong to a group consisting of only that word.
[0017]
The word grouping section 4 groups words based on the interval relevance between words and the time-series relevance, and FIG. 5 shows an example of a basic flowchart of the word grouping process. In FIG. 5, the reference degree of relevance between two words Wj and Wk is R (j, k), and the threshold value of R (j, k) is TH.
[0018]
The processing flow is
The largest set (j, k) of R (j, k) is extracted (step S1), and the process ends unless R (j, k)> TH (step S2). If R (j, k)> TH, words (elements) Wp belonging to G [Wj] and words (elements) Wq belonging to G [Wk] are respectively extracted (step S3), and Wp and Wq are grouped. It is checked whether the condition is satisfied (step S4).
[0019]
If the condition is satisfied, all the elements Wp in G [Wj] and all the elements Wq in G [Wk] are checked (step S5). If these satisfy the grouping condition, G [Wk] is determined. G [Wj] is merged into one group, that is, G [Wj] = G [Wj] + G [Wk] (step S6).
[0020]
If the processing from steps S2 to S6 has been performed for all (j, k), the processing ends (step S7), otherwise, the (j, k) having the next largest R (j, k) value A set is taken out (step S8), and if this is not G [Wj] = G [Wk] (step S9), steps S2 to S6 are repeated.
[0021]
The word grouping unit 4 performs a word grouping process based on the basic flowchart. At this time, Ir (j, k) is used as R (j, k), THI1 is used as a threshold, and the grouping conditions in step S4 are as follows:
Ir (p, q)> THI2 or Cr (p, q)> THCR1 (condition 1)
Is used.
[0022]
As a result, each word can be divided into groups, and (condition 1) is established between the words included in each group. That is, the words in each group have an interval relevance greater than THI2 or a time-series relevance greater than THCR1, and output these words as synonyms.
[0023]
FIG. 6 shows another example of the word group initialization unit 3, and the same components as those in FIG. 1 are denoted by the same reference numerals. That is, 1 is an interval association degree dictionary, 5 is a single group generation unit, and 6 is a core group generation unit.
[0024]
The single group generation unit 5 generates a group from only each word based on the flowchart of FIG. The core group generation unit 6 generates a core word group based on the interval relevance. This process uses Ir (j, k) as R (j, k) and THI3 as a threshold value in the basic flowchart of FIG. 5, and as a grouping condition in step S4,
Ir (p, q)> THI3 (condition 2)
This is performed using As a result, the word in each group satisfies (condition 2), and the above grouping process is performed with the core group as an initial value.
[0025]
FIG. 7 shows still another example of the word group initialization unit 3, and the same components as those in FIG. 6 are denoted by the same reference numerals. That is, 1 is an interval relevance dictionary, 5 is a single group generation unit, 7 is a cosine calculation unit, and 8 is a core group generation unit.
[0026]
The cosine calculator 7 calculates a cosine value Cos (j, k) between the words Wj and Wk as follows. That is, based on the interval association degree dictionary 1, Wj = {Ir (j, 1), Ir (j, 2),... Ir (j, n)}, Wk = {Ir (k, 1), Ir ( k, 2),... Ir (k, n)} (j = 1, 2,... n, k = 1, 2,... n, j ≠ k)
Figure 0003553795
Is calculated as
[0027]
Cos (j, k) obtained by the above equation is equal to a cosine value (cosine value) when each Wj, Wk is represented in an n-dimensional space. Here, since each interval relevance is a value of 0 or more, the value of Cos (j, k) is a value between 0 and 1. That is, as the value of Cos (j, k) increases, the angle between Wj and Wk decreases.
[0028]
The core group generation unit 8 generates a core word group based on the cosine value between words. This process uses Cos (j, k) as R (j, k) and THCOS1 as a threshold in the basic flowchart of FIG. 5, and as a grouping condition in step S4,
Cos (p, q)> THCOS1 (condition 3)
This is performed using As a result, the word in each group satisfies (Condition 2), and word grouping processing is performed using the core group as an initial value.
[0029]
When the word group initialization unit is configured as shown in FIG. 7, the process of the word grouping unit 4 uses Ir (j, k) as R (j, k) and THI4 as a threshold in the basic flowchart of FIG. Also, as a grouping condition in step S4,
Ir (p, q)> THI4 or Cr (p, q)> THCR2
Or Cos (p, q)> THCOS2 (condition 4)
This is performed using
[0030]
As a result, each word can be divided into groups, and (condition 4) is established between the words included in each group. That is, the words in each group have an interval relevance greater than THI4, a time-series relevance greater than THCR2, or a cosine value greater than THCOS2, and output these words as synonyms.
[0031]
In this way, it is possible to determine whether each word can be regarded as a synonym based on two types of relevance having different personalities, and to put the synonyms into the same group. In addition, by using a dictionary generated by an information associating device (Japanese Patent Application No. 9-148519) for analyzing a search log previously proposed by the present applicant as a relevance dictionary, "synonyms at that time are obtained. Since "used words" can be grouped, synonym dictionaries that match the times can be automatically generated.
[0032]
It goes without saying that the configuration of the relevance dictionary is arbitrary as long as the relevance between words is described.
[0033]
【The invention's effect】
As described above, according to the present invention, synonyms are detected and grouped by using at least two types of dictionaries that define the degree of relevance between words, so that a synonym dictionary can be automatically created. it can.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an example of an embodiment of the present invention. FIG. 2 is an explanatory diagram showing an example of an interval relevance dictionary. FIG. 3 is an explanatory diagram showing an example of a time-series relevance dictionary. FIG. 5 is a flowchart of a process for grouping words based on the degree of relevance. FIG. 6 is a block diagram showing another example of the word group initialization unit. FIG. 7 is a word group initialization. Block diagram showing still another example of the unit.
1: interval relevance dictionary, 2: time-series relevance dictionary, 3: word group initialization unit, 4: word group generation unit, 5: single group generation unit, 6, 8: core group generation unit, 7: cosine calculation Department.

Claims (20)

単語同士の関連度をそれぞれ異なる観点から定義した少なくとも2種類の関連度辞書と、
一の関連度辞書に含まれる全ての単語についてそれらが属するグループを初期設定する単語グループ初期化部と、
一のグループに属する単語と他のグループに属する単語とが同一グループに属するとみなせるか否かを、前記少なくとも2種類の関連度辞書に定義された単語同士の関連度に基づいて判定し、一のグループに属する全ての単語と他のグループに属する全ての単語との全ての組み合わせについて同一グループに属するとみなせる場合、一のグループと他のグループとを併合する単語グループ化部とを備えた
ことを特徴とする同義語計算装置。
At least two types of relevance dictionaries defining relevance between words from different viewpoints,
A word group initialization unit that initializes a group to which all the words included in one association dictionary belong.
It is determined whether a word belonging to one group and a word belonging to another group can be regarded as belonging to the same group based on the relevance between words defined in the at least two types of relevance dictionary. When all combinations of all words belonging to a group and all words belonging to another group can be regarded as belonging to the same group, a word grouping unit for merging one group with another group is provided. Synonym calculation device characterized by the above-mentioned.
一の関連度辞書に含まれる全ての単語についてその単語のみを含むグループを初期設定する単語グループ初期化部を備えたことを特徴とする請求項1記載の同義語計算装置。2. The synonym calculation apparatus according to claim 1, further comprising a word group initializing unit that initializes a group including only the word for all the words included in one relevance dictionary. 一の関連度辞書に定義された単語同士の関連度が所定の閾値より大きい単語のみを含むグループを初期設定する単語グループ初期化部を備えたことを特徴とする請求項1記載の同義語計算装置。2. The synonym calculation according to claim 1, further comprising a word group initializing unit for initializing a group including only words whose relevance between words defined in one relevance dictionary is larger than a predetermined threshold. apparatus. 一の関連度辞書に定義された単語同士の関連度を用いて作成したベクトル間の余弦値が所定の閾値より大きい単語のみを含むグループを初期設定する単語グループ初期化部を備えたことを特徴とする請求項1記載の同義語計算装置。A word group initialization unit that initializes a group including only words whose cosine value between vectors created using the degree of association between words defined in one association degree dictionary is larger than a predetermined threshold value The synonym calculation device according to claim 1, wherein いずれかの関連度辞書に定義された単語同士の関連度が予め辞書毎に設定された特定の閾値より大きい場合、一のグループに属する単語と他のグループに属する単語とが同一グループに属すると見なして処理する単語グループ化部を備えたことを特徴とする請求項1乃至4いずれか記載の同義語計算装置。If the relevance between words defined in any of the relevance dictionaries is greater than a specific threshold value set in advance for each dictionary, it is determined that a word belonging to one group and a word belonging to another group belong to the same group. The synonym calculation device according to claim 1, further comprising a word grouping unit that processes the synonym. いずれかの関連度辞書に定義された単語同士の関連度が予め辞書毎に設定された特定の閾値より大きい場合もしくは一の関連度辞書に定義された単語同士の関連度を用いて作成したベクトル間の余弦値が特定の閾値より大きい場合、一のグループに属する単語と他のグループに属する単語とは同一グループに属すると見なして処理する単語グループ化部を備えたことを特徴とする請求項1乃至4いずれか記載の同義語計算装置。A vector created using the relevance between words defined in any of the relevance dictionaries when the relevancy between words is greater than a specific threshold value set in advance for each dictionary or using the relevance between words defined in one relevance dictionary A word grouping unit for processing a word belonging to one group and a word belonging to another group as being regarded as belonging to the same group when a cosine value between them is larger than a specific threshold value. 5. The synonym calculation device according to any one of 1 to 4. 所定期間の検索ログを解析して作成した関連度辞書を備えたことを特徴とする請求項1乃至6いずれか記載の同義語計算装置。7. The synonym calculation device according to claim 1, further comprising a relevance dictionary created by analyzing a search log for a predetermined period. 単語同士の関連度をそれぞれ異なる観点から定義した少なくとも2種類の関連度辞書のうちの一の関連度辞書に含まれる全ての単語についてそれらが属するグループを初期設定し、
一のグループに属する単語と他のグループに属する単語とが同一グループに属するとみなせるか否かを、前記少なくとも2種類の関連度辞書に定義された単語同士の関連度に基づいて判定し、
一のグループに属する全ての単語と他のグループに属する全ての単語との全ての組み合わせについて同一グループに属するとみなせる場合、一のグループと他のグループとを併合する
ことを特徴とする同義語計算方法。
Initially set a group to which all the words included in one of the relevance dictionaries of at least two types of relevance dictionaries in which the relevance between words is defined from different viewpoints,
Whether or not words belonging to one group and words belonging to another group can be regarded as belonging to the same group is determined based on the relevance between words defined in the at least two types of relevance dictionary,
A synonym calculation characterized by merging one group with another group when all combinations of all words belonging to one group and all words belonging to another group can be regarded as belonging to the same group. Method.
一の関連度辞書に含まれる全ての単語についてその単語のみを含むグループを初期設定することを特徴とする請求項8記載の同義語計算方法。9. The synonym calculation method according to claim 8, wherein for all the words included in one relevance dictionary, a group including only the word is initially set. 一の関連度辞書に定義された単語同士の関連度が所定の閾値より大きい単語のみを含むグループを初期設定することを特徴とする請求項8記載の同義語計算方法。9. The synonym calculation method according to claim 8, wherein a group including only words whose relevance between words defined in one relevance dictionary is larger than a predetermined threshold value is initially set. 一の関連度辞書に定義された単語同士の関連度を用いて作成したベクトル間の余弦値が所定の閾値より大きい単語のみを含むグループを初期設定することを特徴とする請求項8記載の同義語計算方法。9. A synonym according to claim 8, wherein a group including only words whose cosine value between vectors created using the degree of association between words defined in one association degree dictionary is larger than a predetermined threshold value is initialized. Word calculation method. いずれかの関連度辞書に定義された単語同士の関連度が予め辞書毎に設定された特定の閾値より大きい場合、一のグループに属する単語と他のグループに属する単語とが同一グループに属するとみなすことを特徴とする請求項8乃至11いずれか記載の同義語計算方法。If the relevance between words defined in any of the relevance dictionaries is greater than a specific threshold value set in advance for each dictionary, it is determined that a word belonging to one group and a word belonging to another group belong to the same group. The synonym calculation method according to any one of claims 8 to 11, wherein the synonym calculation method is considered. いずれかの関連度辞書に定義された単語同士の関連度が予め辞書毎に設定された特定の閾値より大きい場合もしくは一の関連度辞書に定義された単語同士の関連度を用いて作成したベクトル間の余弦値が特定の閾値より大きい場合、一のグループに属する単語と他のグループに属する単語とは同一グループに属するとみなすことを特徴とする請求項8乃至11いずれか記載の同義語計算方法。A vector created using the relevance between words defined in any of the relevance dictionaries when the relevancy between words is greater than a specific threshold value set in advance for each dictionary or using the relevance between words defined in one relevance dictionary 12. The synonym calculation according to claim 8, wherein a word belonging to one group and a word belonging to another group are considered to belong to the same group when a cosine value between them is larger than a specific threshold value. Method. 所定期間の検索ログを解析して作成した関連度辞書を用いることを特徴とする請求項8乃至13いずれか記載の同義語計算方法。14. The synonym calculation method according to claim 8, wherein a relevance dictionary created by analyzing a search log for a predetermined period is used. 計算装置に、
単語同士の関連度をそれぞれ異なる観点から定義した少なくとも2種類の関連度辞書のうちの一の関連度辞書に含まれる全ての単語についてそれらが属するグループを初期設定させる手順と
一のグループに属する単語と他のグループに属する単語とが同一グループに属するとみなせるか否かを、前記少なくとも2種類の関連度辞書に定義された単語同士の関連度に基づいて判定させる手順と
一のグループに属する全ての単語と他のグループに属する全ての単語との全ての組み合わせについて同一グループに属するとみなせる場合、一のグループと他のグループとを併合する手順とを実行させるための同義語計算プログラムを記録した媒体。
For computing devices,
Initializing the group to which all the words included in one of the at least two types of relevance dictionaries in which the relevance between words is defined from different viewpoints belong to ,
A step of determining whether words belonging to one group and words belonging to another group can be regarded as belonging to the same group, based on the relevance between words defined in the at least two types of relevance dictionaries ; ,
A synonym for performing a procedure for merging one group with another group when all combinations of all words belonging to one group and all words belonging to another group can be considered as belonging to the same group. A medium that stores a word calculation program.
一の関連度辞書に含まれる全ての単語についてその単語のみを含むグループを初期設定させる手順を含むことを特徴とする請求項15記載の同義語計算プログラムを記録した媒体。16. The medium recording the synonym calculation program according to claim 15 , further comprising a step of initializing a group including only the word in all the words included in one relevance dictionary. 一の関連度辞書に定義された単語同士の関連度が所定の閾値より大きい単語のみを含むグループを初期設定させる手順を含むことを特徴とする請求項15記載の同義語計算プログラムを記録した媒体。16. The medium storing the synonym calculation program according to claim 15 , further comprising a step of initializing a group including only words whose relevance between words defined in one relevance dictionary is larger than a predetermined threshold. . 一の関連度辞書に定義された単語同士の関連度を用いて作成したベクトル間の余弦値が所定の閾値より大きい単語のみを含むグループを初期設定させる手順を含むことを特徴とする請求項15記載の同義語計算プログラムを記録した媒体。

【請求項19】いずれかの関連度辞書に定義された単語同士の関連度が予め辞書毎に設定された特定の閾値より大きい場合、一のグループに属する単語と他のグループに属する単語とが同一グループに属するとみなすことを特徴とする請求項15乃至18いずれか記載の同義語計算プログラムを記録した媒体。
16. The method according to claim 15 , further comprising a step of initializing a group including only words whose cosine values between vectors created using the degree of association between words defined in one association degree dictionary are larger than a predetermined threshold value. A medium on which the described synonym calculation program is recorded.

19. When the relevance between words defined in any of the relevance dictionaries is larger than a specific threshold value set in advance for each dictionary, a word belonging to one group and a word belonging to another group are determined. 19. The medium storing the synonym calculation program according to claim 15, wherein the medium is regarded as belonging to the same group.
いずれかの関連度辞書に定義された単語同士の関連度が予め辞書毎に設定された特定の閾値より大きい場合もしくは一の関連度辞書に定義された単語同士の関連度を用いて作成したベクトル間の余弦値が特定の閾値より大きい場合、一のグループに属する単語と他のグループに属する単語とは同一グループに属するとみなすことを特徴とする請求項15乃至18いずれか記載の同義語計算プログラムを記録した媒体。A vector created using the relevance between words defined in any of the relevance dictionaries when the relevancy between words is greater than a specific threshold value set in advance for each dictionary or using the relevance between words defined in one relevance dictionary 19. The synonym calculation according to claim 15, wherein a word belonging to one group and a word belonging to another group are considered to belong to the same group when a cosine value between them is larger than a specific threshold value. Medium on which the program is recorded. 所定期間の検索ログを解析して作成した関連度辞書を用いることを特徴とする請求項15乃至20いずれか記載の同義語計算プログラムを記録した媒体。21. A medium storing a synonym calculation program according to claim 15, wherein a relevance dictionary created by analyzing a search log for a predetermined period is used.
JP11857998A 1998-04-28 1998-04-28 Synonym calculation apparatus and method, and medium recording synonym calculation program Expired - Lifetime JP3553795B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11857998A JP3553795B2 (en) 1998-04-28 1998-04-28 Synonym calculation apparatus and method, and medium recording synonym calculation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11857998A JP3553795B2 (en) 1998-04-28 1998-04-28 Synonym calculation apparatus and method, and medium recording synonym calculation program

Publications (2)

Publication Number Publication Date
JPH11312168A JPH11312168A (en) 1999-11-09
JP3553795B2 true JP3553795B2 (en) 2004-08-11

Family

ID=14740092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11857998A Expired - Lifetime JP3553795B2 (en) 1998-04-28 1998-04-28 Synonym calculation apparatus and method, and medium recording synonym calculation program

Country Status (1)

Country Link
JP (1) JP3553795B2 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243230A (en) * 2000-02-25 2001-09-07 Nippon Telegr & Teleph Corp <Ntt> Similarity discriminating method
JP2001325252A (en) * 2000-05-12 2001-11-22 Sony Corp Portable terminal, information input method therefor, dictionary retrieval device and method and medium
US6757692B1 (en) * 2000-06-09 2004-06-29 Northrop Grumman Corporation Systems and methods for structured vocabulary search and classification
JP2002032557A (en) * 2000-07-19 2002-01-31 Asahi Kasei Corp Support device for joint plan of housing commodity
JP3868435B2 (en) * 2004-04-19 2007-01-17 株式会社ソニー・コンピュータエンタテインメント Game character control method
JP2006285460A (en) * 2005-03-31 2006-10-19 Konica Minolta Holdings Inc Information search system
WO2010035412A1 (en) * 2008-09-25 2010-04-01 日本電気株式会社 Data analysis device, data analysis method and program
CA2760624C (en) 2010-12-07 2015-04-07 Rakuten, Inc. Server, dictionary creation method, dictionary creation program, and computer-readable recording medium recording the program
JP4828653B1 (en) 2010-12-07 2011-11-30 楽天株式会社 Server, dictionary generation method, dictionary generation program, and computer-readable recording medium for recording the program
WO2013146736A1 (en) * 2012-03-30 2013-10-03 日本電気株式会社 Synonym relation determination device, synonym relation determination method, and program thereof
JP2019049873A (en) 2017-09-11 2019-03-28 株式会社Screenホールディングス Synonym dictionary creation apparatus, synonym dictionary creation program, and synonym dictionary creation method
CN111209531B (en) * 2018-11-21 2023-08-08 百度在线网络技术(北京)有限公司 Correlation degree processing method, device and storage medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3525948B2 (en) * 1994-05-31 2004-05-10 富士通株式会社 Information retrieval device

Also Published As

Publication number Publication date
JPH11312168A (en) 1999-11-09

Similar Documents

Publication Publication Date Title
US7590626B2 (en) Distributional similarity-based models for query correction
JP3553795B2 (en) Synonym calculation apparatus and method, and medium recording synonym calculation program
CN109886294B (en) Knowledge fusion method, apparatus, computer device and storage medium
US6549897B1 (en) Method and system for calculating phrase-document importance
US6789230B2 (en) Creating a summary having sentences with the highest weight, and lowest length
CN105045781B (en) Query term similarity calculation method and device and query term search method and device
JP5513624B2 (en) Retrieving information based on general query attributes
JP4494632B2 (en) Information retrieval and speech recognition based on language model
JP5597255B2 (en) Ranking search results based on word weights
US20090063461A1 (en) User query mining for advertising matching
CN106407280A (en) Query target matching method and device
CN112732883A (en) Fuzzy matching method and device based on knowledge graph and computer equipment
KR101363171B1 (en) Cosine similarity based expert recommendation technique using hybrid collaborative filtering
WO2020063524A1 (en) Method and system for determining legal instrument
JP2009193219A (en) Indexing apparatus, method thereof, program, and recording medium
CN113032528A (en) Case analysis method, case analysis device, case analysis equipment and storage medium
CN111553151A (en) Question recommendation method and device based on field similarity calculation and server
CN110362648A (en) Update method and device, storage medium, the computer equipment of questionnaire survey topic
CN114547267A (en) Intelligent question-answering model generation method and device, computing equipment and storage medium
US20220414489A1 (en) Systems and methods to identify document transitions between adjacent documents within document bundles
JP5367632B2 (en) Knowledge amount estimation apparatus and program
JP2924958B2 (en) Fingerprint card narrowing device and fingerprint card narrowing method
WO2022019275A1 (en) Document search device, document search system, document search program, and document search method
CN116366312A (en) Web attack detection method, device and storage medium
US8065311B2 (en) Relevance score in a paid search advertisement system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040430

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100514

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100514

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110514

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120514

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 10

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term