JP2001014300A - 冪分布比較方法及び冪分布比較プログラムを記録した記録媒体 - Google Patents

冪分布比較方法及び冪分布比較プログラムを記録した記録媒体

Info

Publication number
JP2001014300A
JP2001014300A JP11188830A JP18883099A JP2001014300A JP 2001014300 A JP2001014300 A JP 2001014300A JP 11188830 A JP11188830 A JP 11188830A JP 18883099 A JP18883099 A JP 18883099A JP 2001014300 A JP2001014300 A JP 2001014300A
Authority
JP
Japan
Prior art keywords
distance
power distribution
power
comparison
distributions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11188830A
Other languages
English (en)
Inventor
Shinya Sato
進也 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11188830A priority Critical patent/JP2001014300A/ja
Publication of JP2001014300A publication Critical patent/JP2001014300A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

(57)【要約】 【課題】 冪分布を呈する複数対象の比較・解析などに
有益な冪分布比較方法及び冪分布比較プログラムを記録
した記録媒体を提供する。 【解決手段】 比較対象A,B,Cがそれぞれある事象
の集合と該集合の要素tiに対応する数量FA,FB,FC
とを有するとともに、該数量の大きさに基づく順位付け
が互いに同じ冪の冪分布を呈している状況において、各
冪分布間における順位付けの差異に基づくとともに順位
の高低による重み付けをして順位付けに関する第1距離
を算出し、各冪分布の数量的差異に基づき規模に関する
第2距離を算出し、前記第1距離と第2距離とを第1距
離を大きくとる重み付けをして合算することにより冪分
布間距離を算出し、この冪分布間距離により冪分布を数
量的に比較するので、同じ冪分布を呈している対象であ
れば、対象の特性を知らなくても、どのようなものでも
対象比較が容易となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データ,システ
ム,物理又は社会現象などの種々の対象からその特徴を
与える数値(の集合)が得られたとき、その数値(の集
合)をもとに対象の比較や分類といった処理を行う情報
処理に関するものである。
【0002】
【従来の技術】このような情報処理の対象として英文書
を例にして説明する。いま、ある英文書中に現れる単語
の集合を{tii=1,2...とする。このとき、tiの出現
頻度Fiと、この出現頻度に基づく順位(ランキング)
iとの間には、 Fi∝Ri -1 という関係が成立するという経験則(Zipfの法則)
が知られている(Zipf,G.K.: Human Behavior and the
Principle of Least-Effort, Addison-Wesley,Massachu
setts(1949))。
【0003】一般に、数量xと、xに付随して決まる数
量yとの間に、 y∝x-p,p>0 という関係が成立している場合、xとyには冪法則が成
り立っているといい、このxの変化に伴うyの変化の様
子を冪分布という(図1参照)。冪法則は、前述したよ
うな文書における単語の出現頻度と順位との関係だけで
なく、都市の人口と順位との関係、レンタルビデオの貸
出頻度と人気順位との関係など多くの事象に当てはまる
ことが知られている(高安秀樹:フラクタル,朝倉書店(1
986))。また、生体でよく観測される1/fゆらぎと
は、周波数とパワースペクトルの強さが冪法則に従って
いる状態を指しているものである。
【0004】多くの場合、冪法則はスケーラブルに、す
なわち、集計の母集合の規模に依存せずに成立する。例
えば、Zipfの法則は、文書としてある小説全体の単
語を数え上げても成立するが、第一章に出現する単語だ
け数え上げても成立する。
【0005】データ、システム、あるいは物理、社会現
象などの対象を解析した結果何らかの数量の分布が得ら
れたとき、それらに基づき当該対象の特徴付けを行うと
いう情報処理(データ処理)は従来から行われている。
例えば、文書の特徴付けをするのに、単語の出現頻度が
呈する冪分布を利用することが考えられる。しかし、実
際には冪分布をそのまま利用せず、対象(この場合に
は、文書とそこに現れる単語)の特性を考慮したデータ
の解釈、加工などにより特徴抽出が行われる。その一例
として、キーワードの自動抽出などのために広く使われ
ている手法であるtf・idf法が知られている(Salt
on,G., MacGill,M.J.: Introduction to Modern Inform
ation Retrieval, McGraw-Hill(1983))。
【0006】tf・idf法は、文書中の単語の当該文
書における重要度(キーワードとしての適性度)を計算
する方法である。N個の文書集合に属する文書Xにおい
て、単語tの重要度は次の式で与えられる。
【0007】Ft,X ×log(N/ft) ここで、Ft,Xはtの文書Xにおける出現頻度である。
また、ftはtを含む文書の数である。このtf・id
f法の基本的なアイディアは「文書中に多く現れる単語
が当該文書の特徴をよく表している」というものであ
る。しかし実際には、多くの文書に共通して現れるあり
ふれた単語の出現頻度が非常に高い。これらはキーワー
ドとしては不適切であり、それらを排除しなくてはなら
ない。そこで、td・idf法は、単語の出現頻度が冪
分布に従うことを考慮しlog(N/ft)により適性
度を補正している。
【0008】
【発明が解決しようとする課題】このtf・idf法
は、ある意味で文書の特徴を絶対的に表現するための手
段である。従って、特徴表現の他の方法である「文書A
は文書Bより文書Cに似ている」というような相対的な
比較には不適当である。また、tf・idf法は、1)
複数文書の集合である文書集合を予め設定する必要があ
る、2)少数の文書間の関係を得るためであっても文書
集合全体を処理する必要がある、3)対象(例えば文
書)の特徴を考慮した補正を行う必要がある、という問
題がある。
【0009】本発明は、上記事情に鑑みてなされたもの
であり、その目的とするところは、冪分布を呈する複数
対象の比較・解析などに有益な冪分布比較方法及び冪分
布比較プログラムを記録した記録媒体を提供することに
ある。
【0010】
【課題を解決するための手段】上記目的を達成するため
に、請求項1では、複数の比較対象がそれぞれある事象
の集合と該集合の要素に対応する数量とを有するととも
に、該数量の大きさに基づく順位付けが互いに同じ冪の
冪分布を呈している状況において、各比較対象の有する
冪分布を数量的に比較する冪分布比較方法であって、各
冪分布間における順位付けの差異に基づくとともに順位
の高低による重み付けをして順位付けに関する第1距離
を算出し、各冪分布の数量的差異に基づき規模に関する
第2距離を算出し、前記第1距離と第2距離とを第1距
離を大きくとる重み付けをして合算することにより冪分
布間距離を算出し、この冪分布間距離により冪分布を数
量的に比較することを特徴とするものを提案する。
【0011】本発明によれば、比較対象が有する冪分布
に対して冪分布の距離という数量的な基準を得ることが
できるので、対象を数量的且つ相対的に比較することが
できる。この距離の算出では、各冪分布間における順位
付けの差異という観点から第1距離が算出され、各冪分
布の数量的差異という観点から第2距離が算出される。
ここで第1距離の算出は順位の高低による重み付けが行
われる。そして、算出された第1距離と第2距離の合算
により冪分布の距離が算出される。ここで、距離の合算
は第1距離を大きくとる重み付けが行われる。これによ
り、冪分布間の距離という数量的な値を得ることができ
る。従って、同じ冪分布を呈している対象であれば、ど
のようなものであっても対象比較が容易となる。また、
対象の特性を知らなくても、特性に応じた補正や考慮等
を行うことなく容易に対象比較が可能となる。
【0012】また、請求項2では、請求項1記載の冪分
布比較方法において、前記第1距離の算出では、各冪分
布で同順位の要素に対応する数量に基づき順位付けに関
する第1距離を算出することを特徴とするものを提案す
る。
【0013】本発明によれば、冪分布の性質を利用する
ことにより、各冪分布で同順位の要素に対応する数量に
基づいて順位付けに関する前記第1距離が算出されるの
で、距離の算出が容易となる。
【0014】さらに、請求項3〜4では、請求項1〜2
の冪分布比較方法を実行するコンピュータプログラムを
記録した記録媒体を提案する。
【0015】
【発明の実施の形態】まず、本発明が適用可能な対象の
モデルについて図2を参照して説明する。図2は本発明
の対象となるモデルを説明する図である。ここで想定し
ているのは、比較対象(A,B,C)において各々ある
事象(事柄)の集合{ti}に対応する数量が決まり、
その数量の大きさに基づく順位付け(ランキング)が同
じ冪法則に従っている(冪が等しい)という状況であ
る。すなわち、比較対象X(∈{A,B,C})ごとに
{ti}から正の実数への写像FX(ti)が決まってい
て、その値の大きさの順に{ti}を並べたときに決ま
る順位(ランク)をRX(t i)とすると、(R
X(ti),FX(ti))が冪分布となる場合である(図
2では、X軸にはRX(ti)の代わりにtiと書いてあ
る)。文書を対象として比較する例でいえば、A,B,
Cは文書であり、{ti}は単語の集合である。また、
X(ti)は、文書Xにおける単語tiの出現頻度に対
応する。Zipfの法則によりこの分布の冪はみなほぼ
−1に等しい。以下、簡単のため(RX(ti),F
X(ti))の分布を略して、FXの分布と表記する。
【0016】本発明は、対象Zと比較対象X,Yに付随
する冪分布FX,FYに対して距離d(FX,FY)を定義
し、「d(FZ,FX)>d(FZ,FY)であれば、Zは
XよりYに似ている」という相対的比較を可能にするも
のである。d(FX,FY)の算出は以下の方針に基づい
て行う。 (1)2つの比較基準 図2においてグラフだけを見るとAはBよりCに似てい
ると思える。しかし、{ti}のランキングに注目する
と、AとBはほぼ同じ順序になっているのに対してCは
全く異なった順序となっている。これを文書を比較する
例で言えば、グラフ(曲線)の位置の違いは、文書のサ
イズの違いに対応する。しかし、文書の内容を比較する
際サイズの違いは本質的でなく、むしろ単語のランキン
グに注目すべきである。そこで、まず{ti}のランキ
ングの違いを調べ、付加的要素としてグラフの位置の違
いを調べることにより、分布を比較する。 (2)順位の高低に対する考慮 {ti}の位置ずれとは、基本的には順序の違いであ
る。具体的には、A,B間のtiに関するランクのずれ
は、AにおけるランクRA(ti)とBにおけるランクR
B(ti)の隔たり|RA(ti)−RB(ti)|として定
義できる。ただ、順位1つのずれでも、1位と2位との
違いと100位と101位の違いでは、意味的に隔たり
の度合いが異なる。明らかに前者の違いの方が大きい。
そこで、|RA(ti)−RB(ti)|に対して適切な変
換を施し、高順位でのずれは低順位でのずれに比べて大
きいものとして計算する。
【0017】次に、本発明の具体的な実施例について説
明する。いま比較対象として2つの文書X,Yが与えら
れているとする。各文書においてはZipfの法則が成
り立っている。すなわち、単語の出現頻度と出現頻度に
よるランクは冪法則に従っている。この2つの文書に対
して本発明を適用し、2者間の距離を計算する手順を以
下に説明する。以下でもまた、今まで用いてきた記号な
どをそのまま用いる。例えば、文書に出現する単語の集
合を{ti}、文書Xにおけるtiの出現頻度をF
X(ti)などとする。
【0018】1.冪関数を利用したランクのずれの計算 今、FXとFYのグラフが一致していると仮定する。この
とき、x1 <x2 ならば x1 -p−(x1+α)-p>x2
-p−(x2+α)-pという冪分布の特徴(図3)を利用
して、 |RX(ti)−RY(ti)|→|FX(ti)−FY(ti)| …(1) という変換を行いランクのずれを計算する。
【0019】2.基準となる分布への変換 しかし、一般には2つの文書の大きさは異なり、それゆ
えFX,FYのグラフは一致しない。前記(1)の変換を
利用するために、FX,FYそれぞれを基準となる分布に
変換し、変換後の分布F′X,F′Y同士を比較する。具
体的には、 F′X(ti)=FX(ti)/ΣjX(tj) という式によりF′Xを計算する。なお、F′Yについて
も同様である。また、この変換は近似的なものであり、
分布がこの変換により完全に一致するわけではない。
【0020】3.個々のランクのずれの集計 このようにして得られたtiのランクのずれを合算、あ
るいは平均をとることでランクのずれ全体を計算する。
ここでは二乗平均 d0=(Σi(F′X(ti)−F′Y(ti))21/2 をもってずれの総量とする。
【0021】4.規模の比較 規模の違いの測り方はいろいろあるが、ここでは、両対
数グラフが2つの平行な直線となる(図4)ことを利用
し、この2つの直線の隔たりを測り、これを規模の違い
とする。これは、 d1=|logΣiX(ti)−logΣiY(ti)| という式により近似的に計算できる。
【0022】5.2つの距離の合算 以上で得たd0とd1を合算する。d0に対してd1は付加
的な要素となるように重み付けをする。具体的には、 d(FX,FY)=d0+0.01d1 によって距離を算出する。
【0023】このような手順をコンピュータプログラム
により実行する際の具体的手順について図5を参照して
説明する。図5は文書X及びY間の距離を算出する手順
を説明するフローチャートである。
【0024】まず、文書Xを読み込み(ステップS
1)、文書を単語に分解して単語集合T X={ti}を得
る(ステップS2)。次いで、単語集合TXから文書X
における単語tiの出現頻度を集計してFX{ti}を得
る(ステップS3)。
【0025】同様にして、文書Yを読み込み(ステップ
S4)、文書を単語に分解して単語集合TY={tj}を
得る(ステップS5)。次いで、単語集合TYから文書
Yにおける単語tjの出現頻度を集計してFY{tj}を
得る(ステップS6)。
【0026】次いで、ステップS7〜S11において距
離d(FX,FY)を算出する。具体的には、まず、単語
集合TXと単語集合TYの和集合Tを求める(ステップS
7)。次いで、文書Xの出現頻度FX{ti}の総和SX
を求めるとともに、同様に、文書Yの出現頻度F
Y{tj}の総和SYを求める(ステップS8)。次い
で、出現頻度をその総和で補正し、全ての単語集合Tに
属する全ての単語について文書Xと文書Yとの間におけ
るランキングの相違を数量化する(ステップS9)。す
なわち、ランクにより重みづけられたランキングの相違
に基づき第1距離d0を算出する。一方、前記総和Sx
びSYから両文書の規模の相違を算出して第2距離d1
得る(ステップS10)。最後に、第1距離d0と第2
距離d1を、第1距離d0を大きくとるように重み付けを
して合算し、文書XとYとの間の距離dを得る(ステッ
プS11)。
【0027】本発明によれば、比較対象が有する冪分布
に対して冪分布の距離dという数量的な基準を得ること
ができるので、対象を数量的且つ相対的に比較すること
ができる。この距離dは、各冪分布間における順位付け
の差異という観点から第1距離d0が算出され、各冪分
布の数量的差異という観点から第2距離d1が算出され
る。ここで第1距離d0の算出は順位の高低による重み
付けが行われる。そして、算出された第1距離d0と第
2距離d1の合算により冪分布の距離dが算出される。
ここで、距離の合算は第1距離d0を大きくとる重み付
けが行われる。これにより、冪分布間の距離dという数
量的な値を得ることができる。
【0028】従って、同じ冪分布を呈している対象であ
れば、どのようなものであっても対象比較が容易とな
る。すなわち適用範囲が広いという特徴を有する。ま
た、冪分布の特性を利用して出現頻度FX及びFYの値だ
けから距離dを計算できるので、対象の比較が容易であ
る。さらに、対象の特性を知らなくても、特性に応じた
補正や考慮等を行うことなく容易に対象比較が可能とな
る。すなわち、前述したtf・idf法ではありふれた
単語を除去するために補正を行っていた。しかし、本発
明による比較においては、各比較対象がそれぞれ同様に
ありふれた単語を多く含んでいるため、それらは自動的
に相殺され、従って補正の必要がない。以上のように、
本発明を用いれば、多くの対象を簡易に比較できるよう
になる。
【0029】また、本発明によれば従来の尺度とは違っ
た観点からの比較が可能である。以下、その例について
説明する。
【0030】例えば、前述のtf・idf法は文書の特
徴を表す単語を抽出するのに用いられる。しかし、明ら
かに、そのような単語を連ねただけでは意味は伝わらな
い。意味を伝えるには、文法というルールに則らなけれ
ばならないし、また、意味が伝わるように文の構造(順
序、章立てなど)を作らなければならない。その作業の
結果が冪分布として現れていると考えることができる。
つまり、この分布は「綴る」という作業を含んでいると
考えられる。従って、例えば、ある作家の作品を他の作
家の作品から区別するというようなことを従来の方法に
比べてうまく行うことができると考えられる。実際に従
来の方法と比較した結果を図6及び図7を参照して説明
する。
【0031】まず、比較対象として4つの英文の小説
(それぞれ、a,m,o,cとする)を用意し、これら
を章ごとに分け(aの第1章をa01とする)、文書の
集合D={a01,a02,...,m01,...,o0
1,...,c01,...}を作る。Dに属する任意の2要
素に対して本実施例で示した処理を施し、得られた距離
dを基にクラスタ分析したものが図6である。4つの小
説に対応するクラスタが生成されているのが分かる。
【0032】一方、図7では、tf・idf法を用いて
文書の特徴を示すベクトルを生成しその内積によって類
似度を測る従来の方法を利用して文書間の距離を計算
し、同じようにクラスタ分析した結果である。図6及び
図7から分かるように、小説を分離することに関して
は、本発明の方が優れていることが分かる。
【0033】なお、本実施の形態では、文書を比較対象
と、文書に含まれる単語の集合に関して、単語の出現頻
度と該出現頻度に基づく順位付けが冪分布となっている
状況において、該冪分布を距離という数量的な値で比較
したが、本発明の適用可能な対象はこれに限定されるも
のではない。すなわち、比較対象において各々ある事象
(事柄)の集合に対応する数量が決まり、その数量の大
きさに基づく順位付け(ランキング)が同じ冪法則に従
っている(冪が等しい)という状況であれば、他の対象
でも良い。例えば、前述したように、都市の人口と順位
との関係、レンタルビデオの貸出頻度と人気順位との関
係など多くの事象に適用できる。また、本実施の形態に
おける距離の算出式は一例にすぎず、他の算出式を用い
ても本発明を実施できる。
【0034】
【発明の効果】以上詳述したように、本発明によれば、
比較対象が有する冪分布に対して冪分布の距離という数
量的な基準を得ることができるので、対象を数量的且つ
相対的に比較することができる。この距離の算出では、
各冪分布間における順位付けの差異という観点から第1
距離が算出され、各冪分布の数量的差異という観点から
第2距離が算出される。ここで第1距離の算出は順位の
高低による重み付けが行われる。そして、算出された第
1距離と第2距離の合算により冪分布の距離が算出され
る。ここで、距離の合算は第1距離を大きくとる重み付
けが行われる。これにより、冪分布間の距離という数量
的な値を得ることができる。
【0035】従って、同じ冪分布を呈している対象であ
れば、どのようなものであっても対象比較が容易とな
る。すなわち適用範囲が広いという特徴を有する。ま
た、冪分布の特性を利用して、各冪分布で同順位の要素
に対応する数量に基づいて第1距離を計算できるので、
対象の比較が容易である。さらに、対象の特性を知らな
くても、特性に応じた補正や考慮等を行うことなく容易
に対象比較が可能となる。すなわち、前述したtf・i
df法ではありふれた単語を除去するために補正を行っ
ていた。しかし、本発明による比較においては、各比較
対象がそれぞれ同様にありふれた単語を多く含んでいる
ため、それらは自動的に相殺され、従って補正の必要が
ない。以上のように、本発明を用いれば、多くの対象を
簡易に比較できるようになる。
【図面の簡単な説明】
【図1】冪分布の一例を示すグラフ
【図2】本発明の対象となるモデルを説明する図
【図3】冪分布の特徴を説明するグラフ
【図4】冪分布を両対数グラフで示した図
【図5】文書X及びY間の距離を算出する手順を説明す
るフローチャート
【図6】本発明により算出した距離を用いて文書をクラ
スタ分析した図
【図7】従来の方法を用いて文書をクラスタ分析した図
【符号の説明】
A,B,C…比較対象、X,Y…文書、T,TX,TY
単語集合、tj…単語、FX,FY…出現頻度、RX,RY
…ランク、d…距離、d0…第1距離、d1…第2距離

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数の比較対象がそれぞれある事象の集
    合と該集合の要素に対応する数量とを有するとともに、
    該数量の大きさに基づく順位付けが互いに同じ冪の冪分
    布を呈している状況において、各比較対象の有する冪分
    布を数量的に比較する冪分布比較方法であって、 各冪分布間における順位付けの差異に基づくとともに順
    位の高低による重み付けをして順位付けに関する第1距
    離を算出し、各冪分布の数量的差異に基づき規模に関す
    る第2距離を算出し、前記第1距離と第2距離とを第1
    距離を大きくとる重み付けをして合算することにより冪
    分布間距離を算出し、この冪分布間距離により冪分布を
    数量的に比較することを特徴とする冪分布比較方法。
  2. 【請求項2】 前記第1距離の算出では、各冪分布で同
    順位の要素に対応する数量に基づき順位付けに関する第
    1距離を算出することを特徴とする請求項1記載の冪分
    布比較方法。
  3. 【請求項3】 複数の比較対象がそれぞれある事象の集
    合と該集合の要素に対応する数量とを有するとともに、
    該数量の大きさに基づく順位付けが互いに同じ冪の冪分
    布を呈している状況において、各比較対象の有する冪分
    布を数量的に比較する冪分布比較プログラムを記録した
    記録媒体であって、 前記冪分布比較プログラムは、各冪分布間における順位
    付けの差異に基づくとともに順位の高低による重み付け
    をして順位付けに関する第1距離を算出し、各冪分布の
    数量的差異に基づき規模に関する第2距離を算出し、前
    記第1距離と第2距離とを第1距離を大きくとる重み付
    けをして合算することにより分布間距離を算出し、この
    分布間距離により冪分布を数量的に比較することを特徴
    とする冪分布比較プログラムを記録した記録媒体。
  4. 【請求項4】 前記第1距離の算出では、各冪分布で同
    順位の要素に対応する数量に基づき順位付けに関する第
    1距離を算出することを特徴とする請求項3記載の冪分
    布比較プログラムを記録した記録媒体。
JP11188830A 1999-07-02 1999-07-02 冪分布比較方法及び冪分布比較プログラムを記録した記録媒体 Pending JP2001014300A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11188830A JP2001014300A (ja) 1999-07-02 1999-07-02 冪分布比較方法及び冪分布比較プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11188830A JP2001014300A (ja) 1999-07-02 1999-07-02 冪分布比較方法及び冪分布比較プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2001014300A true JP2001014300A (ja) 2001-01-19

Family

ID=16230592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11188830A Pending JP2001014300A (ja) 1999-07-02 1999-07-02 冪分布比較方法及び冪分布比較プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2001014300A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323785A (ja) * 2005-05-20 2006-11-30 Fujitsu Ltd 集合間関連性判定プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323785A (ja) * 2005-05-20 2006-11-30 Fujitsu Ltd 集合間関連性判定プログラム

Similar Documents

Publication Publication Date Title
US8380727B2 (en) Information processing device and method, program, and recording medium
US20060265362A1 (en) Federated queries and combined text and relational data
US9177249B2 (en) Scientometric methods for identifying emerging technologies
KR101897080B1 (ko) 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치
KR101955244B1 (ko) 논문 평가 방법 및 전문가 추천 방법
CN112988980B (zh) 目标产品查询方法、装置、计算机设备和存储介质
Briggs Economics notes: handling uncertainty in economic evaluation
CN112632396A (zh) 一种文章推荐方法、装置、电子设备及可读存储介质
JP2007323315A (ja) 協調フィルタリング方法、協調フィルタリング装置、および協調フィルタリングプログラムならびにそのプログラムを記録した記録媒体
Chen Tagnet: Toward tag-based sentiment analysis of large social media data
Wei et al. Finding related publications: extending the set of terms used to assess article similarity
JP7041299B1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Stakhiyevich et al. An experimental study of building user profiles for movie recommender system
Stevens et al. Predicting real estate price using text mining
WO2016189606A1 (ja) データ分析システム、制御方法、制御プログラム、および記録媒体
CN110851708A (zh) 负样本的抽取方法、装置、计算机设备和存储介质
Zhang et al. An effective health indicator for rolling elements bearing based on data space occupancy
Silva et al. Data mining for prediction of length of stay of cardiovascular accident inpatients
JP2001014300A (ja) 冪分布比較方法及び冪分布比較プログラムを記録した記録媒体
JP7416091B2 (ja) 映像検索システム、映像検索方法、及びコンピュータプログラム
US20180276294A1 (en) Information processing apparatus, information processing system, and information processing method
US10346759B2 (en) Probabilistic inference engine based on synthetic events from measured data
CN112712866A (zh) 一种确定文本信息相似度的方法及装置
US7035861B2 (en) System and methods for providing data management and document data retrieval
JP6509391B1 (ja) 計算機システム