JP4634736B2 - 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム - Google Patents
専門的記述と非専門的記述間の語彙変換方法・プログラム・システム Download PDFInfo
- Publication number
- JP4634736B2 JP4634736B2 JP2004127122A JP2004127122A JP4634736B2 JP 4634736 B2 JP4634736 B2 JP 4634736B2 JP 2004127122 A JP2004127122 A JP 2004127122A JP 2004127122 A JP2004127122 A JP 2004127122A JP 4634736 B2 JP4634736 B2 JP 4634736B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- document
- matrix
- frequency
- amateur
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/00174—Electronically operated locks; Circuits therefor; Nonmechanical keys therefor, e.g. passive or active electrical keys or other data carriers without mechanical keys
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- E—FIXED CONSTRUCTIONS
- E05—LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
- E05B—LOCKS; ACCESSORIES THEREFOR; HANDCUFFS
- E05B47/00—Operating or controlling locks or other fastening devices by electric or magnetic means
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
本願発明では、対象とする異なる領域間に、一対一に対応する単語が存在しない場合、あるいは、前もってお互いに対応することが分かっている文書が存在しない場合、さらには、これらの領域間には辞書に相当するものが存在しない場合において、一方の領域で使用される語彙に対応する他方の領域で使用される語彙の検出、あるいはその逆の場合として、他方の領域で使用される語彙に対応する一方の領域で使用される語彙を検出することが目的である。
(1) 同一の対象物について記述していることが保証されている2つの異なる種類の言語表現で記述された文書(本願明細書では、領域Aの文書、及び、領域Bの文書と呼ぶ)を検索すること、及び、
(2) このような2つの異なる種類の言語表現が与えられた時に、領域Aの文書と領域Bの文書に現れる語彙間の関連付けを行うこと、
を行っている。そのためには、先ず2つの異なる種類の言語表現で記述された文書を検索する為に、検索ツールを使用し所定のキーワードを用いて候補の文書を収集する。しかし、検索ツールで検索した場合には、いわゆるノイズ文書が多いためにそのままでは使用できない場合が多い。本願発明では先ず収集した文書から「ノイズ文書」を取り除く。そして文書間の語彙の発生頻度等を計算し、2つの異なった種類の言語表現で記述された専門家文書及び素人文書に分類する。次に対象としている専門家の文書と素人の文書において現れる語彙は同一のものとは限らないので、2つの異なる領域に現れる語彙間の関連性を求める。基本的な考え方として、同一の対象物に関して記述された専門家文書及び素人文書に現れる単語同士の共起関係に基づき、一方の領域に現れる語彙に関連する他領域に現れる語彙もしくは語彙群を求める。
専門家は商品の生産地や材料に関する知識から説明し、逆に素人は自分の知っている感覚的な語彙で表現しようとする。一般消費者があらゆる分野の商品の知識や固有名を知ることはほとんど不可能であり、専門家から専門的知識の必要な特定の商品を推薦されても、十分に理解すること出来ない場合もあると思われる。
本願発明を応用することにより、商品の専門家である販売者から見た場合に、需要者が必要とする商品の情報を提供でき、逆に商品に関しては素人である一般需要者から見た場合に、一般需要者の嗜好・感性に対応する製品の選択が容易に出来る。
ステップ310:用語の指定による候補文書の取得
ステップ320:候補文書の前処理
ステップ330:ノイズ文書の除去
ステップ340:各文書の特徴値の算出
ステップ350:判別分析による文書の分類
ステップ360:素人文書と専門家文書間の関係語彙の検出
以下、各ステップについて詳細に説明する。
本願は発明を実施する為には、用語リストを用いて、同じ内容について述べているNaive文書(素人の書いた文章、以下N文書)とExpert文書(専門家の書いた文章、以下E文書)の対をデータとして準備しておくことが前提となる。
ここで用語リストとは、一つの分野におけるキーワードとなる用語の集合である。例えば、一つの分野として「ワイン」を選択すると、用語リストの構成要素は「ワインの銘柄」である。ワインの用語リスト中に記載されている銘柄に従い、インターネットの検索ツールを使用して、ワインに関する情報を収集する。ここで、銘柄としては、「アウスレーゼ」、「シャトー キュレ ボン」、「シャトー マルゴー」、「ヴィン サント トスカーノ」等の銘柄を指定している。この用語をキーワードとして、データベースから候補の文書を検索する。データベースとしてはこのような情報が格納されているデータベースならば何でも構わないが、本実施例ではインターネットの検索エンジンを使用して、候補の文書を検索する方法について説明する。
インターネットのウェブページから自動的にこれらの情報を収集した文書には様々な情報が含まれており、そのままでは利用できない場合が多い。本実施例ではこれらの文書の中から、ガービッジ文書、リスト文書、及び日記型文書に該当する文書をノイズ文書として除去している。ノイズ文書の処理の前に、ウェブページから取り出した文書に対して前処理を行う。前処理では、先ずウェブページの情報から文書に相当するものを取り出し文書解析を行なう。次に、分かち書きを行ない内容語、助詞、助動詞等を抽出し、これらの文書の特徴を表す特徴値、即ち、内容語数、素人語比率、固有名詞比率、追加固有名詞比率、助詞/助動詞比率の値を求める。以下に、これらの特徴値を求める為に本願明細書で使用している用語について説明する。
これは、一つのウェブページに記載されている文書に含まれているに内容語の数である。内容語とは助詞・助動詞を除いた、名詞、動詞、形容詞、副詞に該当する単語である。
(ロ)素人語比率=素人語の数/内容語数
素人語とは、当該分野において素人が使用するとして予め定めている単語である。素人語比率とは、予め定めている素人語(以下、「マスター素人語」と呼ぶ)であって一つのウェブページ内に出現する数と内容語数との比率である。
(ハ)固有名詞比率=固有名詞の数/内容語数
ここで言う固有名詞とは、世間一般に固有名詞であると認識されている名詞である。固有名詞比率とは一つのウェブページに出現する固有名詞の数と内容語数との比率である。
追加固有名詞とは、一般に固有名詞であると認識されていないが、本願発明において固有名詞として追加する必要が生じた名詞である。追加固有名詞比率とは、一つのウェブページに出現する追加固有名詞の数と内容語数との比率である。
(ホ)助詞/助動詞比率=助詞の数/助動詞の数/内容語数
一つのウェブページに出現する助詞の数と助動詞の数の比率を求め、さらにその比率を内容語数で除して正規化したものである。
文書間の関連度を調べる為に、本実施例では、内容語1グラム、内容語2グラム、内容語3グラム、及び内容語スキップ2グラムの4つを用いている。
内容語1グラムとは、一単語の発生頻度を基に文書間の関連度を調べるものである。例えば、ワインを例に取ると、「ワイン」、「香り」、「飲む」等の単語の発生頻度を使用することが出来る。
内容語2グラムとは、連続する二単語の発生頻度を基に文書間の関連度を調べるものである。ワインを例に取ると、「アルコール」-「度数」、「この」-「ワイン」、「生産国」-「年代」等の連続する二単語の発生頻度を使用している。
内容語3グラムとは、連続する三単語の発生頻度を基に文書間の関連度を調べるものである。ワインを例に取ると、「ワイン」-「食事」-「飲み方」、「白」-「フランス」-「1990年」、「赤」-「ドイツ」-「アウスレーゼ」等の連続する三単語の発生頻度を使用している。
同様に、本実施例では、助詞・助動詞1グラム、助詞・助動詞2グラム、助詞・助動詞3グラム、及び助詞・助動詞スキップ2グラムの4つを用いている。
助詞・助動詞1グラムの例としては、「の」、「が」、「に」等が挙げられる。助詞・助動詞2グラムの例としては、「の」-「が」、「の」-「の」、「の」-「に」等が挙げられる。助詞・助動詞3グラムの例としては、「の」-「が」-「が」、「の」-「の」-「が」、「の」-「に」-「が」等が挙げられる。
助詞・助動詞スキップ2グラムの例としては、「の」-「X」-「が」、「の」-「X」-「が」、「の」-「X」-「が」等が挙げられる。但し「X」は任意の助詞または助動詞である。
本実施例では、スピアマン(Spearman)の公式を用いて順位相関係数及び有意度を求める。内容語1グラムを例にとって説明する。先ずマスター素人文書に使用されている「酒」、「香り」、「飲む」、「味」、「感じる」、「思う」等の単語の発生頻度を調べる。同様に、あるウェブサイトから取得した文書に使用されている「酒」、「香り」、「飲む」、「味」、「感じる」、「思う」等の単語の発生頻度を調べる。次に、これらの単語の発生順位をそれぞれの文書に関して求める。これらの順位情報を基にスピアマン相関係数を求めることができ、さらに相関係数の有意度を求めることが出来る。
(リ)マスター素人文書群(叉はマスター専門家文書群)
マスター素人文書群とはある領域において素人が使う語彙を含む複数の文書の集合体である。マスター専門家文書群とはある領域において専門家が使う語彙を含む複数の文書の集合体である。
410:ガービッジ文書の除去
420:リスト文書の除去
430:日記型文書の除去
440:全ての文書に対して実行したことを確認
450:次の文書の指定
以下、ガービッジ文書、リスト文書、日記型文書について説明する。
以下の条件の全てを満足する文書をガービッジ文書と定義する。文字通りガービッジであって本願発明には利用できないものである。本願発明では、ガービッジ文書の選択基準として以下の様にする。
(a)内容語数が少ないもの
(b)素人語比率の低いもの
(c)固有名詞比率の低いもの
(d)「マスター素人文書」と相関係数が低いもの
ここで、「マスター素人文書群」とは素人の文書として予め選択した文書集合である。あるいは「マスター専門家文書群」として専門家の文書として予め選択した文書集合を用いても良い。
以下の条件の全てを満足する文書をリスト情報文書と定義する。これはインターネットのサイトにおいて、ある領域における対象物に関する情報が単なるリストとして格納されている場合である。
(a)固有名詞比率が高いもの
(b)内容語と助詞・助動詞との相関係数が低いもの
以下の条件の全てを満足する文書を日記型文書と定義する。これらにはインターネットのサイトにおいて、酒・ワインに関する情報が記載されているが言わば個人の日記書き込みサイトとして利用されている文書、及び、デパートの売場に関するサイトなど、主として他の情報が記載されており、その一部に酒・ワインの情報が記載されている文書等が含まれる。
(a)ある領域に関する固有名詞比率が低い
(b)内容語nグラムに基づくマスター文書との相関度が低い
(c)助詞・助動詞nグラムに基づく相関度が高い
以上の定義の基に、ガービッジ文書、リスト文書、及び、日記型文書をノイズ文書として除去する。
ノイズ文書を取り除いた文書に対して判別分析を行ない、素人文書叉は専門家文書に分類する。判別分析を行う為に各入力文書から特徴値を抽出する。特徴値として、内容語数、素人語比率、固有名詞比率、追加固有名詞比率、助詞/助動詞比率の5種類、さらに、内容語nグラムから算出されるスピアマンの相関係数・有意度、及び助詞・助動詞nグラムから算出されるスピアマンの順位相関係数・有意度を使用する。
スピアマンの公式に基づく順位相関係数・有意度について説明する。図5にスピアマンの公式に基づく順位相関係数・有意度を求めるフローチャートを示す。
520:入力文書のnグラム発生頻度(X)
530:X及びYによるスピアマンの順位相関係数(ri)及び有意度(ei)の計算
540:全nグラムに対する計算の確認
550:次のnグラムの指定
560:全nグラム対する順位相関係数及び有意度の取得
内容語1グラムを例に取って説明する。内容語1グラムとは、一単語の発生頻度を基に文書間の関連度を調べるものである。例えば、ワインを例に取ると、「ワイン」、「香り」、「飲む」等の単語の発生頻度を、選択された文書、及び、マスター素人文書集合(またはマスター専門家文書集合)から求めることが出来る。これをY(y1,y2,y3,..,yh)(ステップ510)とする。
次に入力文書から特徴値を求め、これをX(x1,x2,x3,..,xh)(ステップ520)とする。ここでhは頻度を求めるデータ種類数を表す。これらのデータをもとにスピアマンの公式に基づき順位相関係数及び有意度を求める。
e1= G(X,Y)
r1はスピアマンの相関係数式に従って計算した順位相関係数であり、e1はスピアマンの有意度式に従って計算した順位相関係数の有意度である(ステップ530)。同様にして、内容語2グラム等についてr2及びe2等を求める。さらに助詞・助動詞nグラムについても同様に求める(ステップ540、550)。その結果、R=(r1,r2,..rd)、E=(e1,e2,..ed)を求めることが出来る(ステップ560)。ここでdは、内容語nグラム及び助詞・助動詞nグラムの総数を表す。
610:マスター素人文書及びマスター専門家文書の特徴値の計算
620:各入力文書の特徴値の計算
630:入力文書と素人文書との距離(Db)及び入力文書と専門家書との距離(Da)の計算
640:入力文書と素人文書との距離(Dc)が閾値より小さい場合には素人文書へ分類する。
650:入力文書と専門家文書との距離(Da)が閾値より小さい場合には専門家文書へ分類する。
660:素人文書及び専門家文書に該当しないものはその他の文書とする。
670:全文書を分類したことの確認
680:次の文書の指定
次に、入力文書の特徴値を求める(ステップ620)。入力文書の特徴値及びマスター素人文書の特徴値を用いてそれらの距離(Db)をマハラノビスの公式(式1)を用いて求める。同様に入力文書の特徴値及びマスター専門家文書の特徴値を用いてそれらの距離(Dc)をマハラノビスの公式(式2)を用いて求める(ステップ630)。
(式1) Db=(A−B)tΣb―1(A−B)
(式2) Dc=(A−C)tΣc―1(A−C)
ここでAは各文書から得られる特徴値であり、At=(a1,a2,..ap)と表現できる。Bは素人文書の特徴値の平均値であり、Bt=(b1,b2,..bp)と表現できる。Cは専門家文書の特徴値の平均値であり、Ct=(c1,c2,..cp)と表現できる。pは特徴ベクトルの次元数を表す。tは行列の転置を表す。また、Σb及びΣcはそれぞれの群の共分散行列を表し、Σb―1及びΣb―1はそれらの逆行列を表す。
ここで、素人文書にも専門家文書にも分類されない文書は、分類不可能としてその他の文書に分類する(ステップ660)。
以上のステップを全文書に対して実行する(ステップ670、680)
以上により、ある特定の、共通する話題について述べているN文書とE文書の文書対を求めることが出来る。以下にN文書とE文書に用いられている語彙間の関連付けについて説明する。
先ず、最大尤度比検定法(Maximum Likelihood Ratio Test)を用いた計算方法について説明する。図7は最大尤度比検定法を説明するフローチャートである。
710:選択された素人文書集合から各語彙の発生頻度の計算
720:選択された専門家文書集合から各語彙の発生頻度の計算
730:P(A)=Prob(Ni AND Er)の計算
740:P(B)=Prob(Not(Ni)AND Er)の計算
750:P(A)、及び、P(B)に基づくMLRの計算
760:MLRが閾値を超えている(Ni)&(Er)組合せを抽出
770:全ての組合せについて実行したことの確認
780:次の組合せの指示
790:双方向からの対応する語彙の検出
N文書からm個の語彙が抽出されi番目の語彙をNiとし、E文書からn個の語彙が抽出されr番目の語彙をErとした時、Ni及びErが頻繁に共起するとする。すなわち、Niが生じる時にはErがよく出現し、Niが生じていない時には、Erもあまり出現しない、という状況を仮定する。これが偶然とはいえない確率で生じているというための条件について説明する。またその度合いを数値で表現する方法について説明する。
一つのテーマを基に抽出され素人文書及び専門家文書に分類された文書対について考える。素人文書及び専門家文書にある全ての語彙について処理するのではなく、予め処理をするべき語彙については決めておく。これらの語彙は、素人語彙に対応するものは素人語彙リストの中に、専門家語彙に対応するものは専門家語彙リストの中に、それぞれ格納されている。素人語彙リストには、人の感覚、主観的判断に関わる表現を中心にした語彙が格納されている。
また、専門家語彙リストには、以下の基準に従った語彙が格納されている。
(a)用語リストに含まれている語彙、及び、それらの語彙に関連する語彙
(b)素人語彙リストに含まれていない語彙
(c)所定の頻度以上出現する語彙
素人語彙リストにある語彙の中で、素人文書にも出現した語彙がn個であり、そのi番目の語彙をNi(i=1〜m)とし、その発生頻度をカウントする(ステップ710)。同様に、素人語彙リストにある語彙の中で、専門家文書にも出現した語彙がm個であり、そのr番目の語彙をEr(r=1〜n)とし、その発生頻度をカウントする(ステップ720)。発生頻度をカウントする単位は、各単語単位でも良いし、叉は2グラム、3グラムの語彙でカウントしても良い。NiとErのそれぞれの文書内での生起頻度を基に、NiとErが共起する確率P(A)(ステップ730)、及び、Niが生起し、かつ、Erが生起しない確率P(B)(ステップ740)を次のように定義する。
P(A)=Prob(Ni|Er)
P(B)=Prob(Not(Ni)|Er)
次に、最大尤度比率(MLR)を計算する(ステップ750)。これは、着目する語彙対(Ni及びEr)の生起を二項分布に従う2つのランダムな過程とみなし、P(A)及びP(B)の確率に違いがないと考えた場合(帰無仮説)の確率P(H0)と違いがあると考えた場合(対立仮説)の確率P(H1)の比率として次のように求められる。まず、一つのランダム変数についての二項分布確率を求める式は、
同様に、MLRの値が閾値を超えたEのr番目の語彙に対応するNの語彙を検索し、MLRの値の高い方から所定の数だけ選択することにより、専門家語彙に対応する素人語彙が得られる(ステップ780)。
次に、文書の長さと語彙頻度による補正を加えた重み付けによる語彙変換行列Tの作成に基づいた方法について説明する。
図9は語彙変換行列によるアルゴリズムを示すフローチャートである。
810:専門家語彙行列P(s行×n列)の作成
820:素人語彙行列Q(s行×m列)の作成
830:語彙変換行列T(m行×n列)の計算
840:素人語彙から専門家語彙への変換、及び、専門家語彙から素人語彙への変換
処理する語彙は前述の専門家語彙リストにある語彙を対象とする。以上の操作を用語リスト中の全ての用語に対して検索された文書であり、かつ、専門家文書として分類された文書に対して行ない、専門家語彙リスト中の語彙に対応する語彙の発生頻度を求めることが出来る。nを専門家文書の語彙数とすると、s行n列の専門家語彙の発生頻度を表す行列P0(不図示)を求めることが出来る。
同様にして、mを素人文書の語彙数とすると、s行m列の素人語彙の発生頻度を表す行列Q0(不図示)を求めることが出来る。
そこで、行列P0の構成要素を次のように変換しs行n列の専門家語彙行列P(図8a)を作成する(ステップ810)。
同様に、行列Q0の構成要素を次のように変換し、s行m列の素人語彙行列Q(図8b)を作成することが出来る(ステップ820)。
T=QtP
ここでtは行列の転置を表し、語彙変換行列Tの各重み値は次のように定義される。
逆に、r番目の専門家語彙に対応する素人語彙の候補を取り出すには、語彙変換行列Tのr番目の列を見て、その中の重み値の高い方から、上位の語彙を選択すればよい(ステップ840)。本願発明の実施例では、何れの場合にも、0でない上位10個をとって候補語としている。
先ず、素人語彙から専門家語彙への対応語句を検索する例について示す。
日本のサイトを「日本酒」を例にとって検索した場合、素人が使用する語彙として、「厚い」、「豊か」、「淡麗」、「さらりと」、「美味」、「深み」等が検出された。これらの素人語彙に対応する専門家語彙、すなわち、銘柄としては、例えば、「厚い」、「豊か」に対応する銘柄として「磯自慢」が、「淡麗」、「さらりと」に対応する銘柄としては「越乃梅里」が、「美味」、「深み」等に対応する銘柄としては「賀茂緑」等が検索された。
日本のサイトを「ワイン」を例にとって検索した場合、素人が使用する語彙として、「美味」、「濃い」、「旨み」、「すっぱい」、「舌触り」、「キレ」、「ぴったり」、「深み」、「さわやか」、「柔らか」、「まろやか」等が検出された。これらの素人語彙に対応する専門家語彙、すなわち、銘柄としては、例えば、「美味」、「濃い」、「旨み」、「すっぱい」等に対応する銘柄として「オーボンクリマ」が、「舌触り」、「キレ」、「ぴったり」、「深み」、「さわやか」、「柔らか」、「まろやか」等に対応する銘柄として「ゾネブルーム」等が検索された。
日本のサイトを「日本酒」を例にとって検索した場合、専門家語彙、すなわち、銘柄として、「加賀鳶」、「花の舞」、「角太」等を選択した場合、これらの銘柄に対応する素人語彙として、例えば、「加賀鳶」に対応する素人語彙としては「美味しい」、「みずみずしい」等が、「花の舞」に対応する素人語彙としては、「上品」、「淡麗」等が、「角太」に対応する素人語彙としては、「柔らか」、「なめらか」、「さわやか」、「素晴らしい」等の語彙が検出された。
日本のサイトを「ワイン」を例にとって検索した場合、専門家語彙、すなわち、銘柄として、「コルタッサラ」、「サンソニエール」等を選択した場合、これらの銘柄に対応する素人語彙として、例えば「コルタッサラ」に対応する素人語彙としては、「淡い」、「気品」、「ほのか」、「軽い」、「心地よい」等の語彙が、「サンソニエール」に対応する素人語彙としては、「ほろ苦い」、「辛い」、「上品」、「優雅」等の語彙が検出された。
以上説明したように、素人語彙から専門家語彙への対応語句、及び、専門家語彙から素人語彙への対応語句それぞれの語について、変換の候補となる語彙を数値の高い順に取り出すことによって適切な語彙の選択が可能となる。
120:サイトサーバ(1)
130:サイトサーバ(2)
140:ネットワーク
200:筐体
210:記憶装置
220:メインメモリー
230:出力装置
240:中央制御装置(CPU)
250:操作装置
260:ネットワークI/O
Claims (3)
- 用語リストに基づき検索された共通の話題を有する第1の文書と第2の文書から、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙、又は、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙を検出する装置であって、
(a)第1の文書から、第1の語彙リストに記載されている各語彙の発生頻度を基に、第1の語彙行列を作成する手段と、
(b)第2の文書から、第2の語彙リストに記載されている各語彙の発生頻度を基に、第2の語彙行列を作成する手段と、
(c)前記第1の語彙行列及び前記第2の語彙行列の積から語彙変換行列を求める手段と、
(d)前記語彙変換行列の着目する行の中から値の大きい語彙を所定数選択し、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙とする手段と、
(e)前記語彙変換行列の着目する列の中から値の大きい語彙を所定数選択し、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙とする手段と
を有し、
前記第1の語彙行列は、sを前記用語リストの数、及び、nを第1の文書から選択された語彙数としたとき、s行n列の行列Pで表され、前記行列Pの構成要素は、前記第1の文書のk番目の文書に現れるi番目の語彙の頻度をExp(k,i) 、前記語彙の全体の頻度をEtf(i)、k番目の文書に生じる語の総数をEwf(k)としたとき、
装置。 - コンピュータにより、用語リストに基づき検索された共通の話題を有する第1の文書と第2の文書から、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙、又は、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙を検出する方法であって、
(a)第1の文書から、第1の語彙リストに記載されている各語彙の発生頻度を基に、第1の語彙行列を作成するステップと、
(b)第2の文書から、第2の語彙リストに記載されている各語彙の発生頻度を基に、第2の語彙行列を作成するステップと、
(c)前記第1の語彙行列及び前記第2の語彙行列の積から語彙変換行列を求めるステップと、
(d)前記語彙変換行列の着目する行の中から値の大きい語彙を所定数選択し、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙とするステップと、
(e)前記語彙変換行列の着目する列の中から値の大きい語彙を所定数選択し、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙とするステップと
を含み、
前記第1の語彙行列は、sを前記用語リストの数、及び、nを第1の文書から選択された語彙数としたとき、s行n列の行列Pで表され、前記行列Pの構成要素は、前記第1の文書のk番目の文書に現れるi番目の語彙の頻度をExp(k,i) 、前記語彙の全体の頻度をEtf(i)、k番目の文書に生じる語の総数をEwf(k)としたとき、
方法。 - コンピュータに、用語リストに基づき検索された共通の話題を有する第1の文書と第2の文書から、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙、又は、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙を検出させるプログラムであって、
(a)第1の文書から、第1の語彙リストに記載されている各語彙の発生頻度を基に、第1の語彙行列を作成するステップと、
(b)第2の文書から、第2の語彙リストに記載されている各語彙の発生頻度を基に、第2の語彙行列を作成するステップと、
(c)前記第1の語彙行列及び前記第2の語彙行列の積から語彙変換行列を求めるステップと、
(d)前記語彙変換行列の着目する行の中から値の大きい語彙を所定数選択し、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙とするステップと、
(e)前記語彙変換行列の着目する列の中から値の大きい語彙を所定数選択し、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙とするステップと
を前記コンピュータに実行させ、
前記第1の語彙行列は、sを前記用語リストの数、及び、nを第1の文書から選択された語彙数としたとき、s行n列の行列Pで表され、前記行列Pの構成要素は、前記第1の文書のk番目の文書に現れるi番目の語彙の頻度をExp(k,i) 、前記語彙の全体の頻度をEtf(i)、k番目の文書に生じる語の総数をEwf(k)としたとき、
プログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004127122A JP4634736B2 (ja) | 2004-04-22 | 2004-04-22 | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム |
US11/103,567 US7565361B2 (en) | 2004-04-22 | 2005-04-12 | Method and system for lexical mapping between document sets having a common topic |
EP05252402A EP1589443A3 (en) | 2004-04-22 | 2005-04-18 | Method, system or memory storing a computer program for document processing |
KR1020050033008A KR20060047306A (ko) | 2004-04-22 | 2005-04-21 | 문서 검색 및 분류 방법 및 그 시스템, 문서 처리 방법 및그 시스템 또는 메모리 |
CN2005100674310A CN1691007B (zh) | 2004-04-22 | 2005-04-22 | 用于文档处理的方法和系统 |
US12/472,203 US8065306B2 (en) | 2004-04-22 | 2009-05-26 | Method and system for lexical mapping between document sets having a common topic |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004127122A JP4634736B2 (ja) | 2004-04-22 | 2004-04-22 | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005309853A JP2005309853A (ja) | 2005-11-04 |
JP2005309853A5 JP2005309853A5 (ja) | 2007-06-14 |
JP4634736B2 true JP4634736B2 (ja) | 2011-02-16 |
Family
ID=34940882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004127122A Expired - Fee Related JP4634736B2 (ja) | 2004-04-22 | 2004-04-22 | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム |
Country Status (5)
Country | Link |
---|---|
US (2) | US7565361B2 (ja) |
EP (1) | EP1589443A3 (ja) |
JP (1) | JP4634736B2 (ja) |
KR (1) | KR20060047306A (ja) |
CN (1) | CN1691007B (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4634736B2 (ja) * | 2004-04-22 | 2011-02-16 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム |
JP4172801B2 (ja) * | 2005-12-02 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキストからキーワードを検索する効率的なシステム、および、その方法 |
CN1845104B (zh) * | 2006-05-22 | 2012-04-25 | 赵开灏 | 信息智能检索加工的系统和方法 |
US8340957B2 (en) * | 2006-08-31 | 2012-12-25 | Waggener Edstrom Worldwide, Inc. | Media content assessment and control systems |
JPWO2008053910A1 (ja) * | 2006-10-31 | 2010-02-25 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 語彙空間での語彙の相対位置を求める装置・方法・プログラム |
US20100076938A1 (en) * | 2007-01-12 | 2010-03-25 | Nec Corporation | Protocol mismatch detection system, protocol mismatch detection method, and protocol mismatch detection program |
TW200923807A (en) * | 2007-11-23 | 2009-06-01 | Inst Information Industry | Method and system for searching knowledge owner in network community |
US8290961B2 (en) * | 2009-01-13 | 2012-10-16 | Sandia Corporation | Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix |
CA2720842A1 (en) * | 2009-11-10 | 2011-05-10 | Hamid Hatami-Hanza | System and method for value significance evaluation of ontological subjects of network and the applications thereof |
US9418114B1 (en) | 2013-06-19 | 2016-08-16 | Google Inc. | Augmenting a content item using search results content |
IN2013MU02217A (ja) | 2013-07-01 | 2015-06-12 | Tata Consultancy Services Ltd | |
US9305307B2 (en) | 2013-07-15 | 2016-04-05 | Google Inc. | Selecting content associated with a collection of entities |
US9342839B2 (en) | 2013-07-16 | 2016-05-17 | Google Inc. | Combining content with a search result |
US9298779B1 (en) | 2013-07-16 | 2016-03-29 | Google Inc. | Combining content with a search result |
US9436946B2 (en) | 2013-07-31 | 2016-09-06 | Google Inc. | Selecting content based on entities present in search results |
US9367529B1 (en) | 2013-07-31 | 2016-06-14 | Google Inc. | Selecting content based on entities |
US20150120620A1 (en) * | 2013-10-29 | 2015-04-30 | Brett Aaron Rutledge | Systems and methods for assessing alignment of an entity |
EP3063669A4 (en) * | 2013-10-31 | 2017-04-26 | Hewlett-Packard Enterprise Development LP | Classifying document using patterns |
US9563664B2 (en) | 2014-12-23 | 2017-02-07 | Business Objects Software, Ltd. | Semantic filtering in data matching |
KR102468930B1 (ko) | 2015-02-09 | 2022-11-23 | 특허법인(유한) 해담 | 관심대상 문서 필터링 시스템 및 그 방법 |
US20160314122A1 (en) * | 2015-04-24 | 2016-10-27 | Microsoft Technology Licensing, Llc. | Identifying experts and areas of expertise in an organization |
US10152474B2 (en) | 2015-08-28 | 2018-12-11 | Accenture Global Services Limited | Automated term extraction |
KR20180072167A (ko) | 2016-12-21 | 2018-06-29 | 특허법인 해담 | 유사특허 추출 시스템 및 그 방법 |
US10878058B2 (en) * | 2017-06-16 | 2020-12-29 | T-Mobile Usa, Inc. | Systems and methods for optimizing and simulating webpage ranking and traffic |
CN108280902A (zh) * | 2018-01-19 | 2018-07-13 | 京东方科技集团股份有限公司 | 车载监控设备的文件处理方法及装置、车载监控设备 |
US10824661B1 (en) * | 2018-04-30 | 2020-11-03 | Intuit Inc. | Mapping of topics within a domain based on terms associated with the topics |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274541A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | 文献検索システム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5778362A (en) * | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
US5819258A (en) * | 1997-03-07 | 1998-10-06 | Digital Equipment Corporation | Method and apparatus for automatically generating hierarchical categories from large document collections |
US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
US6112021A (en) * | 1997-12-19 | 2000-08-29 | Mitsubishi Electric Information Technology Center America, Inc, (Ita) | Markov model discriminator using negative examples |
US6363377B1 (en) * | 1998-07-30 | 2002-03-26 | Sarnoff Corporation | Search data processor |
DE60044220D1 (de) * | 1999-01-26 | 2010-06-02 | Xerox Corp | Multimodaler Informationzugriff |
US6510406B1 (en) * | 1999-03-23 | 2003-01-21 | Mathsoft, Inc. | Inverse inference engine for high performance web search |
US6336117B1 (en) * | 1999-04-30 | 2002-01-01 | International Business Machines Corporation | Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine |
JP2002236681A (ja) | 2001-02-09 | 2002-08-23 | Inst Of Physical & Chemical Res | 日常言語コンピューティングシステムおよびその方法 |
JP2002328920A (ja) | 2001-05-07 | 2002-11-15 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 対訳文の単語対応付け方法 |
US7072883B2 (en) * | 2001-12-21 | 2006-07-04 | Ut-Battelle Llc | System for gathering and summarizing internet information |
JP3726263B2 (ja) * | 2002-03-01 | 2005-12-14 | ヒューレット・パッカード・カンパニー | 文書分類方法及び装置 |
US6910037B2 (en) * | 2002-03-07 | 2005-06-21 | Koninklijke Philips Electronics N.V. | Method and apparatus for providing search results in response to an information search request |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
JP4634736B2 (ja) | 2004-04-22 | 2011-02-16 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム |
-
2004
- 2004-04-22 JP JP2004127122A patent/JP4634736B2/ja not_active Expired - Fee Related
-
2005
- 2005-04-12 US US11/103,567 patent/US7565361B2/en not_active Expired - Fee Related
- 2005-04-18 EP EP05252402A patent/EP1589443A3/en not_active Withdrawn
- 2005-04-21 KR KR1020050033008A patent/KR20060047306A/ko not_active Application Discontinuation
- 2005-04-22 CN CN2005100674310A patent/CN1691007B/zh not_active Expired - Fee Related
-
2009
- 2009-05-26 US US12/472,203 patent/US8065306B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274541A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | 文献検索システム |
Also Published As
Publication number | Publication date |
---|---|
JP2005309853A (ja) | 2005-11-04 |
EP1589443A3 (en) | 2007-02-28 |
US7565361B2 (en) | 2009-07-21 |
US20090292697A1 (en) | 2009-11-26 |
KR20060047306A (ko) | 2006-05-18 |
US20050240394A1 (en) | 2005-10-27 |
CN1691007B (zh) | 2010-06-16 |
US8065306B2 (en) | 2011-11-22 |
EP1589443A2 (en) | 2005-10-26 |
CN1691007A (zh) | 2005-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4634736B2 (ja) | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム | |
US11048882B2 (en) | Automatic semantic rating and abstraction of literature | |
Benamara et al. | Sentiment analysis: Adjectives and adverbs are better than adjectives alone. | |
Lebart et al. | Exploring textual data | |
US5559940A (en) | Method and system for real-time information analysis of textual material | |
JP4129987B2 (ja) | テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム | |
US6556987B1 (en) | Automatic text classification system | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
US20020099730A1 (en) | Automatic text classification system | |
Rosso et al. | Shakespeare and other English Renaissance authors as characterized by Information Theory complexity quantifiers | |
Grobelnik et al. | Automated knowledge discovery in advanced knowledge management | |
JP2001075966A (ja) | データ分析システム | |
Ahlgren | Research on sentiment analysis: the first decade | |
Barzegar et al. | SemR-11: A multi-lingual gold-standard for semantic similarity and relatedness for eleven languages | |
Fišer et al. | Distributional modelling for semantic shift detection | |
Cabana et al. | The" Small World of Words" free association norms for Rioplatense Spanish | |
JP5146108B2 (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
CN111259136B (zh) | 一种基于用户偏好自动生成主题评价摘要的方法 | |
WO2007010836A1 (ja) | コミュニティ特有表現検出装置及び方法 | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
Dray et al. | Opinion mining from blogs | |
CN114548694A (zh) | 社会化回答式网络心理咨询服务质量评估模型的构建方法 | |
Green | Vocabulary alignment via basic level concepts | |
Sridharan et al. | Modeling word meaning: Distributional semantics and the corpus quality-quantity trade-off | |
Irfan et al. | Refining Kea++ automatic keyphrase assignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070420 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070420 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071220 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20091130 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20091130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100409 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101116 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101119 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |