JP4634736B2

JP4634736B2 - 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム

Info

Publication number: JP4634736B2
Application number: JP2004127122A
Authority: JP
Inventors: 弘美小田
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2004-04-22
Filing date: 2004-04-22
Publication date: 2011-02-16
Anticipated expiration: 2024-04-22
Also published as: JP2005309853A; EP1589443A3; US7565361B2; US20090292697A1; KR20060047306A; US20050240394A1; CN1691007B; US8065306B2; EP1589443A2; CN1691007A

Description

本願発明は、同一言語で同一の対象物について記述していることが保証されている２つの異なる種類の言語表現で記述された文書を検索し、これらの文書間に現れる語彙間の関連付けに関する。

同じ日本語であって同じ意味を有する内容であっても、それを使用する人の専門知識の有無、性別、年齢等の領域が異なる場合には使用される語彙が異なる場合がある。例え共通の話題であっても、素人が素人の領域で使用する語彙と専門家が専門家の領域で使用する語彙とは異なる場合がある。本願発明の目的は、このような異領域間において、専門家が使用する語彙の意味する内容に対応する素人の語彙を検出すること、及び、その逆に、素人が使用する語彙の意味する内容に対応する専門家の語彙を検出する方法及び装置等を開示することである。

異なる領域において使用される文書等を変換する技術の典型的な例は翻訳機械である。コンピュータプログラムによって機械的に翻訳を行なう技術は従来から知られている。これはある自然言語で書かれた文書を別の自然言語へ語彙データベースと文法規則の処理プログラム、及び、用例・文例データベースなどを使用して、コンピュータプログラムによって自動的に翻訳するものである。これらはすでに実用化されパソコン用翻訳ソフトにも多くの商品がある。またインターネットで翻訳サービスが提供されている例もある。またその他電子単語翻訳機も普及している。これはある言語で記述されている一つの単語を、同一の意味内容を有する他の言語の単語へ変換するものである。基本的には既に存在している辞書を記憶装置に格納しておき、入力された単語を対応する他の言語の対応する単語へ変換するものである。これらの従来技術において、異なる領域において使用される文書等を変換する為の前提条件として、一つの文に対応する文が他の領域に存在すること、及び、一つ単語に対応する単語が他の領域に存在することが必要である。

さらに、同一言語内で難しい表現を優しい表現に変換するパラフレーズについての研究も既にいくつか発表されている。例えば、藤田篤他(2003)、村山賢洋他(2003)らの研究があるが、これらの「言い換え（パラフレーズ）」の研究では、基本的にパターンマッチングにより定まった表現パターンを置き換えている。また別のアプローチとして、言語翻訳を統計的・確率的に行う研究も行われている。この場合、言語モデルを用いた研究では同一の内容を翻訳していることが保証されている２言語のデータを用い、文の長さ等に基づいた言語Ａの文と言語Ｂの文を摺り合わせ、さらにそこに同時に出ている語彙についての共起関係から対応する語を決定する。この場合もある言語Ａの単語Ｗａにはほぼ１対１に対応する言語Ｂの単語Ｗｂがあることを前提としている。
「日常言語コンピューティングおよびその方法」特開２００２ー２３６６８１「対訳文の単語対応付け方法」特開２００２ー３２８９２０ http: //www2.crl.go.jp /jt/a133/ kuma/ mrs_li/midisearch.html 藤田篤, 乾健太郎, 松本裕治. 平易な表現への言い換えに必要なテキスト修正処理. 第65回情報処理学会全国大会講演論文集第五分冊, 1T6-4, pp. 99-102, 2003.03. 村山賢洋, 麻岡正洋, 土屋雅稔, 佐藤理史: 語彙の規格化とそれに基づく用言の言い換え支援, 言語処理学会第9回年次大会, pp85-88, (2003.3). Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Computational Linguistics , 19(1):61-74.

以上の様に、翻訳に関する従来技術の分野では、一つの言語から他の言語へ翻訳する場合に、お互いに対応する単語が存在すること、あるいは、お互いに対応する文書が存在することが前提となっている。
本願発明では、対象とする異なる領域間に、一対一に対応する単語が存在しない場合、あるいは、前もってお互いに対応することが分かっている文書が存在しない場合、さらには、これらの領域間には辞書に相当するものが存在しない場合において、一方の領域で使用される語彙に対応する他方の領域で使用される語彙の検出、あるいはその逆の場合として、他方の領域で使用される語彙に対応する一方の領域で使用される語彙を検出することが目的である。

本願発明では、上記課題を解決する為に、
（１）同一の対象物について記述していることが保証されている２つの異なる種類の言語表現で記述された文書（本願明細書では、領域Ａの文書、及び、領域Ｂの文書と呼ぶ）を検索すること、及び、
（２）このような２つの異なる種類の言語表現が与えられた時に、領域Ａの文書と領域Ｂの文書に現れる語彙間の関連付けを行うこと、
を行っている。そのためには、先ず２つの異なる種類の言語表現で記述された文書を検索する為に、検索ツールを使用し所定のキーワードを用いて候補の文書を収集する。しかし、検索ツールで検索した場合には、いわゆるノイズ文書が多いためにそのままでは使用できない場合が多い。本願発明では先ず収集した文書から「ノイズ文書」を取り除く。そして文書間の語彙の発生頻度等を計算し、２つの異なった種類の言語表現で記述された専門家文書及び素人文書に分類する。次に対象としている専門家の文書と素人の文書において現れる語彙は同一のものとは限らないので、２つの異なる領域に現れる語彙間の関連性を求める。基本的な考え方として、同一の対象物に関して記述された専門家文書及び素人文書に現れる単語同士の共起関係に基づき、一方の領域に現れる語彙に関連する他領域に現れる語彙もしくは語彙群を求める。

本願発明の応用例の一つとしては、商品販売時における推奨システムがある。商品などの同一の対象物について記述された文書であっても、深い知識のある専門家の用いる語彙と素人の用いる語彙の間には隔たりが見られることが良くある。専門家は専門用語や対象物についての固有の知識を用いて表現することが多いが、このような知識のない素人は感覚的な表現や一般的な事物を例にとった表現にせざるを得ない場合が多い。
専門家は商品の生産地や材料に関する知識から説明し、逆に素人は自分の知っている感覚的な語彙で表現しようとする。一般消費者があらゆる分野の商品の知識や固有名を知ることはほとんど不可能であり、専門家から専門的知識の必要な特定の商品を推薦されても、十分に理解すること出来ない場合もあると思われる。
本願発明を応用することにより、商品の専門家である販売者から見た場合に、需要者が必要とする商品の情報を提供でき、逆に商品に関しては素人である一般需要者から見た場合に、一般需要者の嗜好・感性に対応する製品の選択が容易に出来る。

以下の実施例において本願発明を実施するための最良の形態を示す。

図１は、本願発明を実施する場合のシステム例を示している。ネットワーク１４０には、ユーザＰＣ１１０、サイトサーバ（１）１２０、サイトサーバ（２）１３０等が接続されている。使用者がユーザＰＣ１１０を操作することにより、ネットワーク１４０に接続されているサイトサーバ（１）１２０、サイトサーバ（２）１３０等をアクセスし、検索ツール等を使用して必要な情報を取得する。本願発明はインターネットでの検索を実施例として示すが、これに限らず、情報が検索できるシステムならば他の方法でも応用できる。取得した情報をユーザＰＣ上のコンピュータプログラムで処理し、所望の結果を得ることが出来る。

図２は、本願発明を実施するユーザＰＣを示している。筐体２００の中には、記憶装置２１０、メインメモリー２２０、出力装置２３０、中央制御部（ＣＰＵ）２４０、操作部２５０、ネットワークI/O２６０が含まれている。使用者が操作部２５０を操作し、ネットワークI/Oを通して、必要な情報をインターネットの各サイトから入手する。中央制御部２４０は記憶装置２１０に記憶されている文書情報に基づき、インターネットから検索された情報について、所定のデータ処理を行い出力装置２３０に結果を表示する。

本願発明の概要を示すフローチャート（図３）について説明する。
ステップ３１０：用語の指定による候補文書の取得
ステップ３２０：候補文書の前処理
ステップ３３０：ノイズ文書の除去
ステップ３４０：各文書の特徴値の算出
ステップ３５０：判別分析による文書の分類
ステップ３６０：素人文書と専門家文書間の関係語彙の検出
以下、各ステップについて詳細に説明する。

（１）用語の指定による候補文書の取得
本願は発明を実施する為には、用語リストを用いて、同じ内容について述べているNaive文書（素人の書いた文章、以下Ｎ文書）とExpert文書（専門家の書いた文章、以下Ｅ文書）の対をデータとして準備しておくことが前提となる。
ここで用語リストとは、一つの分野におけるキーワードとなる用語の集合である。例えば、一つの分野として「ワイン」を選択すると、用語リストの構成要素は「ワインの銘柄」である。ワインの用語リスト中に記載されている銘柄に従い、インターネットの検索ツールを使用して、ワインに関する情報を収集する。ここで、銘柄としては、「アウスレーゼ」、「シャトーキュレボン」、「シャトーマルゴー」、「ヴィンサントトスカーノ」等の銘柄を指定している。この用語をキーワードとして、データベースから候補の文書を検索する。データベースとしてはこのような情報が格納されているデータベースならば何でも構わないが、本実施例ではインターネットの検索エンジンを使用して、候補の文書を検索する方法について説明する。

市販のあるいはフリーソフトとして利用可能な検索エンジンを用い、上記の用語リストに定義されている銘柄を検索用語として検索する。通常検索ツールを用いて検索すると、多くの候補文書が検索されるが、ランク付けに従い上位から所定数の候補を選択してもよい。用語リストに従い、全ての所望の用語について自動的にこれらの候補文書を取得することが出来る。

（２）候補文書の前処理
インターネットのウェブページから自動的にこれらの情報を収集した文書には様々な情報が含まれており、そのままでは利用できない場合が多い。本実施例ではこれらの文書の中から、ガービッジ文書、リスト文書、及び日記型文書に該当する文書をノイズ文書として除去している。ノイズ文書の処理の前に、ウェブページから取り出した文書に対して前処理を行う。前処理では、先ずウェブページの情報から文書に相当するものを取り出し文書解析を行なう。次に、分かち書きを行ない内容語、助詞、助動詞等を抽出し、これらの文書の特徴を表す特徴値、即ち、内容語数、素人語比率、固有名詞比率、追加固有名詞比率、助詞／助動詞比率の値を求める。以下に、これらの特徴値を求める為に本願明細書で使用している用語について説明する。

（イ）内容語数
これは、一つのウェブページに記載されている文書に含まれているに内容語の数である。内容語とは助詞・助動詞を除いた、名詞、動詞、形容詞、副詞に該当する単語である。
（ロ）素人語比率＝素人語の数／内容語数
素人語とは、当該分野において素人が使用するとして予め定めている単語である。素人語比率とは、予め定めている素人語（以下、「マスター素人語」と呼ぶ）であって一つのウェブページ内に出現する数と内容語数との比率である。
（ハ）固有名詞比率＝固有名詞の数／内容語数
ここで言う固有名詞とは、世間一般に固有名詞であると認識されている名詞である。固有名詞比率とは一つのウェブページに出現する固有名詞の数と内容語数との比率である。

（二）追加固有名詞比率＝追加固有名詞の数／内容語数
追加固有名詞とは、一般に固有名詞であると認識されていないが、本願発明において固有名詞として追加する必要が生じた名詞である。追加固有名詞比率とは、一つのウェブページに出現する追加固有名詞の数と内容語数との比率である。
（ホ）助詞／助動詞比率＝助詞の数／助動詞の数／内容語数
一つのウェブページに出現する助詞の数と助動詞の数の比率を求め、さらにその比率を内容語数で除して正規化したものである。

（へ）内容語ｎグラム
文書間の関連度を調べる為に、本実施例では、内容語１グラム、内容語２グラム、内容語３グラム、及び内容語スキップ２グラムの４つを用いている。
内容語１グラムとは、一単語の発生頻度を基に文書間の関連度を調べるものである。例えば、ワインを例に取ると、「ワイン」、「香り」、「飲む」等の単語の発生頻度を使用することが出来る。
内容語２グラムとは、連続する二単語の発生頻度を基に文書間の関連度を調べるものである。ワインを例に取ると、「アルコール」-「度数」、「この」-「ワイン」、「生産国」-「年代」等の連続する二単語の発生頻度を使用している。
内容語３グラムとは、連続する三単語の発生頻度を基に文書間の関連度を調べるものである。ワインを例に取ると、「ワイン」-「食事」-「飲み方」、「白」-「フランス」-「１９９０年」、「赤」-「ドイツ」-「アウスレーゼ」等の連続する三単語の発生頻度を使用している。

内容語スキップ２グラムとは、連続する三単語の中で最初と最後の単語を指定してこれらの単語の発生頻度を基に文書間の関連度を調べるものである。本実施例の例として、「良質」と「作る」を最初の単語及び最初の単語として指定した場合の例を示すと次のようになる。「良質の」-「ＸＸＸ」-「作る」の条件であるので、「良質の」-「果実房」-「作る」、「良質の」-「リースリング」-「作る」等が該当する。

（ト）助詞・助動詞ｎグラム
同様に、本実施例では、助詞・助動詞１グラム、助詞・助動詞２グラム、助詞・助動詞３グラム、及び助詞・助動詞スキップ２グラムの４つを用いている。
助詞・助動詞１グラムの例としては、「の」、「が」、「に」等が挙げられる。助詞・助動詞２グラムの例としては、「の」-「が」、「の」-「の」、「の」-「に」等が挙げられる。助詞・助動詞３グラムの例としては、「の」-「が」-「が」、「の」-「の」-「が」、「の」-「に」-「が」等が挙げられる。
助詞・助動詞スキップ２グラムの例としては、「の」-「Ｘ」-「が」、「の」-「Ｘ」-「が」、「の」-「Ｘ」-「が」等が挙げられる。但し「Ｘ」は任意の助詞または助動詞である。

（チ）順位相関係数及び有意度
本実施例では、スピアマン（Spearman）の公式を用いて順位相関係数及び有意度を求める。内容語１グラムを例にとって説明する。先ずマスター素人文書に使用されている「酒」、「香り」、「飲む」、「味」、「感じる」、「思う」等の単語の発生頻度を調べる。同様に、あるウェブサイトから取得した文書に使用されている「酒」、「香り」、「飲む」、「味」、「感じる」、「思う」等の単語の発生頻度を調べる。次に、これらの単語の発生順位をそれぞれの文書に関して求める。これらの順位情報を基にスピアマン相関係数を求めることができ、さらに相関係数の有意度を求めることが出来る。
（リ）マスター素人文書群（叉はマスター専門家文書群）
マスター素人文書群とはある領域において素人が使う語彙を含む複数の文書の集合体である。マスター専門家文書群とはある領域において専門家が使う語彙を含む複数の文書の集合体である。

（３）ノイズ文書の除去インターネットのウェブページから検索した文書から、ガービッジ文書、リスト文書、及び日記型文書をノイズ文書として除去する必要がある。これらの文書には、本願発明に必要な情報は含まれていないと考えられる。図４は、ノイズ文書の除去を示すフローチャートである。
４１０：ガービッジ文書の除去
４２０：リスト文書の除去
４３０：日記型文書の除去
４４０：全ての文書に対して実行したことを確認
４５０：次の文書の指定
以下、ガービッジ文書、リスト文書、日記型文書について説明する。

（Ａ）ガービッジ文書文書
以下の条件の全てを満足する文書をガービッジ文書と定義する。文字通りガービッジであって本願発明には利用できないものである。本願発明では、ガービッジ文書の選択基準として以下の様にする。
（ａ）内容語数が少ないもの
（ｂ）素人語比率の低いもの
（ｃ）固有名詞比率の低いもの
（ｄ）「マスター素人文書」と相関係数が低いもの
ここで、「マスター素人文書群」とは素人の文書として予め選択した文書集合である。あるいは「マスター専門家文書群」として専門家の文書として予め選択した文書集合を用いても良い。

（Ｂ）リスト文書
以下の条件の全てを満足する文書をリスト情報文書と定義する。これはインターネットのサイトにおいて、ある領域における対象物に関する情報が単なるリストとして格納されている場合である。
（ａ）固有名詞比率が高いもの
（ｂ）内容語と助詞・助動詞との相関係数が低いもの

（Ｃ）日記型文書
以下の条件の全てを満足する文書を日記型文書と定義する。これらにはインターネットのサイトにおいて、酒・ワインに関する情報が記載されているが言わば個人の日記書き込みサイトとして利用されている文書、及び、デパートの売場に関するサイトなど、主として他の情報が記載されており、その一部に酒・ワインの情報が記載されている文書等が含まれる。
（ａ）ある領域に関する固有名詞比率が低い
（ｂ）内容語ｎグラムに基づくマスター文書との相関度が低い
（ｃ）助詞・助動詞ｎグラムに基づく相関度が高い
以上の定義の基に、ガービッジ文書、リスト文書、及び、日記型文書をノイズ文書として除去する。

（４）判別分析による文書の分類
ノイズ文書を取り除いた文書に対して判別分析を行ない、素人文書叉は専門家文書に分類する。判別分析を行う為に各入力文書から特徴値を抽出する。特徴値として、内容語数、素人語比率、固有名詞比率、追加固有名詞比率、助詞／助動詞比率の５種類、さらに、内容語ｎグラムから算出されるスピアマンの相関係数・有意度、及び助詞・助動詞ｎグラムから算出されるスピアマンの順位相関係数・有意度を使用する。
スピアマンの公式に基づく順位相関係数・有意度について説明する。図５にスピアマンの公式に基づく順位相関係数・有意度を求めるフローチャートを示す。

５１０：マスタ素人文書のｎグラム発生頻度（Ｙ）
５２０：入力文書のｎグラム発生頻度（Ｘ）
５３０：Ｘ及びＹによるスピアマンの順位相関係数（ri）及び有意度（ei）の計算
５４０：全ｎグラムに対する計算の確認
５５０：次のｎグラムの指定
５６０：全ｎグラム対する順位相関係数及び有意度の取得

以下、詳細に説明する。
内容語１グラムを例に取って説明する。内容語１グラムとは、一単語の発生頻度を基に文書間の関連度を調べるものである。例えば、ワインを例に取ると、「ワイン」、「香り」、「飲む」等の単語の発生頻度を、選択された文書、及び、マスター素人文書集合（またはマスター専門家文書集合）から求めることが出来る。これをＹ（y1,y2,y3,..,yh）（ステップ５１０）とする。
次に入力文書から特徴値を求め、これをＸ（x1,x2,x3,..,xh）（ステップ５２０）とする。ここでｈは頻度を求めるデータ種類数を表す。これらのデータをもとにスピアマンの公式に基づき順位相関係数及び有意度を求める。

ｒ１＝Ｆ(Ｘ,Ｙ)
ｅ１＝Ｇ(Ｘ,Ｙ)
ｒ１はスピアマンの相関係数式に従って計算した順位相関係数であり、ｅ１はスピアマンの有意度式に従って計算した順位相関係数の有意度である（ステップ５３０）。同様にして、内容語２グラム等についてｒ２及びｅ２等を求める。さらに助詞・助動詞ｎグラムについても同様に求める（ステップ５４０、５５０）。その結果、Ｒ＝（r1,r2,..rd）、Ｅ＝（e1,e2,..ed）を求めることが出来る（ステップ５６０）。ここでｄは、内容語ｎグラム及び助詞・助動詞ｎグラムの総数を表す。

本実施例では、内容語ｎグラムから算出されるスピアマンの相関係数及び有意度は、内容語１グラム、内容語２グラム、内容語３グラム、及び内容語スキップ２グラムの４種類に対して求めることが出来る。従って、内容語に基づくスピアマンの相関係数及び有意度として８個の特徴値が求められる。同様に、助詞・助動詞に基づくスピアマンの相関係数及び有意度として８個の特徴値が求められる。前述の５種類の特徴値とあわせて全体の特徴値として、２１（＝５＋８＋８）種類の値を使用することが出来る。

次に、マハラノビスの距離関数を用いて入力文書の判別を行ない素人文書及び専門家文書に分類する。図６は入力文書の分類を行うフローチャートを示す。
６１０：マスター素人文書及びマスター専門家文書の特徴値の計算
６２０：各入力文書の特徴値の計算
６３０：入力文書と素人文書との距離（Ｄｂ）及び入力文書と専門家書との距離（Ｄａ）の計算
６４０：入力文書と素人文書との距離（Ｄｃ）が閾値より小さい場合には素人文書へ分類する。
６５０：入力文書と専門家文書との距離（Ｄａ）が閾値より小さい場合には専門家文書へ分類する。
６６０：素人文書及び専門家文書に該当しないものはその他の文書とする。
６７０：全文書を分類したことの確認
６８０：次の文書の指定

以下、各ステップについて詳細に説明する。先ずマスター素人文書及びマスター専門家文書の特徴値の計算を求める。判別式を用いて判別する場合のそれぞれの集合の母集団となるものである。マスター素人文書とは「マスター素人文書群」の中からマスター素人文書としての顕著な特徴を有するものを選択したものの集合である。マスター素人文書を構成する各文書の特徴値を求めそれらの平均値を求める。マスター専門家文書についても「マスター専門家文書群」の中から選択され、同様に各文書の特徴値を求めそれらの平均値を求める（ステップ６１０）
次に、入力文書の特徴値を求める（ステップ６２０）。入力文書の特徴値及びマスター素人文書の特徴値を用いてそれらの距離（Ｄｂ）をマハラノビスの公式（式１）を用いて求める。同様に入力文書の特徴値及びマスター専門家文書の特徴値を用いてそれらの距離（Ｄｃ）をマハラノビスの公式（式２）を用いて求める（ステップ６３０）。
（式１）Ｄｂ＝（Ａ−Ｂ）^ｔΣｂ^―１（Ａ−Ｂ）
（式２）Ｄｃ＝（Ａ−Ｃ）^ｔΣｃ^―１（Ａ−Ｃ）
ここでＡは各文書から得られる特徴値であり、Ａ^ｔ＝（a1,a2,..ap）と表現できる。Ｂは素人文書の特徴値の平均値であり、Ｂ^ｔ＝（b1,b2,..bp）と表現できる。Ｃは専門家文書の特徴値の平均値であり、Ｃ^ｔ＝（c1,c2,..cp）と表現できる。ｐは特徴ベクトルの次元数を表す。ｔは行列の転置を表す。また、Σｂ及びΣｃはそれぞれの群の共分散行列を表し、Σｂ^―１及びΣｂ^―１はそれらの逆行列を表す。

Ｄｂが所定の閾値より小さい場合には、当該文書は素人文書として分類される。（ステップ６４０）Ｄｃが所定の閾値より小さい場合には、当該文書は専門家文書として分類される（ステップ６５０）。
ここで、素人文書にも専門家文書にも分類されない文書は、分類不可能としてその他の文書に分類する（ステップ６６０）。
以上のステップを全文書に対して実行する（ステップ６７０、６８０）

（６）素人文書と専門家文書間の関係語彙の検出
以上により、ある特定の、共通する話題について述べているＮ文書とＥ文書の文書対を求めることが出来る。以下にＮ文書とＥ文書に用いられている語彙間の関連付けについて説明する。

素人文書（Ｎ文書）と専門家文書（Ｅ文書）では異なった語彙を用いる。しかし、共通の内容について述べているので同じような意味をもつ対応する語が用いられていると推測できる。そこで、対となるＥ文書とＮ文書から類似の意味を持つ語を同定することを検討する。即ちＥ文書のｒ番目の語Ｅrに対応する素人語のリストを検出すること、また、逆方向に、Ｎ文書のｉ番目の語Ｎiに対応する専門家語のリストを検出することを検討する。

（イ）最大尤度比検定法
先ず、最大尤度比検定法（Maximum Likelihood Ratio Test）を用いた計算方法について説明する。図７は最大尤度比検定法を説明するフローチャートである。
７１０：選択された素人文書集合から各語彙の発生頻度の計算
７２０：選択された専門家文書集合から各語彙の発生頻度の計算
７３０：P(A)＝Prob（Ni AND Er）の計算
７４０：P(B)＝Prob（Not（Ni）AND Er）の計算
７５０：P(A)、及び、P(B)に基づくＭＬＲの計算
７６０：ＭＬＲが閾値を超えている（Ni）＆（Er）組合せを抽出
７７０：全ての組合せについて実行したことの確認
７８０：次の組合せの指示
７９０：双方向からの対応する語彙の検出

以下、図７のフローチャートに従い、最大尤度比を使用した検出方法について詳細に説明する。
Ｎ文書からｍ個の語彙が抽出されｉ番目の語彙をＮiとし、Ｅ文書からｎ個の語彙が抽出されｒ番目の語彙をＥｒとした時、Ｎi及びＥｒが頻繁に共起するとする。すなわち、Ｎiが生じる時にはＥｒがよく出現し、Ｎiが生じていない時には、Ｅｒもあまり出現しない、という状況を仮定する。これが偶然とはいえない確率で生じているというための条件について説明する。またその度合いを数値で表現する方法について説明する。

先ず、素人語彙（Ｎ文書の語彙）から対応する専門家語彙（Ｅ文書の語彙）を求める方法について説明する。
一つのテーマを基に抽出され素人文書及び専門家文書に分類された文書対について考える。素人文書及び専門家文書にある全ての語彙について処理するのではなく、予め処理をするべき語彙については決めておく。これらの語彙は、素人語彙に対応するものは素人語彙リストの中に、専門家語彙に対応するものは専門家語彙リストの中に、それぞれ格納されている。素人語彙リストには、人の感覚、主観的判断に関わる表現を中心にした語彙が格納されている。
また、専門家語彙リストには、以下の基準に従った語彙が格納されている。
（ａ）用語リストに含まれている語彙、及び、それらの語彙に関連する語彙
（ｂ）素人語彙リストに含まれていない語彙
（ｃ）所定の頻度以上出現する語彙
素人語彙リストにある語彙の中で、素人文書にも出現した語彙がｎ個であり、そのｉ番目の語彙をＮi（ｉ＝１〜ｍ）とし、その発生頻度をカウントする（ステップ７１０）。同様に、素人語彙リストにある語彙の中で、専門家文書にも出現した語彙がｍ個であり、そのｒ番目の語彙をＥr（ｒ＝１〜ｎ）とし、その発生頻度をカウントする（ステップ７２０）。発生頻度をカウントする単位は、各単語単位でも良いし、叉は２グラム、３グラムの語彙でカウントしても良い。ＮiとＥrのそれぞれの文書内での生起頻度を基に、ＮiとＥrが共起する確率P(A)（ステップ７３０）、及び、Ｎiが生起し、かつ、Ｅrが生起しない確率P(B)（ステップ７４０）を次のように定義する。
P(A)＝Prob（Ni｜Er）
P(B)＝Prob（Not（Ni）｜Er）
次に、最大尤度比率（ＭＬＲ）を計算する（ステップ７５０）。これは、着目する語彙対（Ｎi及びＥr）の生起を二項分布に従う２つのランダムな過程とみなし、P(A)及びP(B)の確率に違いがないと考えた場合（帰無仮説）の確率P(H0)と違いがあると考えた場合（対立仮説）の確率P(H1)の比率として次のように求められる。まず、一つのランダム変数についての二項分布確率を求める式は、

で与えられる。ｋはある語が実際に出現した数、ｎはその単語の最大出現可能数、ｐは基本的出現確率である。今、Ｈ０（帰無仮説）の場合の推定確率をｐ０、Ｈ１（対立仮説）の場合のＰ（Ａ）の推定最大確率をｐ１、Ｐ（Ｂ）の推定最大確率をｐ２とすると、Ｐ（Ｈ０）とＰ（Ｈ１）の比率が次のような式として表現される。

ここで、k1, n1, k2, n2は単語の出現数から容易に計算される。式４のような形の尤度比率については、MLRを次のように定義すると、

ＭＬＲはほぼ自由度１のカイ二乗分布に従うことが一般的に知られている。これを利用すれば、閾値を設定することが容易となる。すなわち、MLRの値がある数値を超えていれば、NiとEｒの２つの語は偶然とはいえない確率で共起しているということが言える（ステップ７６０）。

本願実施例では、この性質を利用して対象としている全ての語彙の組み合わせ、即ち｛（Ｎi，Ｅｒ）ｉ＝１〜ｍ、ｒ＝１〜ｎ｝に対してMLRを算出して（ステップ７７０、７８０）、所定の閾値、本実施例では５％レベルを超えた数値を持つペアを大きい方から、語彙変換の候補とする方法を取っている。ここで、MLRの値が閾値を超えたＮのｉ番目の語彙に対応するＥの語彙を検索し、MLRの値の高い方から所定の数だけ選択することにより、素人語彙に対応する専門家語彙が得られる（ステップ７８０）。

次に、専門家語彙（Ｅ文書の語彙）から対応する素人語彙（Ｎ文書の語彙）を求める方法について説明する。
同様に、MLRの値が閾値を超えたＥのｒ番目の語彙に対応するＮの語彙を検索し、MLRの値の高い方から所定の数だけ選択することにより、専門家語彙に対応する素人語彙が得られる（ステップ７８０）。

（ロ）語彙変換行列の作成による方法
次に、文書の長さと語彙頻度による補正を加えた重み付けによる語彙変換行列Ｔの作成に基づいた方法について説明する。
図９は語彙変換行列によるアルゴリズムを示すフローチャートである。
８１０：専門家語彙行列Ｐ（ｓ行×ｎ列）の作成
８２０：素人語彙行列Ｑ（ｓ行×ｍ列）の作成
８３０：語彙変換行列Ｔ（ｍ行×ｎ列）の計算
８４０：素人語彙から専門家語彙への変換、及び、専門家語彙から素人語彙への変換

以下、各ステップについて詳細に説明する。先ず、専門家の文書として分類された集合から、専門家語彙行列Ｐを作成する。これは、用語リスト中のｋ番目の用語（ｋ＝１〜ｓ）をキーワードとして検索された文書を考える。専門家文書として分類されたこれらの文書を処理し使用されている語彙の発生頻度を求める。
処理する語彙は前述の専門家語彙リストにある語彙を対象とする。以上の操作を用語リスト中の全ての用語に対して検索された文書であり、かつ、専門家文書として分類された文書に対して行ない、専門家語彙リスト中の語彙に対応する語彙の発生頻度を求めることが出来る。ｎを専門家文書の語彙数とすると、ｓ行ｎ列の専門家語彙の発生頻度を表す行列Ｐ_０（不図示）を求めることが出来る。
同様にして、ｍを素人文書の語彙数とすると、ｓ行ｍ列の素人語彙の発生頻度を表す行列Ｑ_０（不図示）を求めることが出来る。

ここで共起した単語同士は当然結びつきが強くなるべきであるが、非常に多く生じる単語は他の多くの単語とも共起することとなり、語彙変換の候補としては重要度を割り引く必要がある．また、一つの文書が長く、多くの単語がある場合に、その中に生じた一個の単語もその重要度を割り引かなくてはならない。
そこで、行列Ｐ_０の構成要素を次のように変換しｓ行ｎ列の専門家語彙行列Ｐ（図８ａ）を作成する（ステップ８１０）。

ここで、専門家文書のk番目の文書にそれぞれ現れる語の頻度をExp(k,i) 、その語の全体の頻度をEtf(i)、k番目の文書に生じる語の総数をEwf(k)とする。
同様に、行列Ｑ_０の構成要素を次のように変換し、ｓ行ｍ列の素人語彙行列Ｑ（図８ｂ）を作成することが出来る（ステップ８２０）。

ここで、素人文書のk番目の文書にそれぞれ現れる語の頻度をNaive(k,r)、その語の全体の頻度をNtf(r)、k番目の文書に生じる語の総数をNwf(k)とする。

行列Ｐ（ｓ行ｎ列）及び行列Ｑ（ｓ行ｍ列）を作成する目的は、これらのそれぞれの単語の結びつきの強さを示す重み値を計算し、語彙変換行列Ｔ（ｍ行ｎ列）を求めることである。そこで、行列Ｔを次の様に定義する。
Ｔ＝Ｑ^ｔＰ
ここでｔは行列の転置を表し、語彙変換行列Ｔの各重み値は次のように定義される。

語彙変換行列から、変換の候補となる語を取り出すことができる．例えば、ｉ番目の素人語彙のNiに対応する専門家語彙の候補を取り出すには、語彙変換行列Ｔのｉ番目の行を見て、その中の重み値の高い方から、上位の語彙を選択すればよい（ステップ８４０）。
逆に、ｒ番目の専門家語彙に対応する素人語彙の候補を取り出すには、語彙変換行列Ｔのｒ番目の列を見て、その中の重み値の高い方から、上位の語彙を選択すればよい（ステップ８４０）。本願発明の実施例では、何れの場合にも、０でない上位１０個をとって候補語としている。

しかし、このままでは不必要な情報が含まれている為に実用的ではない場合がある。そこで専門家文書の中から選択された語彙について、用語リストに含まれている用語を使用してフィルタをかけることを検討する。即ち、用語リストに記載されている「銘柄」のデータのみを出力する。叉、素人の語彙として、素人の嗜好情報に関するものを選択することも出来る。例えば、「辛口」、「舌触りが良い」、「味わい深い」等、１グラムで嗜好情報を表すもの、あるいは、２グラムの語彙で嗜好を表現する語彙の組み合わせに対応する「銘柄」を出力させることが出来る。これによって、素人の嗜好情報を基に、その嗜好に対応する「銘柄」が把握できる。フィルタをかけた後の出力例について示すと次のようになる。

以下に検索結果について紹介する。
先ず、素人語彙から専門家語彙への対応語句を検索する例について示す。
日本のサイトを「日本酒」を例にとって検索した場合、素人が使用する語彙として、「厚い」、「豊か」、「淡麗」、「さらりと」、「美味」、「深み」等が検出された。これらの素人語彙に対応する専門家語彙、すなわち、銘柄としては、例えば、「厚い」、「豊か」に対応する銘柄として「磯自慢」が、「淡麗」、「さらりと」に対応する銘柄としては「越乃梅里」が、「美味」、「深み」等に対応する銘柄としては「賀茂緑」等が検索された。
日本のサイトを「ワイン」を例にとって検索した場合、素人が使用する語彙として、「美味」、「濃い」、「旨み」、「すっぱい」、「舌触り」、「キレ」、「ぴったり」、「深み」、「さわやか」、「柔らか」、「まろやか」等が検出された。これらの素人語彙に対応する専門家語彙、すなわち、銘柄としては、例えば、「美味」、「濃い」、「旨み」、「すっぱい」等に対応する銘柄として「オーボンクリマ」が、「舌触り」、「キレ」、「ぴったり」、「深み」、「さわやか」、「柔らか」、「まろやか」等に対応する銘柄として「ゾネブルーム」等が検索された。

次に、専門家語彙から素人語彙への対応語句を検索する例について説明する。
日本のサイトを「日本酒」を例にとって検索した場合、専門家語彙、すなわち、銘柄として、「加賀鳶」、「花の舞」、「角太」等を選択した場合、これらの銘柄に対応する素人語彙として、例えば、「加賀鳶」に対応する素人語彙としては「美味しい」、「みずみずしい」等が、「花の舞」に対応する素人語彙としては、「上品」、「淡麗」等が、「角太」に対応する素人語彙としては、「柔らか」、「なめらか」、「さわやか」、「素晴らしい」等の語彙が検出された。
日本のサイトを「ワイン」を例にとって検索した場合、専門家語彙、すなわち、銘柄として、「コルタッサラ」、「サンソニエール」等を選択した場合、これらの銘柄に対応する素人語彙として、例えば「コルタッサラ」に対応する素人語彙としては、「淡い」、「気品」、「ほのか」、「軽い」、「心地よい」等の語彙が、「サンソニエール」に対応する素人語彙としては、「ほろ苦い」、「辛い」、「上品」、「優雅」等の語彙が検出された。
以上説明したように、素人語彙から専門家語彙への対応語句、及び、専門家語彙から素人語彙への対応語句それぞれの語について、変換の候補となる語彙を数値の高い順に取り出すことによって適切な語彙の選択が可能となる。

本発明を実施する全体システムを示す図である。本発明を実施する装置を示す図である。本発明の全体のアルゴリズムを示すフローチャートである。検索された文書からノイズ文書を除去するフローチャートである。文書の順位相関係数及び有意度を求めるフローチャートある。文書を専門家文書及び素人文書に分類するフローチャートである。ＭＬＲ法を用いた語彙変換方法を示すフローチャートである。専門家語彙行列を示す図である。素人語彙行列を示す図である。語彙変換行列を示す図である。語彙変換行列を求めるアルゴリズムである。

符号の説明

１１０：ユーザＰＣ
１２０：サイトサーバ（１）
１３０：サイトサーバ（２）
１４０：ネットワーク
２００：筐体
２１０：記憶装置
２２０：メインメモリー
２３０：出力装置
２４０：中央制御装置（ＣＰＵ）
２５０：操作装置
２６０：ネットワークＩ/Ｏ

Claims

用語リストに基づき検索された共通の話題を有する第１の文書と第２の文書から、前記第１の文書の着目する語彙に対応する前記第２の文書の語彙、又は、前記第２の文書の着目する語彙に対応する前記第１の文書の語彙を検出する装置であって、
（ａ）第１の文書から、第１の語彙リストに記載されている各語彙の発生頻度を基に、第１の語彙行列を作成する手段と、
（ｂ）第２の文書から、第２の語彙リストに記載されている各語彙の発生頻度を基に、第２の語彙行列を作成する手段と、
（ｃ）前記第１の語彙行列及び前記第２の語彙行列の積から語彙変換行列を求める手段と、
（ｄ）前記語彙変換行列の着目する行の中から値の大きい語彙を所定数選択し、前記第２の文書の着目する語彙に対応する前記第１の文書の語彙とする手段と、
（ｅ）前記語彙変換行列の着目する列の中から値の大きい語彙を所定数選択し、前記第１の文書の着目する語彙に対応する前記第２の文書の語彙とする手段と
を有し、
前記第１の語彙行列は、ｓを前記用語リストの数、及び、ｎを第１の文書から選択された語彙数としたとき、ｓ行ｎ列の行列Ｐで表され、前記行列Ｐの構成要素は、前記第1の文書のk番目の文書に現れるｉ番目の語彙の頻度をExp(k,i) 、前記語彙の全体の頻度をEtf(i)、k番目の文書に生じる語の総数をEwf(k)としたとき、

前記第２の語彙行列は、ｓを前記用語リストの数、及び、ｍを第２の文書から選択された語彙数としたとき、ｓ行ｍ列の行列Ｑで表され、前記行列Ｑの構成要素は、前記第２の文書のk番目の文書に現れるｒ番目の語彙の頻度をNaive(k,r)、前記語彙の全体の頻度をNtf(r)、k番目の文書に生じる語彙の総数をNwf(k)としたとき、

で与えられる
装置。
コンピュータにより、用語リストに基づき検索された共通の話題を有する第１の文書と第２の文書から、前記第１の文書の着目する語彙に対応する前記第２の文書の語彙、又は、前記第２の文書の着目する語彙に対応する前記第１の文書の語彙を検出する方法であって、
（ａ）第１の文書から、第１の語彙リストに記載されている各語彙の発生頻度を基に、第１の語彙行列を作成するステップと、
（ｂ）第２の文書から、第２の語彙リストに記載されている各語彙の発生頻度を基に、第２の語彙行列を作成するステップと、
（ｃ）前記第１の語彙行列及び前記第２の語彙行列の積から語彙変換行列を求めるステップと、
（ｄ）前記語彙変換行列の着目する行の中から値の大きい語彙を所定数選択し、前記第２の文書の着目する語彙に対応する前記第１の文書の語彙とするステップと、
（ｅ）前記語彙変換行列の着目する列の中から値の大きい語彙を所定数選択し、前記第１の文書の着目する語彙に対応する前記第２の文書の語彙とするステップと
を含み、
前記第１の語彙行列は、ｓを前記用語リストの数、及び、ｎを第１の文書から選択された語彙数としたとき、ｓ行ｎ列の行列Ｐで表され、前記行列Ｐの構成要素は、前記第1の文書のk番目の文書に現れるｉ番目の語彙の頻度をExp(k,i) 、前記語彙の全体の頻度をEtf(i)、k番目の文書に生じる語の総数をEwf(k)としたとき、

前記第２の語彙行列は、ｓを前記用語リストの数、及び、ｍを第２の文書から選択された語彙数としたとき、ｓ行ｍ列の行列Ｑで表され、前記行列Ｑの構成要素は、前記第２の文書のk番目の文書に現れるｒ番目の語彙の頻度をNaive(k,r)、前記語彙の全体の頻度をNtf(r)、k番目の文書に生じる語彙の総数をNwf(k)としたとき、

で与えられる
方法。
コンピュータに、用語リストに基づき検索された共通の話題を有する第１の文書と第２の文書から、前記第１の文書の着目する語彙に対応する前記第２の文書の語彙、又は、前記第２の文書の着目する語彙に対応する前記第１の文書の語彙を検出させるプログラムであって、
（ａ）第１の文書から、第１の語彙リストに記載されている各語彙の発生頻度を基に、第１の語彙行列を作成するステップと、
（ｂ）第２の文書から、第２の語彙リストに記載されている各語彙の発生頻度を基に、第２の語彙行列を作成するステップと、
（ｃ）前記第１の語彙行列及び前記第２の語彙行列の積から語彙変換行列を求めるステップと、
（ｄ）前記語彙変換行列の着目する行の中から値の大きい語彙を所定数選択し、前記第２の文書の着目する語彙に対応する前記第１の文書の語彙とするステップと、
（ｅ）前記語彙変換行列の着目する列の中から値の大きい語彙を所定数選択し、前記第１の文書の着目する語彙に対応する前記第２の文書の語彙とするステップと
を前記コンピュータに実行させ、
前記第１の語彙行列は、ｓを前記用語リストの数、及び、ｎを第１の文書から選択された語彙数としたとき、ｓ行ｎ列の行列Ｐで表され、前記行列Ｐの構成要素は、前記第1の文書のk番目の文書に現れるｉ番目の語彙の頻度をExp(k,i) 、前記語彙の全体の頻度をEtf(i)、k番目の文書に生じる語の総数をEwf(k)としたとき、

前記第２の語彙行列は、ｓを前記用語リストの数、及び、ｍを第２の文書から選択された語彙数としたとき、ｓ行ｍ列の行列Ｑで表され、前記行列Ｑの構成要素は、前記第２の文書のk番目の文書に現れるｒ番目の語彙の頻度をNaive(k,r)、前記語彙の全体の頻度をNtf(r)、k番目の文書に生じる語彙の総数をNwf(k)としたとき、

で与えられる
プログラム。