JP4634736B2 - 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム - Google Patents

専門的記述と非専門的記述間の語彙変換方法・プログラム・システム Download PDF

Info

Publication number
JP4634736B2
JP4634736B2 JP2004127122A JP2004127122A JP4634736B2 JP 4634736 B2 JP4634736 B2 JP 4634736B2 JP 2004127122 A JP2004127122 A JP 2004127122A JP 2004127122 A JP2004127122 A JP 2004127122A JP 4634736 B2 JP4634736 B2 JP 4634736B2
Authority
JP
Japan
Prior art keywords
vocabulary
document
matrix
frequency
amateur
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004127122A
Other languages
English (en)
Other versions
JP2005309853A5 (ja
JP2005309853A (ja
Inventor
弘美 小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Priority to JP2004127122A priority Critical patent/JP4634736B2/ja
Priority to US11/103,567 priority patent/US7565361B2/en
Priority to EP05252402A priority patent/EP1589443A3/en
Priority to KR1020050033008A priority patent/KR20060047306A/ko
Priority to CN2005100674310A priority patent/CN1691007B/zh
Publication of JP2005309853A publication Critical patent/JP2005309853A/ja
Publication of JP2005309853A5 publication Critical patent/JP2005309853A5/ja
Priority to US12/472,203 priority patent/US8065306B2/en
Application granted granted Critical
Publication of JP4634736B2 publication Critical patent/JP4634736B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/00174Electronically operated locks; Circuits therefor; Nonmechanical keys therefor, e.g. passive or active electrical keys or other data carriers without mechanical keys
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05BLOCKS; ACCESSORIES THEREFOR; HANDCUFFS
    • E05B47/00Operating or controlling locks or other fastening devices by electric or magnetic means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本願発明は、同一言語で同一の対象物について記述していることが保証されている2つの異なる種類の言語表現で記述された文書を検索し、これらの文書間に現れる語彙間の関連付けに関する。
同じ日本語であって同じ意味を有する内容であっても、それを使用する人の専門知識の有無、性別、年齢等の領域が異なる場合には使用される語彙が異なる場合がある。例え共通の話題であっても、素人が素人の領域で使用する語彙と専門家が専門家の領域で使用する語彙とは異なる場合がある。本願発明の目的は、このような異領域間において、専門家が使用する語彙の意味する内容に対応する素人の語彙を検出すること、及び、その逆に、素人が使用する語彙の意味する内容に対応する専門家の語彙を検出する方法及び装置等を開示することである。
異なる領域において使用される文書等を変換する技術の典型的な例は翻訳機械である。コンピュータプログラムによって機械的に翻訳を行なう技術は従来から知られている。これはある自然言語で書かれた文書を別の自然言語へ語彙データベースと文法規則の処理プログラム、及び、用例・文例データベースなどを使用して、コンピュータプログラムによって自動的に翻訳するものである。これらはすでに実用化されパソコン用翻訳ソフトにも多くの商品がある。またインターネットで翻訳サービスが提供されている例もある。またその他電子単語翻訳機も普及している。これはある言語で記述されている一つの単語を、同一の意味内容を有する他の言語の単語へ変換するものである。基本的には既に存在している辞書を記憶装置に格納しておき、入力された単語を対応する他の言語の対応する単語へ変換するものである。これらの従来技術において、異なる領域において使用される文書等を変換する為の前提条件として、一つの文に対応する文が他の領域に存在すること、及び、一つ単語に対応する単語が他の領域に存在することが必要である。
さらに、同一言語内で難しい表現を優しい表現に変換するパラフレーズについての研究も既にいくつか発表されている。例えば、藤田篤他(2003)、村山賢洋他(2003)らの研究があるが、これらの「言い換え(パラフレーズ)」の研究では、基本的にパターンマッチングにより定まった表現パターンを置き換えている。また別のアプローチとして、言語翻訳を統計的・確率的に行う研究も行われている。この場合、言語モデルを用いた研究では同一の内容を翻訳していることが保証されている2言語のデータを用い、文の長さ等に基づいた言語Aの文と言語Bの文を摺り合わせ、さらにそこに同時に出ている語彙についての共起関係から対応する語を決定する。この場合もある言語Aの単語Waにはほぼ1対1に対応する言語Bの単語Wbがあることを前提としている。
「日常言語コンピューティングおよびその方法」特開2002ー236681 「対訳文の単語対応付け方法」特開2002ー328920 http: //www2.crl.go.jp /jt/a133/ kuma/ mrs_li/midisearch.html 藤田篤, 乾健太郎, 松本裕治. 平易な表現への言い換えに必要なテキスト修正処理. 第65回情報処理学会全国大会講演論文集第五分冊, 1T6-4, pp. 99-102, 2003.03. 村山賢洋, 麻岡正洋, 土屋雅稔, 佐藤理史: 語彙の規格化とそれに基づく用言の言い換え支援, 言語処理学会 第9回年次大会, pp85-88, (2003.3). Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Computational Linguistics , 19(1):61-74.
以上の様に、翻訳に関する従来技術の分野では、一つの言語から他の言語へ翻訳する場合に、お互いに対応する単語が存在すること、あるいは、お互いに対応する文書が存在することが前提となっている。
本願発明では、対象とする異なる領域間に、一対一に対応する単語が存在しない場合、あるいは、前もってお互いに対応することが分かっている文書が存在しない場合、さらには、これらの領域間には辞書に相当するものが存在しない場合において、一方の領域で使用される語彙に対応する他方の領域で使用される語彙の検出、あるいはその逆の場合として、他方の領域で使用される語彙に対応する一方の領域で使用される語彙を検出することが目的である。
本願発明では、上記課題を解決する為に、
(1) 同一の対象物について記述していることが保証されている2つの異なる種類の言語表現で記述された文書(本願明細書では、領域Aの文書、及び、領域Bの文書と呼ぶ)を検索すること、及び、
(2) このような2つの異なる種類の言語表現が与えられた時に、領域Aの文書と領域Bの文書に現れる語彙間の関連付けを行うこと、
を行っている。そのためには、先ず2つの異なる種類の言語表現で記述された文書を検索する為に、検索ツールを使用し所定のキーワードを用いて候補の文書を収集する。しかし、検索ツールで検索した場合には、いわゆるノイズ文書が多いためにそのままでは使用できない場合が多い。本願発明では先ず収集した文書から「ノイズ文書」を取り除く。そして文書間の語彙の発生頻度等を計算し、2つの異なった種類の言語表現で記述された専門家文書及び素人文書に分類する。次に対象としている専門家の文書と素人の文書において現れる語彙は同一のものとは限らないので、2つの異なる領域に現れる語彙間の関連性を求める。基本的な考え方として、同一の対象物に関して記述された専門家文書及び素人文書に現れる単語同士の共起関係に基づき、一方の領域に現れる語彙に関連する他領域に現れる語彙もしくは語彙群を求める。
本願発明の応用例の一つとしては、商品販売時における推奨システムがある。商品などの同一の対象物について記述された文書であっても、深い知識のある専門家の用いる語彙と素人の用いる語彙の間には隔たりが見られることが良くある。専門家は専門用語や対象物についての固有の知識を用いて表現することが多いが、このような知識のない素人は感覚的な表現や一般的な事物を例にとった表現にせざるを得ない場合が多い。
専門家は商品の生産地や材料に関する知識から説明し、逆に素人は自分の知っている感覚的な語彙で表現しようとする。一般消費者があらゆる分野の商品の知識や固有名を知ることはほとんど不可能であり、専門家から専門的知識の必要な特定の商品を推薦されても、十分に理解すること出来ない場合もあると思われる。
本願発明を応用することにより、商品の専門家である販売者から見た場合に、需要者が必要とする商品の情報を提供でき、逆に商品に関しては素人である一般需要者から見た場合に、一般需要者の嗜好・感性に対応する製品の選択が容易に出来る。
以下の実施例において本願発明を実施するための最良の形態を示す。
図1は、本願発明を実施する場合のシステム例を示している。ネットワーク140には、ユーザPC110、サイトサーバ(1)120、サイトサーバ(2)130等が接続されている。使用者がユーザPC110を操作することにより、ネットワーク140に接続されているサイトサーバ(1)120、サイトサーバ(2)130等をアクセスし、検索ツール等を使用して必要な情報を取得する。本願発明はインターネットでの検索を実施例として示すが、これに限らず、情報が検索できるシステムならば他の方法でも応用できる。取得した情報をユーザPC上のコンピュータプログラムで処理し、所望の結果を得ることが出来る。
図2は、本願発明を実施するユーザPCを示している。筐体200の中には、記憶装置210、メインメモリー220、出力装置230、中央制御部(CPU)240、操作部250、ネットワークI/O260が含まれている。使用者が操作部250を操作し、ネットワークI/Oを通して、必要な情報をインターネットの各サイトから入手する。中央制御部240は記憶装置210に記憶されている文書情報に基づき、インターネットから検索された情報について、所定のデータ処理を行い出力装置230に結果を表示する。
本願発明の概要を示すフローチャート(図3)について説明する。
ステップ310:用語の指定による候補文書の取得
ステップ320:候補文書の前処理
ステップ330:ノイズ文書の除去
ステップ340:各文書の特徴値の算出
ステップ350:判別分析による文書の分類
ステップ360:素人文書と専門家文書間の関係語彙の検出
以下、各ステップについて詳細に説明する。
(1)用語の指定による候補文書の取得
本願は発明を実施する為には、用語リストを用いて、同じ内容について述べているNaive文書(素人の書いた文章、以下N文書)とExpert文書(専門家の書いた文章、以下E文書)の対をデータとして準備しておくことが前提となる。
ここで用語リストとは、一つの分野におけるキーワードとなる用語の集合である。例えば、一つの分野として「ワイン」を選択すると、用語リストの構成要素は「ワインの銘柄」である。ワインの用語リスト中に記載されている銘柄に従い、インターネットの検索ツールを使用して、ワインに関する情報を収集する。ここで、銘柄としては、「アウスレーゼ」、「シャトー キュレ ボン」、「シャトー マルゴー」、「ヴィン サント トスカーノ」等の銘柄を指定している。この用語をキーワードとして、データベースから候補の文書を検索する。データベースとしてはこのような情報が格納されているデータベースならば何でも構わないが、本実施例ではインターネットの検索エンジンを使用して、候補の文書を検索する方法について説明する。
市販のあるいはフリーソフトとして利用可能な検索エンジンを用い、上記の用語リストに定義されている銘柄を検索用語として検索する。通常検索ツールを用いて検索すると、多くの候補文書が検索されるが、ランク付けに従い上位から所定数の候補を選択してもよい。用語リストに従い、全ての所望の用語について自動的にこれらの候補文書を取得することが出来る。
(2)候補文書の前処理
インターネットのウェブページから自動的にこれらの情報を収集した文書には様々な情報が含まれており、そのままでは利用できない場合が多い。本実施例ではこれらの文書の中から、ガービッジ文書、リスト文書、及び日記型文書に該当する文書をノイズ文書として除去している。ノイズ文書の処理の前に、ウェブページから取り出した文書に対して前処理を行う。前処理では、先ずウェブページの情報から文書に相当するものを取り出し文書解析を行なう。次に、分かち書きを行ない内容語、助詞、助動詞等を抽出し、これらの文書の特徴を表す特徴値、即ち、内容語数、素人語比率、固有名詞比率、追加固有名詞比率、助詞/助動詞比率の値を求める。以下に、これらの特徴値を求める為に本願明細書で使用している用語について説明する。
(イ) 内容語数
これは、一つのウェブページに記載されている文書に含まれているに内容語の数である。内容語とは助詞・助動詞を除いた、名詞、動詞、形容詞、副詞に該当する単語である。
(ロ)素人語比率=素人語の数/内容語数
素人語とは、当該分野において素人が使用するとして予め定めている単語である。素人語比率とは、予め定めている素人語(以下、「マスター素人語」と呼ぶ)であって一つのウェブページ内に出現する数と内容語数との比率である。
(ハ)固有名詞比率=固有名詞の数/内容語数
ここで言う固有名詞とは、世間一般に固有名詞であると認識されている名詞である。固有名詞比率とは一つのウェブページに出現する固有名詞の数と内容語数との比率である。
(二)追加固有名詞比率=追加固有名詞の数/内容語数
追加固有名詞とは、一般に固有名詞であると認識されていないが、本願発明において固有名詞として追加する必要が生じた名詞である。追加固有名詞比率とは、一つのウェブページに出現する追加固有名詞の数と内容語数との比率である。
(ホ)助詞/助動詞比率=助詞の数/助動詞の数/内容語数
一つのウェブページに出現する助詞の数と助動詞の数の比率を求め、さらにその比率を内容語数で除して正規化したものである。
(へ)内容語nグラム
文書間の関連度を調べる為に、本実施例では、内容語1グラム、内容語2グラム、内容語3グラム、及び内容語スキップ2グラムの4つを用いている。
内容語1グラムとは、一単語の発生頻度を基に文書間の関連度を調べるものである。例えば、ワインを例に取ると、「ワイン」、「香り」、「飲む」等の単語の発生頻度を使用することが出来る。
内容語2グラムとは、連続する二単語の発生頻度を基に文書間の関連度を調べるものである。ワインを例に取ると、「アルコール」-「度数」、「この」-「ワイン」、「生産国」-「年代」等の連続する二単語の発生頻度を使用している。
内容語3グラムとは、連続する三単語の発生頻度を基に文書間の関連度を調べるものである。ワインを例に取ると、「ワイン」-「食事」-「飲み方」、「白」-「フランス」-「1990年」、「赤」-「ドイツ」-「アウスレーゼ」等の連続する三単語の発生頻度を使用している。
内容語スキップ2グラムとは、連続する三単語の中で最初と最後の単語を指定してこれらの単語の発生頻度を基に文書間の関連度を調べるものである。本実施例の例として、「良質」と「作る」を最初の単語及び最初の単語として指定した場合の例を示すと次のようになる。「良質の」-「XXX」-「作る」の条件であるので、「良質の」-「果実房」-「作る」、「良質の」-「リースリング」-「作る」等が該当する。
(ト)助詞・助動詞nグラム
同様に、本実施例では、助詞・助動詞1グラム、助詞・助動詞2グラム、助詞・助動詞3グラム、及び助詞・助動詞スキップ2グラムの4つを用いている。
助詞・助動詞1グラムの例としては、「の」、「が」、「に」等が挙げられる。助詞・助動詞2グラムの例としては、「の」-「が」、「の」-「の」、「の」-「に」等が挙げられる。助詞・助動詞3グラムの例としては、「の」-「が」-「が」、「の」-「の」-「が」、「の」-「に」-「が」等が挙げられる。
助詞・助動詞スキップ2グラムの例としては、「の」-「X」-「が」、「の」-「X」-「が」、「の」-「X」-「が」等が挙げられる。但し「X」は任意の助詞または助動詞である。
(チ)順位相関係数及び有意度
本実施例では、スピアマン(Spearman)の公式を用いて順位相関係数及び有意度を求める。内容語1グラムを例にとって説明する。先ずマスター素人文書に使用されている「酒」、「香り」、「飲む」、「味」、「感じる」、「思う」等の単語の発生頻度を調べる。同様に、あるウェブサイトから取得した文書に使用されている「酒」、「香り」、「飲む」、「味」、「感じる」、「思う」等の単語の発生頻度を調べる。次に、これらの単語の発生順位をそれぞれの文書に関して求める。これらの順位情報を基にスピアマン相関係数を求めることができ、さらに相関係数の有意度を求めることが出来る。
(リ)マスター素人文書群(叉はマスター専門家文書群)
マスター素人文書群とはある領域において素人が使う語彙を含む複数の文書の集合体である。マスター専門家文書群とはある領域において専門家が使う語彙を含む複数の文書の集合体である。
(3)ノイズ文書の除去インターネットのウェブページから検索した文書から、ガービッジ文書、リスト文書、及び日記型文書をノイズ文書として除去する必要がある。これらの文書には、本願発明に必要な情報は含まれていないと考えられる。図4は、ノイズ文書の除去を示すフローチャートである。
410:ガービッジ文書の除去
420:リスト文書の除去
430:日記型文書の除去
440:全ての文書に対して実行したことを確認
450:次の文書の指定
以下、ガービッジ文書、リスト文書、日記型文書について説明する。
(A)ガービッジ文書文書
以下の条件の全てを満足する文書をガービッジ文書と定義する。文字通りガービッジであって本願発明には利用できないものである。本願発明では、ガービッジ文書の選択基準として以下の様にする。
(a)内容語数が少ないもの
(b)素人語比率の低いもの
(c)固有名詞比率の低いもの
(d)「マスター素人文書」と相関係数が低いもの
ここで、「マスター素人文書群」とは素人の文書として予め選択した文書集合である。あるいは「マスター専門家文書群」として専門家の文書として予め選択した文書集合を用いても良い。
(B)リスト文書
以下の条件の全てを満足する文書をリスト情報文書と定義する。これはインターネットのサイトにおいて、ある領域における対象物に関する情報が単なるリストとして格納されている場合である。
(a)固有名詞比率が高いもの
(b)内容語と助詞・助動詞との相関係数が低いもの
(C)日記型文書
以下の条件の全てを満足する文書を日記型文書と定義する。これらにはインターネットのサイトにおいて、酒・ワインに関する情報が記載されているが言わば個人の日記書き込みサイトとして利用されている文書、及び、デパートの売場に関するサイトなど、主として他の情報が記載されており、その一部に酒・ワインの情報が記載されている文書等が含まれる。
(a)ある領域に関する固有名詞比率が低い
(b)内容語nグラムに基づくマスター文書との相関度が低い
(c)助詞・助動詞nグラムに基づく相関度が高い
以上の定義の基に、ガービッジ文書、リスト文書、及び、日記型文書をノイズ文書として除去する。
(4)判別分析による文書の分類
ノイズ文書を取り除いた文書に対して判別分析を行ない、素人文書叉は専門家文書に分類する。判別分析を行う為に各入力文書から特徴値を抽出する。特徴値として、内容語数、素人語比率、固有名詞比率、追加固有名詞比率、助詞/助動詞比率の5種類、さらに、内容語nグラムから算出されるスピアマンの相関係数・有意度、及び助詞・助動詞nグラムから算出されるスピアマンの順位相関係数・有意度を使用する。
スピアマンの公式に基づく順位相関係数・有意度について説明する。図5にスピアマンの公式に基づく順位相関係数・有意度を求めるフローチャートを示す。
510:マスタ素人文書のnグラム発生頻度(Y)
520:入力文書のnグラム発生頻度(X)
530:X及びYによるスピアマンの順位相関係数(ri)及び有意度(ei)の計算
540:全nグラムに対する計算の確認
550:次のnグラムの指定
560:全nグラム対する順位相関係数及び有意度の取得
以下、詳細に説明する。
内容語1グラムを例に取って説明する。内容語1グラムとは、一単語の発生頻度を基に文書間の関連度を調べるものである。例えば、ワインを例に取ると、「ワイン」、「香り」、「飲む」等の単語の発生頻度を、選択された文書、及び、マスター素人文書集合(またはマスター専門家文書集合)から求めることが出来る。これをY(y1,y2,y3,..,yh)(ステップ510)とする。
次に入力文書から特徴値を求め、これをX(x1,x2,x3,..,xh)(ステップ520)とする。ここでhは頻度を求めるデータ種類数を表す。これらのデータをもとにスピアマンの公式に基づき順位相関係数及び有意度を求める。
r1= F(X,Y)
e1= G(X,Y)
r1はスピアマンの相関係数式に従って計算した順位相関係数であり、e1はスピアマンの有意度式に従って計算した順位相関係数の有意度である(ステップ530)。同様にして、内容語2グラム等についてr2及びe2等を求める。さらに助詞・助動詞nグラムについても同様に求める(ステップ540、550)。その結果、R=(r1,r2,..rd)、E=(e1,e2,..ed)を求めることが出来る(ステップ560)。ここでdは、内容語nグラム及び助詞・助動詞nグラムの総数を表す。
本実施例では、内容語nグラムから算出されるスピアマンの相関係数及び有意度は、内容語1グラム、内容語2グラム、内容語3グラム、及び内容語スキップ2グラムの4種類に対して求めることが出来る。従って、内容語に基づくスピアマンの相関係数及び有意度として8個の特徴値が求められる。同様に、助詞・助動詞に基づくスピアマンの相関係数及び有意度として8個の特徴値が求められる。前述の5種類の特徴値とあわせて全体の特徴値として、21(=5+8+8)種類の値を使用することが出来る。
次に、マハラノビスの距離関数を用いて入力文書の判別を行ない素人文書及び専門家文書に分類する。図6は入力文書の分類を行うフローチャートを示す。
610:マスター素人文書及びマスター専門家文書の特徴値の計算
620:各入力文書の特徴値の計算
630:入力文書と素人文書との距離(Db)及び入力文書と専門家書との距離(Da)の計算
640:入力文書と素人文書との距離(Dc)が閾値より小さい場合には素人文書へ分類する。
650:入力文書と専門家文書との距離(Da)が閾値より小さい場合には専門家文書へ分類する。
660:素人文書及び専門家文書に該当しないものはその他の文書とする。
670:全文書を分類したことの確認
680:次の文書の指定
以下、各ステップについて詳細に説明する。先ずマスター素人文書及びマスター専門家文書の特徴値の計算を求める。判別式を用いて判別する場合のそれぞれの集合の母集団となるものである。マスター素人文書とは「マスター素人文書群」の中からマスター素人文書としての顕著な特徴を有するものを選択したものの集合である。マスター素人文書を構成する各文書の特徴値を求めそれらの平均値を求める。マスター専門家文書についても「マスター専門家文書群」の中から選択され、同様に各文書の特徴値を求めそれらの平均値を求める(ステップ610)
次に、入力文書の特徴値を求める(ステップ620)。入力文書の特徴値及びマスター素人文書の特徴値を用いてそれらの距離(Db)をマハラノビスの公式(式1)を用いて求める。同様に入力文書の特徴値及びマスター専門家文書の特徴値を用いてそれらの距離(Dc)をマハラノビスの公式(式2)を用いて求める(ステップ630)。
(式1) Db=(A−B)Σb―1(A−B)
(式2) Dc=(A−C)Σc―1(A−C)
ここでAは各文書から得られる特徴値であり、A=(a1,a2,..ap)と表現できる。Bは素人文書の特徴値の平均値であり、B=(b1,b2,..bp)と表現できる。Cは専門家文書の特徴値の平均値であり、C=(c1,c2,..cp)と表現できる。pは特徴ベクトルの次元数を表す。tは行列の転置を表す。また、Σb及びΣcはそれぞれの群の共分散行列を表し、Σb―1及びΣb―1はそれらの逆行列を表す。
Dbが所定の閾値より小さい場合には、当該文書は素人文書として分類される。(ステップ640)Dcが所定の閾値より小さい場合には、当該文書は専門家文書として分類される(ステップ650)。
ここで、素人文書にも専門家文書にも分類されない文書は、分類不可能としてその他の文書に分類する(ステップ660)。
以上のステップを全文書に対して実行する(ステップ670、680)
(6)素人文書と専門家文書間の関係語彙の検出
以上により、ある特定の、共通する話題について述べているN文書とE文書の文書対を求めることが出来る。以下にN文書とE文書に用いられている語彙間の関連付けについて説明する。
素人文書(N文書)と専門家文書(E文書)では異なった語彙を用いる。しかし、共通の内容について述べているので同じような意味をもつ対応する語が用いられていると推測できる。そこで、対となるE文書とN文書から類似の意味を持つ語を同定することを検討する。即ちE文書のr番目の語Erに対応する素人語のリストを検出すること、また、逆方向に、N文書のi番目の語Niに対応する専門家語のリストを検出することを検討する。
(イ)最大尤度比検定法
先ず、最大尤度比検定法(Maximum Likelihood Ratio Test)を用いた計算方法について説明する。図7は最大尤度比検定法を説明するフローチャートである。
710:選択された素人文書集合から各語彙の発生頻度の計算
720:選択された専門家文書集合から各語彙の発生頻度の計算
730:P(A)=Prob(Ni AND Er)の計算
740:P(B)=Prob(Not(Ni)AND Er)の計算
750:P(A)、及び、P(B)に基づくMLRの計算
760:MLRが閾値を超えている(Ni)&(Er)組合せを抽出
770:全ての組合せについて実行したことの確認
780:次の組合せの指示
790:双方向からの対応する語彙の検出
以下、図7のフローチャートに従い、最大尤度比を使用した検出方法について詳細に説明する。
N文書からm個の語彙が抽出されi番目の語彙をNiとし、E文書からn個の語彙が抽出されr番目の語彙をErとした時、Ni及びErが頻繁に共起するとする。すなわち、Niが生じる時にはErがよく出現し、Niが生じていない時には、Erもあまり出現しない、という状況を仮定する。これが偶然とはいえない確率で生じているというための条件について説明する。またその度合いを数値で表現する方法について説明する。
先ず、素人語彙(N文書の語彙)から対応する専門家語彙(E文書の語彙)を求める方法について説明する。
一つのテーマを基に抽出され素人文書及び専門家文書に分類された文書対について考える。素人文書及び専門家文書にある全ての語彙について処理するのではなく、予め処理をするべき語彙については決めておく。これらの語彙は、素人語彙に対応するものは素人語彙リストの中に、専門家語彙に対応するものは専門家語彙リストの中に、それぞれ格納されている。素人語彙リストには、人の感覚、主観的判断に関わる表現を中心にした語彙が格納されている。
また、専門家語彙リストには、以下の基準に従った語彙が格納されている。
(a)用語リストに含まれている語彙、及び、それらの語彙に関連する語彙
(b)素人語彙リストに含まれていない語彙
(c)所定の頻度以上出現する語彙
素人語彙リストにある語彙の中で、素人文書にも出現した語彙がn個であり、そのi番目の語彙をNi(i=1〜m)とし、その発生頻度をカウントする(ステップ710)。同様に、素人語彙リストにある語彙の中で、専門家文書にも出現した語彙がm個であり、そのr番目の語彙をEr(r=1〜n)とし、その発生頻度をカウントする(ステップ720)。発生頻度をカウントする単位は、各単語単位でも良いし、叉は2グラム、3グラムの語彙でカウントしても良い。NiとErのそれぞれの文書内での生起頻度を基に、NiとErが共起する確率P(A)(ステップ730)、及び、Niが生起し、かつ、Erが生起しない確率P(B)(ステップ740)を次のように定義する。
P(A)=Prob(Ni|Er)
P(B)=Prob(Not(Ni)|Er)
次に、最大尤度比率(MLR)を計算する(ステップ750)。これは、着目する語彙対(Ni及びEr)の生起を二項分布に従う2つのランダムな過程とみなし、P(A)及びP(B)の確率に違いがないと考えた場合(帰無仮説)の確率P(H0)と違いがあると考えた場合(対立仮説)の確率P(H1)の比率として次のように求められる。まず、一つのランダム変数についての二項分布確率を求める式は、
Figure 0004634736
で与えられる。kはある語が実際に出現した数、nはその単語の最大出現可能数、pは基本的出現確率である。今、H0(帰無仮説)の場合の推定確率をp0、 H1(対立仮説)の場合のP(A)の推定最大確率をp1、P(B)の推定最大確率をp2とすると、P(H0)とP(H1)の比率が次のような式として表現される。
Figure 0004634736
ここで、k1, n1, k2, n2は単語の出現数から容易に計算される。式4のような形の尤度比率については、MLRを次のように定義すると、
Figure 0004634736
MLRはほぼ自由度1のカイ二乗分布に従うことが一般的に知られている。これを利用すれば、閾値を設定することが容易となる。すなわち、MLRの値がある数値を超えていれば、NiとErの2つの語は偶然とはいえない確率で共起しているということが言える(ステップ760)。
本願実施例では、この性質を利用して対象としている全ての語彙の組み合わせ、即ち{(Ni,Er)i=1〜m、r=1〜n}に対してMLRを算出して(ステップ770、780)、所定の閾値、本実施例では5%レベルを超えた数値を持つペアを大きい方から、語彙変換の候補とする方法を取っている。ここで、MLRの値が閾値を超えたNのi番目の語彙に対応するEの語彙を検索し、MLRの値の高い方から所定の数だけ選択することにより、素人語彙に対応する専門家語彙が得られる(ステップ780)。
次に、専門家語彙(E文書の語彙)から対応する素人語彙(N文書の語彙)を求める方法について説明する。
同様に、MLRの値が閾値を超えたEのr番目の語彙に対応するNの語彙を検索し、MLRの値の高い方から所定の数だけ選択することにより、専門家語彙に対応する素人語彙が得られる(ステップ780)。
(ロ)語彙変換行列の作成による方法
次に、文書の長さと語彙頻度による補正を加えた重み付けによる語彙変換行列Tの作成に基づいた方法について説明する。
図9は語彙変換行列によるアルゴリズムを示すフローチャートである。
810:専門家語彙行列P(s行×n列)の作成
820:素人語彙行列Q(s行×m列)の作成
830:語彙変換行列T(m行×n列)の計算
840:素人語彙から専門家語彙への変換、及び、専門家語彙から素人語彙への変換
以下、各ステップについて詳細に説明する。先ず、専門家の文書として分類された集合から、専門家語彙行列Pを作成する。これは、用語リスト中のk番目の用語(k=1〜s)をキーワードとして検索された文書を考える。専門家文書として分類されたこれらの文書を処理し使用されている語彙の発生頻度を求める。
処理する語彙は前述の専門家語彙リストにある語彙を対象とする。以上の操作を用語リスト中の全ての用語に対して検索された文書であり、かつ、専門家文書として分類された文書に対して行ない、専門家語彙リスト中の語彙に対応する語彙の発生頻度を求めることが出来る。nを専門家文書の語彙数とすると、s行n列の専門家語彙の発生頻度を表す行列P(不図示)を求めることが出来る。
同様にして、mを素人文書の語彙数とすると、s行m列の素人語彙の発生頻度を表す行列Q(不図示)を求めることが出来る。
ここで共起した単語同士は当然結びつきが強くなるべきであるが、非常に多く生じる単語は他の多くの単語とも共起することとなり、語彙変換の候補としては重要度を割り引く必要がある.また、一つの文書が長く、多くの単語がある場合に、その中に生じた一個の単語もその重要度を割り引かなくてはならない。
そこで、行列Pの構成要素を次のように変換しs行n列の専門家語彙行列P(図8a)を作成する(ステップ810)。
Figure 0004634736
ここで、専門家文書のk番目の文書にそれぞれ現れる語の頻度をExp(k,i) 、その語の全体の頻度をEtf(i)、k番目の文書に生じる語の総数をEwf(k)とする。
同様に、行列Qの構成要素を次のように変換し、s行m列の素人語彙行列Q(図8b)を作成することが出来る(ステップ820)。
Figure 0004634736
ここで、素人文書のk番目の文書にそれぞれ現れる語の頻度をNaive(k,r)、その語の全体の頻度をNtf(r)、k番目の文書に生じる語の総数をNwf(k)とする。
行列P(s行n列)及び行列Q(s行m列)を作成する目的は、これらのそれぞれの単語の結びつきの強さを示す重み値を計算し、語彙変換行列T(m行n列)を求めることである。そこで、行列Tを次の様に定義する。
T=Q
ここでtは行列の転置を表し、語彙変換行列Tの各重み値は次のように定義される。
Figure 0004634736
語彙変換行列から、変換の候補となる語を取り出すことができる.例えば、i番目の素人語彙のNiに対応する専門家語彙の候補を取り出すには、語彙変換行列Tのi番目の行を見て、その中の重み値の高い方から、上位の語彙を選択すればよい(ステップ840)。
逆に、r番目の専門家語彙に対応する素人語彙の候補を取り出すには、語彙変換行列Tのr番目の列を見て、その中の重み値の高い方から、上位の語彙を選択すればよい(ステップ840)。本願発明の実施例では、何れの場合にも、0でない上位10個をとって候補語としている。
しかし、このままでは不必要な情報が含まれている為に実用的ではない場合がある。そこで専門家文書の中から選択された語彙について、用語リストに含まれている用語を使用してフィルタをかけることを検討する。即ち、用語リストに記載されている「銘柄」のデータのみを出力する。叉、素人の語彙として、素人の嗜好情報に関するものを選択することも出来る。例えば、「辛口」、「舌触りが良い」、「味わい深い」等、1グラムで嗜好情報を表すもの、あるいは、2グラムの語彙で嗜好を表現する語彙の組み合わせに対応する「銘柄」を出力させることが出来る。これによって、素人の嗜好情報を基に、その嗜好に対応する「銘柄」が把握できる。フィルタをかけた後の出力例について示すと次のようになる。
以下に検索結果について紹介する。
先ず、素人語彙から専門家語彙への対応語句を検索する例について示す。
日本のサイトを「日本酒」を例にとって検索した場合、素人が使用する語彙として、「厚い」、「豊か」、「淡麗」、「さらりと」、「美味」、「深み」等が検出された。これらの素人語彙に対応する専門家語彙、すなわち、銘柄としては、例えば、「厚い」、「豊か」に対応する銘柄として「磯自慢」が、「淡麗」、「さらりと」に対応する銘柄としては「越乃梅里」が、「美味」、「深み」等に対応する銘柄としては「賀茂緑」等が検索された。
日本のサイトを「ワイン」を例にとって検索した場合、素人が使用する語彙として、「美味」、「濃い」、「旨み」、「すっぱい」、「舌触り」、「キレ」、「ぴったり」、「深み」、「さわやか」、「柔らか」、「まろやか」等が検出された。これらの素人語彙に対応する専門家語彙、すなわち、銘柄としては、例えば、「美味」、「濃い」、「旨み」、「すっぱい」等に対応する銘柄として「オーボンクリマ」が、「舌触り」、「キレ」、「ぴったり」、「深み」、「さわやか」、「柔らか」、「まろやか」等に対応する銘柄として「ゾネブルーム」等が検索された。
次に、専門家語彙から素人語彙への対応語句を検索する例について説明する。
日本のサイトを「日本酒」を例にとって検索した場合、専門家語彙、すなわち、銘柄として、「加賀鳶」、「花の舞」、「角太」等を選択した場合、これらの銘柄に対応する素人語彙として、例えば、「加賀鳶」に対応する素人語彙としては「美味しい」、「みずみずしい」等が、「花の舞」に対応する素人語彙としては、「上品」、「淡麗」等が、「角太」に対応する素人語彙としては、「柔らか」、「なめらか」、「さわやか」、「素晴らしい」等の語彙が検出された。
日本のサイトを「ワイン」を例にとって検索した場合、専門家語彙、すなわち、銘柄として、「コルタッサラ」、「サンソニエール」等を選択した場合、これらの銘柄に対応する素人語彙として、例えば「コルタッサラ」に対応する素人語彙としては、「淡い」、「気品」、「ほのか」、「軽い」、「心地よい」等の語彙が、「サンソニエール」に対応する素人語彙としては、「ほろ苦い」、「辛い」、「上品」、「優雅」等の語彙が検出された。
以上説明したように、素人語彙から専門家語彙への対応語句、及び、専門家語彙から素人語彙への対応語句それぞれの語について、変換の候補となる語彙を数値の高い順に取り出すことによって適切な語彙の選択が可能となる。
本発明を実施する全体システムを示す図である。 本発明を実施する装置を示す図である。 本発明の全体のアルゴリズムを示すフローチャートである。 検索された文書からノイズ文書を除去するフローチャートである。 文書の順位相関係数及び有意度を求めるフローチャートある。 文書を専門家文書及び素人文書に分類するフローチャートである。 MLR法を用いた語彙変換方法を示すフローチャートである。 専門家語彙行列を示す図である。 素人語彙行列を示す図である。 語彙変換行列を示す図である。 語彙変換行列を求めるアルゴリズムである。
符号の説明
110:ユーザPC
120:サイトサーバ(1)
130:サイトサーバ(2)
140:ネットワーク
200:筐体
210:記憶装置
220:メインメモリー
230:出力装置
240:中央制御装置(CPU)
250:操作装置
260:ネットワークI/O

Claims (3)

  1. 用語リストに基づき検索された共通の話題を有する第1の文書と第2の文書から、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙、又は、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙を検出する装置であって、
    (a)第1の文書から、第1の語彙リストに記載されている各語彙の発生頻度を基に、第1の語彙行列を作成する手段と、
    (b)第2の文書から、第2の語彙リストに記載されている各語彙の発生頻度を基に、第2の語彙行列を作成する手段と、
    (c)前記第1の語彙行列及び前記第2の語彙行列の積から語彙変換行列を求める手段と、
    (d)前記語彙変換行列の着目する行の中から値の大きい語彙を所定数選択し、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙とする手段と、
    (e)前記語彙変換行列の着目する列の中から値の大きい語彙を所定数選択し、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙とする手段と
    を有し、
    前記第1の語彙行列は、sを前記用語リストの数、及び、nを第1の文書から選択された語彙数としたとき、s行n列の行列Pで表され、前記行列Pの構成要素は、前記第1の文書のk番目の文書に現れるi番目の語彙の頻度をExp(k,i) 、前記語彙の全体の頻度をEtf(i)、k番目の文書に生じる語の総数をEwf(k)としたとき、
    Figure 0004634736
    前記第2の語彙行列は、sを前記用語リストの数、及び、mを第2の文書から選択された語彙数としたとき、s行m列の行列Qで表され、前記行列Qの構成要素は、前記第2の文書のk番目の文書に現れるr番目の語彙の頻度をNaive(k,r)、前記語彙の全体の頻度をNtf(r)、k番目の文書に生じる語彙の総数をNwf(k)としたとき、
    Figure 0004634736
    で与えられる
    装置。
  2. コンピュータにより、用語リストに基づき検索された共通の話題を有する第1の文書と第2の文書から、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙、又は、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙を検出する方法であって、
    (a)第1の文書から、第1の語彙リストに記載されている各語彙の発生頻度を基に、第1の語彙行列を作成するステップと、
    (b)第2の文書から、第2の語彙リストに記載されている各語彙の発生頻度を基に、第2の語彙行列を作成するステップと、
    (c)前記第1の語彙行列及び前記第2の語彙行列の積から語彙変換行列を求めるステップと、
    (d)前記語彙変換行列の着目する行の中から値の大きい語彙を所定数選択し、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙とするステップと、
    (e)前記語彙変換行列の着目する列の中から値の大きい語彙を所定数選択し、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙とするステップと
    を含み、
    前記第1の語彙行列は、sを前記用語リストの数、及び、nを第1の文書から選択された語彙数としたとき、s行n列の行列Pで表され、前記行列Pの構成要素は、前記第1の文書のk番目の文書に現れるi番目の語彙の頻度をExp(k,i) 、前記語彙の全体の頻度をEtf(i)、k番目の文書に生じる語の総数をEwf(k)としたとき、
    Figure 0004634736
    前記第2の語彙行列は、sを前記用語リストの数、及び、mを第2の文書から選択された語彙数としたとき、s行m列の行列Qで表され、前記行列Qの構成要素は、前記第2の文書のk番目の文書に現れるr番目の語彙の頻度をNaive(k,r)、前記語彙の全体の頻度をNtf(r)、k番目の文書に生じる語彙の総数をNwf(k)としたとき、
    Figure 0004634736
    で与えられる
    方法。
  3. コンピュータに、用語リストに基づき検索された共通の話題を有する第1の文書と第2の文書から、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙、又は、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙を検出させるプログラムであって、
    (a)第1の文書から、第1の語彙リストに記載されている各語彙の発生頻度を基に、第1の語彙行列を作成するステップと、
    (b)第2の文書から、第2の語彙リストに記載されている各語彙の発生頻度を基に、第2の語彙行列を作成するステップと、
    (c)前記第1の語彙行列及び前記第2の語彙行列の積から語彙変換行列を求めるステップと、
    (d)前記語彙変換行列の着目する行の中から値の大きい語彙を所定数選択し、前記第2の文書の着目する語彙に対応する前記第1の文書の語彙とするステップと、
    (e)前記語彙変換行列の着目する列の中から値の大きい語彙を所定数選択し、前記第1の文書の着目する語彙に対応する前記第2の文書の語彙とするステップと
    を前記コンピュータに実行させ
    前記第1の語彙行列は、sを前記用語リストの数、及び、nを第1の文書から選択された語彙数としたとき、s行n列の行列Pで表され、前記行列Pの構成要素は、前記第1の文書のk番目の文書に現れるi番目の語彙の頻度をExp(k,i) 、前記語彙の全体の頻度をEtf(i)、k番目の文書に生じる語の総数をEwf(k)としたとき、
    Figure 0004634736
    前記第2の語彙行列は、sを前記用語リストの数、及び、mを第2の文書から選択された語彙数としたとき、s行m列の行列Qで表され、前記行列Qの構成要素は、前記第2の文書のk番目の文書に現れるr番目の語彙の頻度をNaive(k,r)、前記語彙の全体の頻度をNtf(r)、k番目の文書に生じる語彙の総数をNwf(k)としたとき、
    Figure 0004634736
    で与えられる
    プログラム。
JP2004127122A 2004-04-22 2004-04-22 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム Expired - Fee Related JP4634736B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2004127122A JP4634736B2 (ja) 2004-04-22 2004-04-22 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム
US11/103,567 US7565361B2 (en) 2004-04-22 2005-04-12 Method and system for lexical mapping between document sets having a common topic
EP05252402A EP1589443A3 (en) 2004-04-22 2005-04-18 Method, system or memory storing a computer program for document processing
KR1020050033008A KR20060047306A (ko) 2004-04-22 2005-04-21 문서 검색 및 분류 방법 및 그 시스템, 문서 처리 방법 및그 시스템 또는 메모리
CN2005100674310A CN1691007B (zh) 2004-04-22 2005-04-22 用于文档处理的方法和系统
US12/472,203 US8065306B2 (en) 2004-04-22 2009-05-26 Method and system for lexical mapping between document sets having a common topic

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004127122A JP4634736B2 (ja) 2004-04-22 2004-04-22 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム

Publications (3)

Publication Number Publication Date
JP2005309853A JP2005309853A (ja) 2005-11-04
JP2005309853A5 JP2005309853A5 (ja) 2007-06-14
JP4634736B2 true JP4634736B2 (ja) 2011-02-16

Family

ID=34940882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004127122A Expired - Fee Related JP4634736B2 (ja) 2004-04-22 2004-04-22 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム

Country Status (5)

Country Link
US (2) US7565361B2 (ja)
EP (1) EP1589443A3 (ja)
JP (1) JP4634736B2 (ja)
KR (1) KR20060047306A (ja)
CN (1) CN1691007B (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4634736B2 (ja) * 2004-04-22 2011-02-16 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム
JP4172801B2 (ja) * 2005-12-02 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストからキーワードを検索する効率的なシステム、および、その方法
CN1845104B (zh) * 2006-05-22 2012-04-25 赵开灏 信息智能检索加工的系统和方法
US8340957B2 (en) * 2006-08-31 2012-12-25 Waggener Edstrom Worldwide, Inc. Media content assessment and control systems
JPWO2008053910A1 (ja) * 2006-10-31 2010-02-25 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 語彙空間での語彙の相対位置を求める装置・方法・プログラム
US20100076938A1 (en) * 2007-01-12 2010-03-25 Nec Corporation Protocol mismatch detection system, protocol mismatch detection method, and protocol mismatch detection program
TW200923807A (en) * 2007-11-23 2009-06-01 Inst Information Industry Method and system for searching knowledge owner in network community
US8290961B2 (en) * 2009-01-13 2012-10-16 Sandia Corporation Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix
CA2720842A1 (en) * 2009-11-10 2011-05-10 Hamid Hatami-Hanza System and method for value significance evaluation of ontological subjects of network and the applications thereof
US9418114B1 (en) 2013-06-19 2016-08-16 Google Inc. Augmenting a content item using search results content
IN2013MU02217A (ja) 2013-07-01 2015-06-12 Tata Consultancy Services Ltd
US9305307B2 (en) 2013-07-15 2016-04-05 Google Inc. Selecting content associated with a collection of entities
US9342839B2 (en) 2013-07-16 2016-05-17 Google Inc. Combining content with a search result
US9298779B1 (en) 2013-07-16 2016-03-29 Google Inc. Combining content with a search result
US9436946B2 (en) 2013-07-31 2016-09-06 Google Inc. Selecting content based on entities present in search results
US9367529B1 (en) 2013-07-31 2016-06-14 Google Inc. Selecting content based on entities
US20150120620A1 (en) * 2013-10-29 2015-04-30 Brett Aaron Rutledge Systems and methods for assessing alignment of an entity
EP3063669A4 (en) * 2013-10-31 2017-04-26 Hewlett-Packard Enterprise Development LP Classifying document using patterns
US9563664B2 (en) 2014-12-23 2017-02-07 Business Objects Software, Ltd. Semantic filtering in data matching
KR102468930B1 (ko) 2015-02-09 2022-11-23 특허법인(유한) 해담 관심대상 문서 필터링 시스템 및 그 방법
US20160314122A1 (en) * 2015-04-24 2016-10-27 Microsoft Technology Licensing, Llc. Identifying experts and areas of expertise in an organization
US10152474B2 (en) 2015-08-28 2018-12-11 Accenture Global Services Limited Automated term extraction
KR20180072167A (ko) 2016-12-21 2018-06-29 특허법인 해담 유사특허 추출 시스템 및 그 방법
US10878058B2 (en) * 2017-06-16 2020-12-29 T-Mobile Usa, Inc. Systems and methods for optimizing and simulating webpage ranking and traffic
CN108280902A (zh) * 2018-01-19 2018-07-13 京东方科技集团股份有限公司 车载监控设备的文件处理方法及装置、车载监控设备
US10824661B1 (en) * 2018-04-30 2020-11-03 Intuit Inc. Mapping of topics within a domain based on terms associated with the topics

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274541A (ja) * 1993-03-17 1994-09-30 Nippon Steel Corp 文献検索システム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778362A (en) * 1996-06-21 1998-07-07 Kdl Technologies Limted Method and system for revealing information structures in collections of data items
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US6112021A (en) * 1997-12-19 2000-08-29 Mitsubishi Electric Information Technology Center America, Inc, (Ita) Markov model discriminator using negative examples
US6363377B1 (en) * 1998-07-30 2002-03-26 Sarnoff Corporation Search data processor
DE60044220D1 (de) * 1999-01-26 2010-06-02 Xerox Corp Multimodaler Informationzugriff
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6336117B1 (en) * 1999-04-30 2002-01-01 International Business Machines Corporation Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine
JP2002236681A (ja) 2001-02-09 2002-08-23 Inst Of Physical & Chemical Res 日常言語コンピューティングシステムおよびその方法
JP2002328920A (ja) 2001-05-07 2002-11-15 Atr Onsei Gengo Tsushin Kenkyusho:Kk 対訳文の単語対応付け方法
US7072883B2 (en) * 2001-12-21 2006-07-04 Ut-Battelle Llc System for gathering and summarizing internet information
JP3726263B2 (ja) * 2002-03-01 2005-12-14 ヒューレット・パッカード・カンパニー 文書分類方法及び装置
US6910037B2 (en) * 2002-03-07 2005-06-21 Koninklijke Philips Electronics N.V. Method and apparatus for providing search results in response to an information search request
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
JP4634736B2 (ja) 2004-04-22 2011-02-16 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274541A (ja) * 1993-03-17 1994-09-30 Nippon Steel Corp 文献検索システム

Also Published As

Publication number Publication date
JP2005309853A (ja) 2005-11-04
EP1589443A3 (en) 2007-02-28
US7565361B2 (en) 2009-07-21
US20090292697A1 (en) 2009-11-26
KR20060047306A (ko) 2006-05-18
US20050240394A1 (en) 2005-10-27
CN1691007B (zh) 2010-06-16
US8065306B2 (en) 2011-11-22
EP1589443A2 (en) 2005-10-26
CN1691007A (zh) 2005-11-02

Similar Documents

Publication Publication Date Title
JP4634736B2 (ja) 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム
US11048882B2 (en) Automatic semantic rating and abstraction of literature
Benamara et al. Sentiment analysis: Adjectives and adverbs are better than adjectives alone.
Lebart et al. Exploring textual data
US5559940A (en) Method and system for real-time information analysis of textual material
JP4129987B2 (ja) テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム
US6556987B1 (en) Automatic text classification system
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US20020099730A1 (en) Automatic text classification system
Rosso et al. Shakespeare and other English Renaissance authors as characterized by Information Theory complexity quantifiers
Grobelnik et al. Automated knowledge discovery in advanced knowledge management
JP2001075966A (ja) データ分析システム
Ahlgren Research on sentiment analysis: the first decade
Barzegar et al. SemR-11: A multi-lingual gold-standard for semantic similarity and relatedness for eleven languages
Fišer et al. Distributional modelling for semantic shift detection
Cabana et al. The" Small World of Words" free association norms for Rioplatense Spanish
JP5146108B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
CN111259136B (zh) 一种基于用户偏好自动生成主题评价摘要的方法
WO2007010836A1 (ja) コミュニティ特有表現検出装置及び方法
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Dray et al. Opinion mining from blogs
CN114548694A (zh) 社会化回答式网络心理咨询服务质量评估模型的构建方法
Green Vocabulary alignment via basic level concepts
Sridharan et al. Modeling word meaning: Distributional semantics and the corpus quality-quantity trade-off
Irfan et al. Refining Kea++ automatic keyphrase assignment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070420

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070420

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071220

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091130

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101116

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101119

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees