JP4705430B2 - 距離の概念に基づく言語処理装置 - Google Patents

距離の概念に基づく言語処理装置 Download PDF

Info

Publication number
JP4705430B2
JP4705430B2 JP2005219908A JP2005219908A JP4705430B2 JP 4705430 B2 JP4705430 B2 JP 4705430B2 JP 2005219908 A JP2005219908 A JP 2005219908A JP 2005219908 A JP2005219908 A JP 2005219908A JP 4705430 B2 JP4705430 B2 JP 4705430B2
Authority
JP
Japan
Prior art keywords
character
character string
input
stored
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005219908A
Other languages
English (en)
Other versions
JP2007034870A (ja
Inventor
秀彦 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TEAM LAB Inc
Original Assignee
TEAM LAB Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TEAM LAB Inc filed Critical TEAM LAB Inc
Priority to JP2005219908A priority Critical patent/JP4705430B2/ja
Publication of JP2007034870A publication Critical patent/JP2007034870A/ja
Application granted granted Critical
Publication of JP4705430B2 publication Critical patent/JP4705430B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、幾何学的手法を用いて単語間の距離を算出することによる単語の揺らぎを補正するための装置や類似度を算出するための装置などに関する。
キーワード入力による情報検索装置では、キーワードの表記の揺れなどにより検索洩れが生じることがある。このような検索漏れを解消するために,種々の類似キーワード・検索装置が考案されている。
例えば,ある類似キーワード・検索装置は,入力キーワードに合致する文字列が検索対象の文書中に存在しない場合(つまり「ヒット」しない場合)に、その入力キーワードに類似した文字列を自動的に判定・抽出し、この類似文字列をキーワードとして新たに検索を行う。また、「ヒット」があった場合でも、他にそのキーワードに類似したキーワードがあれば、これも検索の対象にする。
このような装置において,様々な類似キーワードを判定する方法が考案されている。たておば、起こりやすい文字列の置換えを規則化しておき、これを入力キーワードに適用するものがある。この方法では、置き換えによって得られた様々な文字列を、データベースの辞書(単語インデックス)などと比較し、語彙中にあるものを類似文字列とみなす。一方、入力文字列と単語インデックスのエントリを文字単位に対応付けて比較し、類似したものを類似文字列として用いるものもある。
類似キーワードを判定する場合において、上述したように文字列の置換えを規則化する方法では、置換え規則のメンテナンスが面倒である。また、置換え規則が適当でない場合は,ヒットしないこととなり,類似キーワードを出力できない。実際、入力キーワードがヒットしない原因が、新語や造語、固有名詞などにあることが多いので、置換え規則による方法では対応しきれない場合がある。
そこで,キーワードの表記の揺れなどにより検索洩れが生じることのないように、入力キーワードに類似したキーワードを的確に判定、出力することができる類似文字列検索装置が研究された。このような例として,特許第3531222号公報(下記特許文献1)には以下の発明が開示されている。すなわち、入力文字列に類似した文字列を出力する機能を有する類似文字列検索装置において、ある文字と置換可能な文字を対応づけた文字置換表と、入力文字列を構成する文字の一覧と、前記各文字の前記入力文字列中の出現位置を示す情報とを保持する入力文字列の文字成分表に、前記文字置換表を参照して前記入力文字列に置換可能な文字がある場合には前記入力文字列中の置き換えられる文字の出現位置を置換文字の出現位置として、置換文字とその出現位置を示す情報とを追加した文字成分表を作成する文字成分表作成部と、様々な文字列を登録した辞書と、前記辞書に登録された文字列の各文字毎に文字成分表を検索し、検索した文字が存在する場合には、その文字の出現位置を取り出して、前記辞書に登録された文字列と入力文字列の各文字の一対一対応を表す文字列対応表を作成する文字列対応表作成部と、前記辞書の各登録文字列毎に、入力文字列と登録文字列との類似度の評価値を、入力文字列と登録文字列の全ての文字が最適対応文字として対応したときの値から、前記文字列対応表をもとに対応しない文字分の減点を行うことで求め、置換文字を置換するときの減点の値を文字に食い違いがあるとき減点の値よりも少なくすることで、起こり易い文字置換を反映した形で入力文字列と各登録文字列との類似度を判定する類似度判定部とを設けることを特徴とする類似文字列検索装置である(下記特許文献1の請求項1を参照)。
しかしながら,このような類似文字列検索装置では,置換文字を置換するための文字置換表を参照して置換文字群を作成しなければならず,類似度を評価するために多くの計算を必要とするので,類似度の高い文字列を迅速に検索できないという問題がある。
特許第3531222号公報
本発明は、基本的には,迅速かつ簡単に類似文字列を検索できる文字評価システムを提供することを目的とする。
本発明は入力単語を,あらかじめ登録した単語に補正することができ,同一の観念を持つ語に対して様々な単語が入力されるアンケートデータを容易に集計できる評価システムを提供することを上記とは別の目的とする。
本発明は,入力文字列をあらかじめ登録した文字列に補正でき,単語の自動補正機能を有するシステムを提供することを上記とは別の目的とする。
上記の課題は,基本的には,対比する二つの文字列の"距離"を求め,その距離に基づく評価値を類似度とし,その評価値を比較することにより類似度を評価するシステムにより解決される。
本発明のシステムによれば,置換文字表を必須とせずに,文字の"距離"という概念に基づいて,類似度を評価するので,置換文字表によって作成された複数の置換文字群の類似度を評価する必要がなくなり,また簡便なアルゴリズムにより類似度を評価できることとなる。よって,本発明のシステムは,実装が容易となり,また迅速かつ適格に類似度を評価でき,類似度の高い文字列を検索・抽出できることとなる。
本発明のシステムによれば,入力文字列を,記録文字列のうち評価度の最も小さい文字列に置換させる置換手段によって,入力文字列をあらかじめ登録した登録文字列に補正することができるので,同一の観念を持つ語に対して様々な単語が入力されるアンケートデータを容易に集計するシステムなどとして利用されうる。
また,本発明のシステムによれば,入力文字列を,記録文字列のうち評価度の最も小さい文字列に置換させる置換手段によって,あらかじめ登録した単語に補正できるので,単語の自動補正機能を有するワープロソフトとして利用されうる。また,本発明のシステムでは,様々な単語を含むデータベースに記憶される各単語と,入力された単語の類似度を求めることができ,さらに選択される語の類似度を設定できるので,インターネットのサーチエンジンにおける検索システムとして利用されうる。
以下,図面に基づいて,本発明の第一の態様(パターン例)に係る評価システムを説明する。図1は,本発明の第一の態様に係る評価システムのブロック図である。第一の態様に係る評価システムは,特に同じ文字数の入力文字列と記憶文字列との類似度を評価する場合に有効である。図1に示されるように第一の実施の形態に係るシステム1は,文字列を入力するための文字列入力手段2と,前記文字列入力手段により入力された入力文字列を構成する文字数を算出する文字数算出手段3と,前記文字列入力手段により入力された入力文字列の各文字に対して,その先頭の文字を0とし,その末尾の文字を1とし,前記文字数算出手段が算出した文字数をNとすると,その先頭と末尾との間の文字が等間隔となるように,前記文字列の第n番目の文字に対して,n/Nの数値を割り当てるための数値割り当て手段4と,様々な記憶文字列と,前記記憶文字列の各文字に対して,その先頭の文字を0とし,その末尾の文字を1とし,その先頭と末尾との間の文字が等間隔となるように,前記記憶文字列の文字数をMとしたときに,前記記憶文字列の第m番目の文字に対して,m/Mの数値を割り当て記憶するための記憶手段5と,前記入力文字列を構成する各文字と,前記辞書に記憶される記憶文字列を構成する各文字が一致するかどうか判断する文字一致性判断手段6と,前記文字一致性判断手段が一致する文字があると判断した場合,入力文字列の各文字に割り当てられた数値の差を求めるための差分手段7と,前記差分手段が求めた差の値を二乗するための二乗手段8と,前記二乗手段が求めた各文字についての値の和を算出することにより評価値を求めるための評価値算出手段9と,を備えた入力文字列と記憶文字列の類似度を評価するための評価システムである。なお,図中10は,ROM,RAM,外部メモリ,ハードディスクなどのメモリを示し,11はプリンタ,モニタ,外部端末などの出力装置を示す。
なお,本発明の評価システムは,パーソナルコンピュータなどのコンピュータであっても良いし,インターネットやイントラネットに連結されたコンピュータサーバなどであっても良い。図2は,インターネットに接続されたコンピュータである本発明のシステムの例を示す図である。図2に示されるように,本発明のコンピュータ21は,インターネット網22を介して,ほかのコンピュータ23と接続されている。接続様式は,特に限定されず,無線LANなどによって接続されてもよく,また携帯電話などと情報の授受ができるようにされていても良い。なお,このようなコンピュータは,たとえば,コンピュータを上記の各手段として機能させるプログラムを記憶したメインメモリと,情報をシステムに入力するための入力装置と,情報をシステム外に出力するための出力装置と,情報を一時的又は半永久的に記憶するデータベースなどの記憶装置と,各種演算処理を行う中央処理装置(CPU)とを具備するものとして構成される。
以下では,第一の態様に係る本発明のシステムの動作例を説明する。図3は,この動作を説明するためのフローチャートである。なお,図3において,Sはステップを意味する。本発明のシステムは,まず,入力装置などの文字列入力手段がシステムに文字列を入力する(S101)。この文字列を"入力文字列"とよぶ。たとえば,インターネットに接続されたサーバに文字列が入力されてもよいし,コンピュータなどに文字列が入力されてもよい。ここでは,文字列"ABC"がコンピュータに入力されたとする。
次に,文字数算出手段が,入力文字列の文字数を算出する(S102)。文字列を算出するための文字数算出回路などのハードウェアによって文字列を算出してもよい。また,CPUなどの文字数算出手段が,メインメモリ中の制御プログラムの指令を受け,入力文字列の文字数を算出してもよい。本明細書では,入力文字列の文字数をNとする。入力文字列"ABC"であれば,文字数は3と算出される。この場合,たとえば入力文字列"ABC"を一文字ずつ分離し,分離できた回数をもって文字数とすればよい。そして,n番目の文字にはnの順番が振られる。たとえば,先の例では,各文字には1番目から3番目までの順番が振られる。
数値割り当て手段が,前記文字列入力手段により入力された入力文字列の各文字に対して,その先頭の文字を0とし,その末尾の文字を1とし,その先頭と末尾との間の文字が等間隔となるように,前記文字数算出手段が算出した文字数をNとすると,前記文字列の第n番目の文字に対して,(n−1)/(N−1)の数値(座標値)を割り当てる(S103)。CPUなどの文字数算出手段が,メインメモリ中の制御プログラムの指令を受け,上記の数値を割り当てても良い。たとえば,差分回路や差分プログラムにより,n−1及びN−1の値を求め,除算回路や除算プログラムにより(n−1)/(N−1)の数値を求めればよい。また,文字数とその文字数における各文字の座標値を記憶したテーブルを用意し,そのテーブルから座標値を読み出しても良い。なお,Nは,20以下の数があげられ,15以下であれば好ましい。たとえば,上記の入力文字列"ABC"については,文字Aに対して0を割り当て,文字Bに対して1/2から0.5を割り当て,文字Cに対して1を割り当てる。これを,(A,B,C)=(0,0.5,1)のようにあらわす。なお,入力文字列が"ABCDE"の場合は (A,B,C,D,E)= (0,0.25,0.5,0.75,1)というように数値を割り当てればよい。
一方,記憶辞書やデータベースなどの記憶手段には,様々な記憶文字列が記憶されており,前記記憶文字列の各文字に対して,その先頭の文字を0とし,その末尾の文字を1とし,その先頭と末尾との間の文字が等間隔となるように,前記記憶文字列の文字数をMとしたときに,前記記憶文字列の第m番目の文字に対して,(m−1)/(M−1)の数値が割り当てられて記憶されている。このような情報は,コンピュータなどのハードディスク,ROMなどに記憶されていてもよい。記憶文字列は,記憶文字列,記憶文字列を構成する各文字,各文字列の文字数,文字列を構成する各文字の座標値が関連付けられて記憶されていることが好ましく,たとえばテーブルやデータベースとして記憶されることが好ましい。データベースとして情報を記憶する場合、データを分類し・整理するデータモデルとして、階層データモデル、ネットワークデータモデル、リレーショナルデータモデルといった公知のデータモデルを用いることができる。これらの中でも、リレーショナルデータモデルが,データをアプリケーションから容易に独立させることができ、入力情報に応じた新たな表を容易に作成でき、データ操作が容易である点で特に好ましい。
ここで、リレーショナルデータモデルとは、2次元の表(テーブル)の概念を利用し、表の縦一列を項目、横一列がレコードにあたるようにデータを管理するデータモデルである。射影、選択、結合、商などの演算処理を用いて表から任意のデータを取り出して、新しい表(ビュー表等)を作成することができる。また、複数の表からデータを抽出して新たな表を作成することもできる。表は、複数の組からなる。それぞれの組は、複数の情報からなり、行(ロー)を構成する。そして、表の縦の列には同じ属性のデータが整理され列(カラム)を構成する。それぞれの組には、管理のための数値(インデックス)等が振られており、複数の組の当該数値は、定義域(ドメイン)を構成していることが好ましい。インデックスを設定することは、データの記憶装置上の格納位置にすばやくたどりつけるため好ましい。インデックスが振られていない場合、データベースは、キーワードなどを利用して情報を検索できるように体系的に構成されていることが好ましい。リレーショナルデータベースの各指令は,たとえばSQLなどの言語で作成されればよい。
たとえば,記憶手段に"ABC",及び"ACB"が記憶されていたとする。この場合,(A,B,C)=(0,0.5,1)が記憶され,(A,C,B)=(0,0.5,1)と記憶される。上記の情報がリレーショナルデータベースに記憶される場合,例えば,記憶文字列ABC,文字数3,Aの座標値(0),Bの座標値(0.5),及びCの座標値(1)が関連付けられて記憶され,それぞれが組を構成する。
文字一致性判断手段が,前記入力文字列を構成する各文字と,前記辞書に記憶される記憶文字列を構成する各文字が一致するかどうか判断する(S104)。この文字一致性判断手段は,文字一致性を判断する回路などのハードウェアによって構成されてもよい。また,CPUなどが,メインメモリ中の制御プログラムの指令を受け,文字の一致性を判断するものであってもよい。このようなプログラムは,たとえばエクセル(登録商標),アクセス(登録商標)など公知のプログラムを用いて容易に作成できる。
文字一致性判断手段が前記入力文字列のいずれかの文字と,前記記憶文字列を構成する文字とが一致すると判断した場合,差分手段が,入力文字列の文字に割り当てられた数値と,記憶文字列を構成する文字のうち当該入力文字列の文字と一致する文字の数値との差を求める(S105)。差分手段は,数値の差分値を求める差分回路であってもよいし,差分値を記憶したテーブルによって差分値が求められてもよい。いずれにせよ,2つの座標値が回路又はテーブルに入力され,それに応じた差分値が求められることとなる。なお,差分手段は,コンピュータを差分値を求める手段として機能させるプログラムによって達成されてもよい。このようなプログラムは,公知のプログラムを用いて容易に作成できる。
たとえば,入力文字列,記憶文字列ともに"ABC"の場合,各文字の差分値Δは,Δ=(0,0,0)となる。一方,入力文字列が"ABC"であり,記憶文字列が"ACB"の場合は,Δ=(0,−0.5,0.5)となる。
二乗手段が,前記差分手段が求めた差の値を二乗し差分値の二乗の値を求める(S106)。二乗手段は,二乗値を求めるための二乗回路であってもよいし,入力値の2乗の値を記憶したテーブルによって構成され,二乗値が求められてもよい。また,二乗手段は,CPUなどが,メインメモリ中の制御プログラムの指令を受け二乗値を求めるためのものであってもよい。このようなプログラムは,公知のプログラムを用いて容易に作成できる。
たとえば,入力文字列,記憶文字列ともに"ABC"の場合,各文字の差分値Δは,Δ=(0,0,0)であった。したがって,各文字の差分値を2乗した値もそれぞれ0となる。一方,入力文字列が"ABC"であり,記憶文字列が"ACB"の場合は,差分値Δ=(0,−0.5,0.5)であった。したがって,入力文字列"ABC"の各文字の二乗値は,それぞれ(0,0.25,0.25)となる。
評価値算出手段が,前記二乗手段が求めた各文字についての値の和を算出することにより評価値を求める(S107)。このような評価値算出手段は,和を求めるための回路であってもよいし,和の値を記憶したテーブルなどのハードウェアであってもよい。また,CPUなどが,メインメモリ中の制御プログラムの指令を受け,各差分値の和を求めるものであっても良い。このようなプログラムは,公知のプログラムを用いて容易に作成できる。なお,求めた評価値は,記憶文字列と関連して,メモリなどに記憶される。そして,求めた評価値又はその記憶文字列は,出力装置により出力される。具体的には,モニタに表示されたり,プリンタに印字されたりする。また,情報がウェブサイトにアップロードされてもよい。
たとえば,入力文字列,記憶文字列ともに"ABC"の場合,各文字の差分値を2乗した値が全て0となる。したがって,それらの和である評価値も0となる。一方,入力文字列が"ABC"であり,記憶文字列が"ACB"の場合は,入力文字列"ABC"の各文字に対する差分値の2乗の値は,それぞれ(0,0.25,0.25)となる。よって,評価値は,それらの和であるから,0.5となる。すなわち,入力文字列と記憶文字列とが完全に一致している場合は,評価値が0となり,それからずれると評価値が大きくなる。このように本システムによれば,入力文字列と記憶文字列の類似度を評価することができる。なお,本システムでは,座標値の差を求めその値を2乗し,2乗した値を足し合わせている。これは,あたかも距離(の2乗)をもとめて,距離(の2乗)を比較しているようにも見える。以上が,本発明のシステムが,距離の概念に基づいて,文字の類似度を評価すると見るゆえんである。
なお,上記の例では,座標値の差を求めその値を2乗し,2乗した値を足し合わせて評価値とした。しかし,この評価値を仮の評価値とし,仮の評価値を所定の数(たとえば,N,M,又はN+M)で割ったものを評価値としてもよい。また,仮の評価値の平方根をもって評価値としても良い。さらには,1又はある数を,仮の評価値で割った値を評価値としても良い。この場合は,評価値が大きいほど,類似度が高くなる。
このようなシステムによれば,データベースに記憶される記憶文字列の中から,入力文字列と記憶文字列の類似度を評価できるので,評価値の低いものから表示することにより,ウェブサイトなどの検索エンジンに好ましく用いることができる。
第一の態様に係る評価システムの好ましい態様は,評価値を設定するための評価値設定手段と,前記表価値算出手段が算出した評価値である算出評価値と,前記評価値設定手段が設定した表価値である設定評価値とを比較するための評価値比較手段とをさらに具備し,前記評価値比較手段が比較した結果,前記算出表価値が前記設定表価値よりも小さな値であった場合に,前記記憶文字列を選択する上記の評価システムである。この態様に係る評価システムでは,評価値を設定することにより,入力文字列と関連する記憶文字列を選択できることとなる。
この態様のシステムでは,評価値設定手段あらかじめ評価値を設定する。この設定値は,入力手段が,所定値をサーバやコンピュータへ入力することにより適宜変更できる。すなわち,クライアントなどからサーバやコンピュータへ評価値を入力することにより,評価値が設定される。この設定評価値は,たとえばRAMなどに一時期的に記憶されてもよいし,ROMやハードディスクなどに長期的に記憶されてもよい。また,設定値に関する回路としてハードウェア的に設計されてもよい。
評価値設定手段の設定例として,設定評価値が0.7又は0.3があげられる。例えば設定評価値として0.7が,キーボードなどのポインティングデバイスにより打ち込まれ,コンピュータの入力装置によりシステムに入力される。
評価値比較手段は,前記表価値算出手段が算出した評価値である算出評価値と,前記評価値設定手段が設定した表価値である設定評価値とを比較する。この評価値比較手段は,比較回路として構成されてもよい。またCPUなどが,メインメモリ中の制御プログラムの指令を受け,記憶された設定評価値及び算出評価値を読み出し,算出評価値と設定評価値とを比較するものであっても良い。このようなプログラムは,公知のプログラムを用いて容易に作成できる。この比較結果は,メモリなどに記憶される。そして,選択手段としてのCPUなどは,メインメモリ中の制御プログラムの指令を受け,メモリなどに記憶された前記比較結果を読み出し,前記評価値比較手段が比較した結果,前記算出表価値が前記設定表価値よりも小さな値であった場合に,前記記憶文字列を選択する。このようにして,設定値をクリアーし,入力文字列と類似すると判断された記憶文字列が選択されることとなる。
たとえば,入力文字列,記憶文字列ともに"ABC"の場合,評価値が0となる。一方,入力文字列が"ABC"であり,記憶文字列が"ACB"の場合は,評価値が0.5となる。そうであれば,設定評価値が0.7のときは,記憶文字列"ABC",及び"ACB"ともに算出評価値が0.7以下なので,両方の文字列が選択される。一方,設定評価値が0.3のときは,記憶文字列"ABC"のみが,算出表価値が前記設定表価値よりも小さな値なので,類似する記憶文字列として選択される。
前記のシステムの好ましい別の態様は,前記選択手段が選択した記憶文字列が複数個ある場合に,各記憶文字列の算出評価値の小さな順に並び替えるソート手段を有するシステムである。このようなシステムでは,選択手段が選択した複数の記憶文字列を類似する順(すなわち評価値が小さい順)に並べることができる。たとえば,前記の算出評価値は,記憶文字列と関連してメモリなどに記憶されており,CPUなどは,メインメモリ中の制御プログラムの指令を受け,その算出評価値を比較し,その値が小さいものから順に並べ,その値に伴って,算出評価値の小さな記憶文字列から順に並べられる。
たとえば,入力文字列,記憶文字列ともに"ABC"の場合,評価値が0となる。一方,入力文字列が"ABC"であり,記憶文字列が"ACB"の場合は,評価値が0.5となる。そうであれば,設定評価値が0.7のときは,記憶文字列"ABC",及び"ACB"ともに算出評価値が0.7以下なので,両方の文字列が選択される。そして,算出評価値が低い順に並べ替えられる。すなわち,"ABC","ACB"の順とされる。
本システムの好ましい別の態様は,前記記憶文字列に,前記入力文字列のいずれかの文字が含まれていない場合,その含まれていない文字についての差分値を1とする評価システムである。このようにして評価値を算出するので,たとえば入力文字列が"ABC"で,記憶文字列が"ABD",又は"ADB"のような場合であっても評価値を算出できることとなる。たとえば,入力文字列の各文字と,記憶文字列の各文字とを比較し,入力文字列のうち,記憶文字列に含まれていないものがあれば,その情報をメモリなどに記憶する。そして、CPUなどは,メインメモリ中の制御プログラムの指令を受け,メモリに記憶されたその情報を読出し,その文字の差分値として,1を与える。そして,差分値が1という情報は,メモリなどに記憶される。
先ほどの例では,入力文字列のうち,文字Aと文字Bとは,記憶文字列中にも存在する。一方,入力文字列を構成する文字のうち,文字Cが記憶文字列に含まれていないので,文字Cについての差分値を1とする。すなわち,"ABD"の差分値Δは(0,0,1)となるので,評価値は1となる。一方,"ADB"の差分値は、(0、−0.5,1)となるので,評価値は1.25となる。そして,たとえば設定評価値が0,7などの場合,これらの記憶文字列はいずれも選択されないこととなる。
そして,この評価値とその評価値を与えた文字列は,評価値テーブルなどの評価値情報記憶手段に一時的又は半永久的に記憶されることとなる。そして,この評価値とその評価値を与えた記憶文字列(又は記憶文字列のみ)は,メインメモリ中の制御プログラムの指令を受けて読み出され,ディスプレイなどの表示手段に表示されることとなる。
なお,第一の態様に係るシステムの別の態様は,前記文字一致性判断手段が一致する文字があると判断した場合,前記差分手段が,前記記憶文字列の各文字の数値とそれに対応する入力文字列の各文字の数値の差を求めるものである。たとえば,たとえば入力文字列が"ABC"で,記憶文字列が"ABD"の場合,入力文字列には文字Dが含まれていない。そこで,文字列"ABD"についての差分値が(0,0,1)となり,記録文字列に基づく入力文字列の評価値が1となる。
第二の態様に係る本発明の評価システムは,前記差分手段が,入力文字列の各文字に割り当てられた数値と,記憶文字列のうち入力文字列の各文字と同じ文字に割り当てられた数値の差と;前記記憶文字列の各文字に割り当てられた数値と,前記入力文字列のうち記憶文字列の各文字と同じ文字に割り当てられた数値の差を求めるための手段であり,前記差分手段が求めた入力文字列の各文字に割り当てられた数値と,記憶文字列のうち入力文字列の各文字と同じ文字に割り当てられた数値の差の値を二乗し,それらの和を求めることで,仮の評価値を求め,その仮の評価値をNで割ることにより入力由来評価値を求める入力由来評価値算出手段と,前記記憶文字列の各文字に割り当てられた数値と,前記入力文字列のうち記憶文字列の各文字と同じ文字に割り当てられた数値の差の値を二乗し,それらの和を求めることで,仮の評価値を求め,その評価値をMであることにより記憶由来評価値を求める記憶由来評価値算出手段と,前記入力由来評価値算出手段が算出した入力由来評価値と、前記記憶由来評価値算出手段が算出した記憶由来評価値とを合わせて評価値とする上記に記載の評価システムである。
なお,仮の評価値を求める工程は,第一の態様において評価値を求める工程と同様である。それぞれの仮の評価値は除算回路や除算プログラムなどの除算手段よりN又はMで割った値が求められ,和算回路や和算プログラムなどの和算手段により評価値が求められる。このようなシステムでは,入力文字列の文字数や記憶文字数の文字数によらず,評価値が2に正規化されるので,適切に類似度を評価できる。なお,このシステムにおいて,評価値を最大1又は100などに修正するように,適宜除算又は乗算手段を組み合わせてもかまわない。
たとえば,入力文字列が"ABC"で,これを記憶文字列"ABDE"との類似度を評価するとする。"ABDE"の座標値は、(A,B,D,E)= (0,0.33,0.66,1)となる。入力文字列"ABC"に基づく"ABDE"の差分値Δは,(A,B,C)=(0,0.17,1)となる。それゆれ,仮の評価値は,0+0.17+1=1.0289となる。そして,これを3で割った値として,0.343が求められる。一方,文字列"ABDE"に基づく"ABC"の差分値Δは,(A,B,D,E)= (0,−0.17,1,1)となる。よってその仮の評価値は,0+0.17+1+1=2.0289となる。この値を4で割ると,0.572となる。したがって,この評価値は,0.343+0.572=0.915となる。
本発明の第三の態様に係る評価システムは,前記差分手段は,入力文字列の各文字に割り当てられた数値と,記憶文字列のうち入力文字列の各文字と同じ文字に割り当てられた数値の差と;前記記憶文字列の各文字に割り当てられた数値と,前記入力文字列のうち記憶文字列の各文字と同じ文字に割り当てられた数値の差を求めるための手段であり,前記差分手段が求めた入力文字列の各文字に割り当てられた数値と,記憶文字列のうち入力文字列の各文字と同じ文字に割り当てられた数値の差の値を二乗し,それらの和を求めることで,仮の評価値を求め,前記記憶文字列の各文字に割り当てられた数値と,前記入力文字列のうち記憶文字列の各文字と同じ文字に割り当てられた数値の差の値を二乗し,それらの和を求めることで,仮の評価値を求め,これらの仮の評価値の和を求め,当該和を(N+M)で割った値を求めて評価値とする上記に記載の評価システムである。仮の評価値を求める工程は,第一の態様において説明した工程を利用できる。
たとえば,入力文字列が"ABC"で,これを記憶文字列"ABDE"との類似度を評価するとする。"ABDE"の座標値は、(A,B,D,E)= (0,0.33,0.66,1)となる。入力文字列"ABC"からの差分値Δは,(A,B,C)=(0,0.17,1)となる。それゆれ,仮の評価値は,0+0.17+1=1.0289となる。一方,文字列"ABDE"からの差分値Δは,(A,B,D,E)= (0,−0.17,1,1)となる。よってその仮の評価値は,0+0.17+1+1=2.0289となる。仮の評価値の和は,3.0578である。これを7で割ると,0.4368が求められ,これが評価値となる。
本発明のシステムの好ましい別の態様は,前記のシステムにおいて,前記入力文字列又は前記記録文字列に,同じ文字が2つ以上含まれている場合,各文字に割り当てられた数値の差を求めるにあたり,差の絶対値が小さいほうの文字を用いて数値の差を求める評価システムである。このような構成を有するので,前記入力文字列又は前記記録文字列に,同じ文字が2つ以上含まれている場合であっても適切に評価値を求めることができることとなる。
この態様に係るシステムの動作として,以下のものがあげられる。各文字列に同じ文字が2つ以上含まれるかどうか判断する判断手段が,各文字列に同じ文字が2つ以上含まれるかどうか判断する。より具体的には,先頭文字が次の文字と同一か判断し,さらに先頭文字がさらに次の文字と同一かどうか判断するといった処理を繰り返す。そして,先頭文字がすべての文字と同一でないとわかった場合,2番目の文字と3番目の文字とが同一かどうか判断し,さらに2番目の文字が4番目の文字と同じかどうか判断する。このような処理を順次繰り返す。そして,文字列を構成するいずれか2つ以上の文字が同一と判断された場合も,通常の場合と同様に各文字に座標値を割り当てる。そして,差分値を求める際に,各文字の差分値の絶対値を求め,この差分値の絶対値を比較する比較回路や比較プログラムなどの比較手段により,差分値を比較する。そして,その差分値のうちもっとも小さいものを差分値として採用する。
たとえば,入力文字列が"ABB"の場合,先頭文字Aは,2番目の文字,3番目の文字と相違する。しかし,2番目の文字Bは,3番目の文字Bと一致する。したがって,文字列を構成する文字に同一のものがあるので,それを処理するため回路又はプログラムによる処理が行われることとなる。この場合も,通常の場合と同様に座標値を与える。すなわち,(A,B1,B2) =(0,0.5,1)とする。一方,記録文字列が"ABC"である場合は,(A,B,C) =(0,0.5,1)であるから,入力文字列(A,B,B)に基づく差分値は以下のように求められる。(A,B1,B2)の差分値Δ=(0,0,0.5)となる。よって,評価値は,0.25となる。一方,記録文字列(A,B,C)の差分値を求めることを考える。入力文字列のうちAの座標は0であり,入力文字列にはCの文字がない。よって,記録文字列のうち文字Aと文字Cの差分値は,それぞれ0及び1となる。一方,記録文字列の文字Bに対応する入力文字列の文字は文字B1及び文字B2の二つ存在する。そこで,本態様では,それら二つの文字に対する差分値を求める。すなわち,文字B1の座標値との差分値は,0.5−0.5=0となる。一方,文字B2の座標値との差分値は,0.5−1=−0.5となる。そして,それらの絶対値は,それぞれ0と0.5であるから,それらの絶対値を比較して,絶対値の小さい方である0を,文字Bの差分値として採用する。すなわち,記録文字列(A,B,C)に基づく差分値Δは,(0,0,1)となるので,記録文字列(A,B,C)の評価値は,0+0+1=1となる。上記のような処理は,たとえば,CPUなどが,計算に必要な情報をメモリから読み出し,メインメモリ中の制御プログラムの指令を受け,読み出した情報に基づいて評価値を求めればよい。
上記のような処理を行うシステムでは,例えば文字列(ABCDEF)と文字列(ABCDEA)とを比較する場合,(ABCDEF)に基づく差分値を算出する際に,(ABCDEA)の末尾のAの座標値を比較する事態を防止できるので,適切な評価値を算出できることとなる。
本発明の好ましい別の態様は,入力文字列を,記録文字列のうち評価度の最も小さい文字列に置換させる置換手段を具備するものである。このような置換手段によれば,入力文字列を,記録文字列のうち評価度の最も小さい文字列に置換させることができる。上記のような処理は,CPUが,所定の情報をメモリから読み出し,メインメモリ中の制御プログラムの指令を受け,入力文字列を記録文字列に変換すればよい。
この態様のシステムは,たとえば,ワードプロセッサのオートコレクトシステムとして利用されうる。また,ウェブサイトを用いたアンケートなどでは,たとえば "ルイヴィトン(登録商標)""ルイビトン",及び"ビトン"などの文字列が,同じ概念を指す語として入力される。このような入力文字列を,あらかじめ登録した記録文字列である"ルイヴィトン"(登録商標)に補正することができるので,同一の観念を持つ語に対して様々な単語が入力されるアンケートデータを容易に集計するシステムなどに有効である。
本発明の好ましい別の態様は,前記記憶手段が,様々な記憶文字列を記憶する手段であり,さらに前記記憶文字列の各文字に対して,その先頭の文字を0とし,その末尾の文字を1とし,前記記憶文字列の文字数をMとしたときに,その先頭と末尾との間の文字が等間隔となるように,前記記憶文字列の第m番目の文字に対して,(m−1)/(M−1)の数値を割り当てるための数値割り当て手段をさらに上記の評価システムがあげられる。
この態様に係る評価システムは,記憶文字列に対してあらかじめ数値を割り当てるのではなく,評価値を求めるにあたり,入力文字列のみならず,記憶文字列に対しても数値を割り当てる計算を行う。したがって,先に説明した態様にかかる評価システムに比べて処理速度が遅くなることが想定される。しかし,この態様に係るシステムでは,あらかじめ記憶文字列の座標値を設定する必要がないので,あらゆるデータベースなどに記憶された文字列と入力文字列との類似度を評価できることとなる。
本発明のシステムとして,共起関係の強さを考慮して評価値を求めるものは,本発明の好ましい別の態様である。共起関係とは,言語が運用される際に,統計的にある複数の属性の組合せが現れる頻度の高低を表現するものである。ある複数の属性の組合せが現れる頻度が高いほど,それらの属性の共起関係は強いとする。属性の重要度とは,検索者が指定した検索式が含む属性が,システムが生成する類似した検索式に含まれていることを,検索者がどれくらい望むかを表現するものである。検索者が指定した検索式が含む属性が,システムが生成する類似した検索式に含まれていることを,検索者が強く望む属性ほど,その属性の重要度は高い。
すなわち,ある検索式が複数の属性A1 ,…,Ar を含む時に、これら複数の属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,As-1 As+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度が高くなるように、重要度を計算し、異なる検索式間の類似度の計算は、類似度の評価尺度を属性の現れかたの類似性とし、前記検索式が前記複数の属性A1 ,…,Ar を含むなら、これら複数の属性A1 ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、前記ある属性As とは異なる任意の属性At と、前記その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似 度が高くなるようにして、求める検索式において、重要度がより低い属性を他の属性に置換するか、または、重要度がより低い属性を検索 式から除去するかいずれかの処理を行い、前記検索式と類似度が高い類似検索式を得ることを特徴とする類似検索方法(たとえば,特開平9−153068号公報,"類似検索方法及び装置"の請求項1に記載の発明)などを適宜利用すればよい。
類似検索式を求める場合、重要度がより低い属性を他の属性に置換するか,または,重要度がより低い属性を検索式から除去するかいずれかの処理を行い,検索者が入力した検索式と類似度の高い類似検索式を得る。ここで、類似度の評価尺度は属性の現れかたの類似性とする。即ち、検索式が複数の属性A1 ,…,Ar を含むなら,これら複数の属性A1 ,…,Ar のうち,ある属性As と,その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと,ある属性As とは異なる任意の属性At と,その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど,属性As と属性At の間の類似度が高いとすればよい。
このようにすれば,属性の間の重要度と類似度をシステム運用者が予め設定する必要がなくなり,属性の数が多くなっても装置の運用が困難にならず,また,重要度と類似度について多くの検索者の感覚が一致するという効果が得られる。
本発明の評価システムを,類似度算出部として用いることで,類似文字列検索システムを提供できる。
このような類似文字列検索システムは,たとえば,入力された文字列中からキーワードを抽出するキーワード抽出部と、階層的構造を持つデータベース中の注目している項目から所定の複数レベル下位の階層までの全ての項目を順次読み出す読出し部と、この読み出し部によって読み出した項目と、キーワードとの類似度を算出する類似度算出部と、この類似度算出部によって算出された類似度に基づいて、項目を特定する項目特定部とを備えた類似文字列検索システムである。
キーワード抽出部は,キー分解部と,コマンド決定部とにより構成される。キー分解部は、入力文からキーワードを切り出すものである。コマンド決定部2は、キー分解部によって入力文から切り出したキーワードからコマンド(検索 、登録、更新、削除など)を決定するものである。項目検索部は、データ中からキーワードに対応する項目を検索するものであって、読出し部,類似度算出部,及び項目特定部から構成されている。読出し部は、データ中の注目している項目から下位の所定レベルまでの階層に登録されている全ての項目を順次読み出すものである。類似度算出部は、キーワード(入寮文字列)に対して,読出し部によってデータ中から読み出した項目(記憶文字列)の類似度である評価値をそれぞれ算出し,最小評価値及びこの時の文字列(項目の文字列)を類似テーブルに格納するものである。項目特定部は、類似度算出部5によって算出された最大類似度およびこの時の最大類似文字列に基づいて、キーワードに対応する項目を特定するものである。データは、データベース中に格納されている項目などである。類似テーブルは、類似度算出部によって算出された最大類似度およびこの時の最大類似文字列を格納するものである。
次に、この類似文字列検索システムの動作を説明する。まず,任意要素であるキー分解部は、入力文字列をキーワードに分解する。そして,キーワードをコマンド決定部2に通知する。これらキーワードの通知を受けたコマンド決定部は、コマンドを決定、例えばキーワードとして入力された入力文字列に基づいて、入力文に対して実行する処理を検索 (検索 コマンド)と決定し、項目検索部に通知する。項目検索部を構成する読出し部は、キーワードに対応する候補項目,例えば注目する項目から2レベル下位までの全ての項目をデータ7中から順次読み出して類似度算出部に通知する。類似度算出部は、この通知を受けた項目に対するキーワードとの類似度を,夫々算出し、最小評価値の値およびこの時の項目の文字列を類似テーブルに格納する。項目特定部は、この類似テーブルに格納された最小評価値およびこの時の最大類似文字列に基づいて、注目すべき項目を特定する。以下同様に、次のキーワードについてこの注目している項目から下位2レベルまでの全ての項目を読み出し、その最小評価値およびこの時の最大類似文字列を類似テーブルに格納して、該当する項目を特定する。
以上のように、入力文から切り出したキーワードについて、順次注目する項目から所定レベル下位の階層までの全ての項目を読み出し、最も類似している項目を特定し、次にこの特定した項目に注目して同様に繰り返し最も類似 する項目を特定することにより、簡単なシステムを用いて入力文から切り出したキーワードに最も類似する項目を容易に検索できることとなる。
実施例1では,類似度の評価値の妥当性を検証した。あるカラオケ機種の配信曲リストを用いて,本発明のシステムの実行性を確認した。具体的には,パーソナルコンピュータに,本発明のシステムを機能させるプログラムを記憶させ,コンピュータを各手段として機能させた。
アルゴリズムは上記に説明したものを用いた。
そして,コンピュータのハードディスクに,約8000曲のタイトルを記憶するリレーショナルデータベースからなる辞書を作成した。そして,本発明のシステムに「ダンシング夏祭り」という単語を入力し,類似度の高い曲を探した。
その結果は以下のとおりであった。
順位 曲名 類似度
1 ダンシング!夏祭り 0.113746
2 だんじり 0.757937
3 ダーリング 0.795599
4 黄昏ダンシング 0.819262
5 夏祭り 0.917304
6 夏祭り 0.917304
7 シンシア 0.949830
8 ダンシング・オールナイト 0.974581
9 リンダ リンダ 1.020226
10 ギャンブリング 1.037901
(近いものから10曲のみ表示)
実施例2は,入力文字列が,辞書に登録されるいずれに最も近いかを評価するアンケートシステムとして本発明の評価システムを利用した例である。この例では,本発明のシステムは,サーバとして構成した。そして,ウェブサイトにおいて,「好きなブランドをお答えください」という質問をし,解答を募った。
本発明のシステムによれば,たとえば "ルイヴィトン(登録商標)""ルイビトン",及び"ビトン"などの入力単語を,あらかじめ登録した単語"ルイヴィトン"(登録商標)に補正することができるので,同一の観念を持つ語に対して様々な単語が入力されるアンケートデータを容易に集計するシステムなどとして利用されうる。
また,本発明のシステムは,あらかじめ登録した単語に補正できるので,単語の自動補正機能を有するワープロソフトとして利用されうる。また,本発明のシステムでは,様々な単語を含むデータベースに記憶される各単語と,入力された単語の類似度を求めることができ,さらに選択される語の類似度を設定できるので,インターネットのサーチエンジンにおける検索システムとして利用されうる。
図1は,本発明の第一の態様に係る評価システムのブロック図である。 図2は,インターネットに接続されたコンピュータである本発明のシステムの例を示す図である。 図3は,第一の態様に係る本発明のシステムの動作例を説明するためのフローチャートである。
符号の説明
1 第一の実施の形態に係るシステム
2 文字列入力手段
3 文字数算出手段
4 数値割り当て手段
5 記憶手段
6 文字一致性判断手段
7 差分手段
8 二乗手段
9 評価値算出手段
10 メモリ
11 出力装置
21 コンピュータ
22 インターネット網
23 コンピュータ

Claims (11)

  1. 文字列を入力するための文字列入力手段と,
    前記文字列入力手段により入力された入力文字列を構成する文字数を算出する文字数算出手段と,
    前記文字列入力手段により入力された入力文字列の各文字に対して,その先頭の文字を0とし,その末尾の文字を1とし,前記文字数算出手段が算出した文字数をNとすると,その先頭と末尾との間の文字が等間隔となるように,前記入力文字列の第n番目の文字に対して,(n−1)/(N−1)の数値を割り当てるための数値割り当て手段と,
    様々な記憶文字列と,前記記憶文字列の各文字に対して,その先頭の文字を0とし,その末尾の文字を1とし,前記記憶文字列の文字数をMとしたときに,その先頭と末尾との間の文字が等間隔となるように,前記記憶文字列の第m番目の文字に対して,(m−1)/(M−1)の数値を割り当て記憶するための記憶手段と,
    前記入力文字列を構成する各文字と,前記辞書に記憶される記憶文字列を構成する各文字が一致するかどうか判断する文字一致性判断手段と,
    前記入力文字列を構成する各文字について,当該入力文字列を構成する文字に割り当てられた数値と,前記文字一致性判断手段が一致すると判断した前記辞書に記憶される記憶文字列を構成する文字に割り当てられた数値との差の値を求める差分手段と,
    前記差分手段が求めた入力文字列の各文字の差の値を二乗するための二乗手段と,
    前記二乗手段が求めた入力文字列の各文字の2乗値の和を算出することにより評価値を求める評価値算出手段と,
    を備え,
    入力文字列と記憶文字列の類似度を評価するための評価システム。
  2. 請求項1に記載の評価システムであって,
    あらかじめ評価値を設定するための評価値設定手段と,
    前記評価値算出手段が算出した評価値である算出評価値と,前記評価値設定手段が設定した評価値である設定評価値とを比較するための評価値比較手段と,
    前記評価値比較手段が比較した結果,前記算出評価値が前記設定評価値よりも小さな値であった場合に,前記記憶文字列を選択する選択手段を具備する,
    システム。
  3. 請求項2に記載の評価システムであって,
    前記選択手段が選択した記憶文字列が複数個ある場合に,各記憶文字列の算出評価値の小さな順に並び替えるソート手段を有するシステム。
  4. 請求項1〜請求項3のいずれか1項に記載の評価システムであって,
    前記記憶文字列に,前記入力文字列のうちいずれかの文字が含まれていない場合,その含まれていない文字についての差分値を1とするシステム。
  5. 請求項1〜請求項4のいずれかに記載の評価システムであって,
    前記差分手段は,
    入力文字列の各文字に割り当てられた数値と,記憶文字列のうち入力文字列の各文字と同じ文字に割り当てられた数値の差と,
    前記記憶文字列の各文字に割り当てられた数値と,前記入力文字列のうち記憶文字列の各文字と同じ文字に割り当てられた数値の差を求めるための手段であり,
    前記差分手段が求めた入力文字列の各文字に割り当てられた数値と,記憶文字列のうち入力文字列の各文字と同じ文字に割り当てられた数値の差の値を二乗し,それらの和を求めることで,第1の仮の評価値を求め,当該第1の仮の評価値をNで割ることにより入力由来評価値を求める入力由来評価値算出手段と,
    前記記憶文字列の各文字に割り当てられた数値と,前記入力文字列のうち記憶文字列の各文字と同じ文字に割り当てられた数値の差の値を二乗し,それらの和を求めることで,第2の仮の評価値を求め,当該第2の仮の評価値をMであることにより記憶由来評価値を求める記憶由来評価値算出手段と,
    を含み,
    前記入力由来評価値算出手段が算出した入力由来評価値と,前記記憶由来評価値算出手段が算出した記憶由来評価値とを合わせて評価値とするシステム。
  6. 請求項1〜請求項4のいずれかに記載の評価システムであって,
    前記差分手段は,
    入力文字列の各文字に割り当てられた数値と,記憶文字列のうち入力文字列の各文字と同じ文字に割り当てられた数値の差と,
    前記記憶文字列の各文字に割り当てられた数値と,前記入力文字列のうち記憶文字列の各文字と同じ文字に割り当てられた数値の差を求めるための手段であり,
    前記差分手段が求めた入力文字列の各文字に割り当てられた数値と,記憶文字列のうち入力文字列の各文字と同じ文字に割り当てられた数値の差の値を二乗し,それらの和を求めることで,仮の評価値を求め,
    前記記憶文字列の各文字に割り当てられた数値と,前記入力文字列のうち記憶文字列の各文字と同じ文字に割り当てられた数値の差の値を二乗し,それらの和を求めることで,仮の評価値を求め,
    これらの仮の評価値の和を求め,当該和を(N+M)で割った値を求めて評価値とするシステム。
  7. 請求項1〜請求項6のいずれかに記載の評価システムであって,
    前記入力文字列又は前記記録文字列に,同じ文字が2つ以上含まれている場合,各文字に割り当てられた数値の差を求めるにあたり,差の絶対値が小さいほうの文字を用いて数値の差を求めるシステム。
  8. 請求項1〜請求項7のいずれかに記載の評価システムであって,
    前記記憶手段は,様々な記憶文字列を記憶する手段であり,
    前記記憶文字列の各文字に対して,その先頭の文字を0とし,その末尾の文字を1とし,その先頭と末尾との間の文字が等間隔となるように,前記記憶文字列の文字数をMとしたときに,前記記憶文字列の第m番目の文字に対して,(m−1)/(M−1)の数値を割り当てるための数値割り当て手段をさらに具備するシステム。
  9. 文字列を入力するための文字列入力手段と,
    前記文字列入力手段により入力された入力文字列を構成する文字数を算出する文字数算出手段と,
    前記文字列入力手段により入力された入力文字列の各文字に対して,その先頭の文字を0とし,その末尾の文字を1とし,前記文字数算出手段が算出した文字数をNとすると,その先頭と末尾との間の文字が等間隔となるように,前記入力文字列の第n番目の文字に対して,(n−1)/(N−1)の数値を割り当てるための数値割り当て手段と,
    様々な記憶文字列と,前記記憶文字列の各文字に対して,その先頭の文字を0とし,その末尾の文字を1とし,前記記憶文字列の文字数をMとしたときに,その先頭と末尾との間の文字が等間隔となるように,前記記憶文字列の第m番目の文字に対して,(m−1)/(M−1)の数値を割り当て記憶するための記憶手段と,
    前記入力文字列を構成する各文字と,前記辞書に記憶される記憶文字列を構成する各文字が一致するかどうか判断する文字一致性判断手段と,
    前記記憶文字列を構成する各文字について,前記文字一致性判断手段が一致すると判断した前記入力文字列を構成する文字に割り当てられた数値と,当該記憶文字列を構成する文字に割り当てられた数値との差の値を求める差分手段と,
    前記差分手段が求めた記憶文字列の各文字の差の値を二乗するための二乗手段と,
    前記二乗手段が求めた記憶文字列の各文字の2乗値の和を算出することにより評価値を求める評価値算出手段と,
    を備え,
    入力文字列と記憶文字列の類似度を評価するための評価システム。
  10. コンピュータを請求項1〜請求項9のいずれかに記載の評価システムとして機能させるためのプログラム。
  11. 請求項10に記載のプログラムを記憶した記録媒体。

JP2005219908A 2005-07-29 2005-07-29 距離の概念に基づく言語処理装置 Active JP4705430B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005219908A JP4705430B2 (ja) 2005-07-29 2005-07-29 距離の概念に基づく言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005219908A JP4705430B2 (ja) 2005-07-29 2005-07-29 距離の概念に基づく言語処理装置

Publications (2)

Publication Number Publication Date
JP2007034870A JP2007034870A (ja) 2007-02-08
JP4705430B2 true JP4705430B2 (ja) 2011-06-22

Family

ID=37794028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005219908A Active JP4705430B2 (ja) 2005-07-29 2005-07-29 距離の概念に基づく言語処理装置

Country Status (1)

Country Link
JP (1) JP4705430B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6348787B2 (ja) * 2014-07-02 2018-06-27 株式会社日立ソリューションズ東日本 データ処理装置およびデータ処理方法
CN109947917A (zh) * 2019-03-07 2019-06-28 北京九狐时代智能科技有限公司 语句相似度确定方法、装置、电子设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355370A (ja) * 2003-05-29 2004-12-16 Canon Inc 文書処理装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257982A (ja) * 1992-02-14 1993-10-08 Nippon Telegr & Teleph Corp <Ntt> 文字列認識方法
JPH06223107A (ja) * 1992-03-25 1994-08-12 Ricoh Co Ltd 辞書検索装置
JP2786380B2 (ja) * 1992-08-10 1998-08-13 富士通エフ・アイ・ピー株式会社 キーワード照合検索処理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355370A (ja) * 2003-05-29 2004-12-16 Canon Inc 文書処理装置

Also Published As

Publication number Publication date
JP2007034870A (ja) 2007-02-08

Similar Documents

Publication Publication Date Title
Nenkova et al. A compositional context sensitive multi-document summarizer: exploring the factors that influence summarization
US7349919B2 (en) Computerized method, system and program product for generating a data mining model
CN102971729B (zh) 将可操作属性归于描述个人身份的数据
Culpepper et al. Dynamic cutoff prediction in multi-stage retrieval systems
US8019758B2 (en) Generation of a blended classification model
JP2006251866A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP5115741B2 (ja) 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
JP2004139553A (ja) 文書検索システムおよび質問応答システム
JP2011516989A (ja) 編集距離および文書情報を使用する検索結果順位付け
JP2009525520A (ja) 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン
US8909511B2 (en) Bilingual information retrieval apparatus, translation apparatus, and computer readable medium using evaluation information for translation
JP2015138351A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP4705430B2 (ja) 距離の概念に基づく言語処理装置
JP2010205189A (ja) 検索結果文書のスコアリングシステム、スコア算出装置、スコアリング方法、及びスコアリングプログラム
CN112597768A (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
JP2009086903A (ja) 検索サービス装置
JP2010055164A (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP5211000B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
WO2021250950A1 (ja) 文書検索の性能を評価する方法、システム、および装置
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
JP2005128961A (ja) データベース検索装置、データベース検索方法およびプログラム
JP2008090396A (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080423

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110311

R150 Certificate of patent or registration of utility model

Ref document number: 4705430

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140318

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250