JP2001043236A

JP2001043236A - 類似語抽出方法、文書検索方法及びこれらに用いる装置

Info

Publication number: JP2001043236A
Application number: JP11216617A
Authority: JP
Inventors: Mitsuhiro Sato; 光弘佐藤; Kai Itou; 快伊藤
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-07-30
Filing date: 1999-07-30
Publication date: 2001-02-16
Also published as: TW476034B; EP1072982A2; KR100408637B1; KR20010067045A; EP1072982A3; CN1282934A

Abstract

(57)【要約】【課題】任意の文字列から成る検索条件に対して、類
似語や訳語を抽出して検索条件を拡張し、再現性の高い
文書検索を実現する。【解決手段】類似語抽出装置に、文書集合１０１から
索引を作成する索引作成手段１０２と、任意の文字列で
成る検索式に対し索引を検索して頻度情報を取得する文
書検索手段１０８と、前記頻度情報から特徴ベクトルを
作成する手段１１０と、文書集合中の全語に対する特徴
ベクトルを算出して表として格納する特徴ベクトル表作
成手段１０４と、特徴ベクトル間の類似度を算出する類
似度算出手段１１２とを設けた。前記頻度情報から特徴
ベクトルを動的に作成し、類似度算出手段によって特徴
ベクトル表中のベクトルとの類似度を算出して、ベクト
ル間の類似度が高い語を類似語として抽出し、類似語を
利用して質問拡張を行なうことにより、より再現性の高
い文書検索を行える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、電子化され蓄積さ
れた文書情報から、所望の文書を検索する文書検索シス
テムに関するものであり、特に利用者の検索要求を拡張
または変更するための類似語抽出方法、および抽出され
た語を利用した文書検索方法並びにこれらに用いる装置
に関する。

【０００２】

【従来の技術】インターネット、パーソナルコンピュー
タ等の普及によって、大量の電子化文書が流通するよう
になったのに伴ない、文書検索システムに対する関心が
高まってきている。そのような文書検索システムでは、
通常、利用者が入力した検索キーワードに対する照合を
行い、キーワードが含まれる文書を検索結果として提示
する。しかしながら、同一の内容を異なる表現で記述し
ている文書は数多く存在するため、利用者が想起したキ
ーワードのみで、利用者が欲するすべての文書を取得す
ることは困難である。このため、検索条件を拡張して検
索を行う、質問拡張の手法が、従来から提案されてきて
いる。

【０００３】また、インターネットの普及によって手軽
に世界中の情報にアクセスできる環境が整ったことか
ら、母国語以外の情報を検索したい、という要求も増え
つつある。こうした要求に答える多言語文書検索方法の
研究開発も、近年盛んになってきた。

【０００４】質問拡張の手法としては、例えば、「シソ
ーラスによるクエリー展開を用いた大規模テキスト検
索」（赤峯他、情報処理学会第５２回全国大会論文集,
pp. 4-201 - 4-202, 1996 ）（文献１）がある。この手
法では、固定のシソーラスを利用して検索語に対する類
似語を求め、これを用いて検索条件を拡張する。

【０００５】一方、「概念に基づく検索要求文の拡張」
（斉藤他、情報処理学会研究報告、情報学基礎 47-10,
pp.67-74, 1997）（文献２）では、文書を次元とするベ
クトル空間上に各単語をマップし、ベクトル間の内積値
を単語間の類似度とすることで、検索対象文書の性質に
合った類似語を取得し、質問拡張を行う手法が提案され
ている。

【０００６】また、多言語文書検索の実現方法として
は、例えば "Resolving Ambiguity for Cross-Language
Retrieval" (Ballesteros, L. and Croft, W.B., ACM-
SIGIR98 pp.64-71, 1998) （文献３）がある。この手法
では、対訳辞書を利用して訳語候補をリストアップし、
検索対象文書中の語の共起頻度を利用して訳語を絞り込
むことにより、目的言語の検索条件を生成する。

【０００７】

【発明が解決しようとする課題】文献１で示されている
手法では、求められる類似語は固定のシソーラスの語彙
に依存するため、専門分野の検索などには適さない、と
いう問題がある。また、文献２に示されている手法で
は、日本語のように分かち書きされない言語が検索対象
文書である場合、一般に定着していない専門語や、助詞
を省略した新聞記事の見出しからは、それを構成する検
索語を抽出することができず、特に専門用語が重要とな
る検索対象に対しては質問拡張が困難である、という欠
点があった。

【０００８】また、文献３で示されている多言語文書検
索手法では、対訳辞書の利用が前提となっており、選択
される訳語が固定の対訳辞書の語彙に依存し、かつ日本
語のように分かち書きされない言語の場合には、任意の
文字列に対する訳語を求めることができないため、特に
専門用語が重要となる検索対象に対しては、訳語選択が
困難である、という欠点があった。

【０００９】本発明は、上記の課題を解決するものであ
り、任意の文字列から構成される任意の検索条件に対し
て、動的に類似語や訳語を求めることが可能な類似語抽
出方法および訳語選択方法と、これらを利用した文書検
索方法を提供することを目的とする。

【００１０】

【課題を解決するための手段】本発明は、上記目的を達
成するため、文書集合から、各単語ごとの特徴ベクトル
を格納した特徴ベクトル表と、任意の文字列から構成さ
れる任意の検索条件に対して頻度情報が取得可能な索引
を作成し、与えられた検索条件に対して前記索引を検索
して頻度情報を取得し、前記頻度情報を利用して検索条
件に対応する特徴ベクトルを動的に作成し、前記特徴ベ
クトル表との照応を行って各単語との類似度を計算する
ことにより、前記検索条件に対する類似度が高く、かつ
文書の性質に即した類似語を求めることができ、さらに
得られた類似語を利用して質問拡張を行うことで、再現
性の高い文書検索結果を得ることができる。

【００１１】また本発明によれば、類似度算出の対象と
なる単語集合を、文書集合中に出現するすべての語とす
るのではなく、別途任意の単語集合を指定することで、
例えば特定の分野で利用される専門用語のみから類似語
を抽出することが可能であり、これによって分野の特性
に合わせた類似語を得ることができる。

【００１２】さらに本発明によれば、文書ごとの対応が
とれている対訳文書集合に対して、第１言語および第２
言語の文書集合から、各単語ごとの特徴ベクトルを格納
した特徴ベクトル表と、任意の文字列から構成される任
意の検索条件に対して頻度情報が取得可能な索引とをそ
れぞれ作成し、与えられた第１言語の検索条件に対し
て、前記第１言語の索引を検索して頻度情報を取得し、
前記頻度情報を利用して検索条件に対応する特徴ベクト
ルを動的に作成し、前記第２言語の特徴ベクトル表との
照応を行って各単語との類似度を計算することにより、
前記第１言語の検索条件に対する類似度が高く、かつ文
書の性質に即した第２言語の訳語を、対訳辞書などの外
部情報を利用せずに求めることができ、これを利用した
多言語文書検索が実現できる。

【００１３】さらに本発明によれば、任意の文字列に対
して、分割可能な文字列を求めることにより、新聞記事
の見出しのように助詞が省略された文字列や、一般に定
着していない専門語からでも、それを構成する部分文字
列を抽出することができ、より再現性の高い文書検索が
可能になる。

【００１４】さらに本発明によれば、第１言語と第２言
語の間での訳語を繰り返し求めることにより、第２言語
では一語で表現される概念が、第１言語では複数の表記
で表現されている場合であっても、同一概念の異なる表
記の類似語を求めることができ、より再現性の高い文書
検索が可能になる。

【００１５】上記のような特徴を有する本発明におい
て、本発明の請求項１に記載の発明は、文書集合から索
引を作成する段階と、任意の文字列から構成される検索
式に対して、索引を検索して頻度情報を取得する段階
と、検索の結果取得される頻度情報から特徴ベクトルを
作成する段階と、文書集合中に含まれるすべての語に対
する特徴ベクトルを算出して特徴ベクトル表を作成する
段階と、頻度情報から作成した特徴ベクトルと特徴ベク
トル表の中の特徴ベクトルとの間の類似度を算出する段
階とを有し、入力された検索条件から検索を行い、得ら
れた頻度情報から特徴ベクトルを動的に作成し、作成さ
れた特徴ベクトルと特徴ベクトル表中のベクトルとの類
似度を算出し、類似度の高い特徴ベクトル表中の語を類
似語として抽出することを特徴とするものであり、任意
の文字列から構成される任意の検索条件に対して、検索
の対象となる文書の性質に即した類似語を抽出すること
ができるという作用を有する。

【００１６】本発明の請求項２に記載の発明は、文書集
合から索引を作成する段階と、任意の文字列から構成さ
れる検索式に対して、索引を検索して頻度情報を取得す
る段階と、検索の結果取得される頻度情報から特徴ベク
トルを作成する段階と、任意の単語集合に対する特徴ベ
クトルを算出して特徴ベクトル表を作成する段階と、頻
度情報から作成した特徴ベクトルと特徴ベクトル表の中
の特徴ベクトルとの間の類似度を算出する段階とを有
し、入力された検索条件から検索を行い、得られた頻度
情報から特徴ベクトルを動的に作成し、作成された特徴
ベクトルと別途与えられた単語集合に対する特徴ベクト
ル表中のベクトルとの類似度を算出し、類似度の高い特
徴ベクトル表中の語を類似語として抽出することを特徴
とするものであり、特定分野の用語などに限定した類似
語抽出を行うことを可能にして、より適格な類似語を得
ることができるという作用を有する。

【００１７】本発明の請求項３に記載の発明は、ユーザ
の入力した検索条件を拡張または変更する段階を有する
文書検索方法であって、前記検索条件を拡張または変更
する段階において、ユーザの入力した検索条件から請求
項１または２に記載の類似語抽出方法のための検索条件
を生成し、前記類似語抽出方法を利用して類似語を抽出
し、前記抽出された類似語を利用して、ユーザの入力し
た検索条件に対する拡張または変更を行なうことを特徴
とするものであり、検索対象文書の性質に即した動的な
質問拡張が可能になるという作用を有する。

【００１８】本発明の請求項４に記載の発明は、第１言
語文書集合と第２言語文書集合との間で文書ごとの対応
が取られている対訳文書集合を作成する段階と、対応す
る言語ごとに文書集合から索引を作成する段階と、任意
の文字列から構成される検索式に対して、索引を検索し
て語の頻度情報を取得する段階と、検索の結果取得され
る頻度情報から特徴ベクトルを作成する段階と、言語ご
とに、文書集合中に含まれるすべての語に対する特徴ベ
クトルを算出して特徴ベクトル表を作成する段階と、頻
度情報から作成した特徴ベクトルと特徴ベクトル表の中
の特徴ベクトルとの間の類似度を算出する段階とを有
し、入力された第１言語の検索条件により第１言語の索
引を利用して検索を行い、得られた頻度情報から特徴ベ
クトルを動的に作成し、作成された特徴ベクトルと第２
言語の特徴ベクトル表中のベクトルとの類似度を算出
し、類似度の高い特徴ベクトル表中の語を、第１言語の
検索条件に対する訳語として選択することを特徴とする
ものであり、対訳辞書などの外部情報を用いずに、かつ
検索対象文書の性質に即した訳語が選択できるという作
用を有する。

【００１９】本発明の請求項５に記載の発明は、第１言
語文書集合と第２言語文書集合との間で文書ごとの対応
が取られている対訳文書集合を作成する段階と、対応す
る言語ごとに文書集合から索引を作成する段階と、任意
の文字列から構成される検索式に対して、索引を検索し
て語の頻度情報を取得する段階と、検索の結果取得され
る頻度情報から特徴ベクトルを作成する段階と、言語ご
とに、任意の単語集合に対する特徴ベクトルを算出して
特徴ベクトル表を作成する段階と、頻度情報から作成し
た特徴ベクトルと特徴ベクトル表の中の特徴ベクトルと
の間の類似度を算出する段階とを有し、入力された第１
言語の検索条件により第１言語の索引を利用して検索を
行い、得られた頻度情報から特徴ベクトルを動的に作成
し、作成された特徴ベクトルと別途与えられた第２言語
の単語集合に対する特徴ベクトル表中のベクトルとの類
似度を算出し、類似度の高い特徴ベクトル表中の語を、
第１言語の検索条件に対する訳語として選択することを
特徴とするものであり、特定分野の用語などに限定した
訳語選択を可能にして、より適格な訳語を得ることがで
きるという作用を有する。

【００２０】本発明の請求項６に記載の発明は、請求項
４または請求項５に記載の類似語抽出方法において、第
２言語から第１言語へ翻訳する段階をさらに有し、翻訳
された第１言語の文書集合と、翻訳元である第２言語の
文書集合とを対訳文書集合として利用することを特徴と
するものであり、対訳文書集合が準備できない場合で
も、訳語選択が実現できるという作用を有する。

【００２１】本発明の請求項７に記載の発明は、ユーザ
の入力した第１言語の検索条件から、第２言語の検索条
件を自動的に作成する段階をさらに有し、ユーザの入力
した第１言語の検索条件から、請求項４、５または６に
記載の類似語抽出方法のための検索条件を生成し、前記
類似語抽出方法を利用して第２言語の訳語を選択し、前
記選択された訳語を利用して第２言語の検索条件を作成
し、第２言語の文書を検索することを特徴とする多言語
文書検索方法であり、これによって、検索対象文書の性
質に合わせた多言語文書検索が可能になるという作用を
有する。

【００２２】本発明の請求項８に記載の発明は、索引を
検索して頻度情報を取得するよりも前段階で検索条件を
規定する文字列を分割する段階と、特徴ベクトル作成時
にマスク特徴ベクトルを作成する段階と、マスク特徴ベ
クトルを作成した後に特徴ベクトル演算を行なって特徴
ベクトルの必要な次元だけを取り出す段階と、特徴ベク
トル演算の後に各々の部分文字列の特徴ベクトル間の類
似度を算出し、分割点により分割された部分文字列間の
類似度が高い分割点において文字列を分割することを特
徴とするものであり、検索対象文書の性質に即した部分
語を求めることが可能になるという作用を有する。

【００２３】本発明の請求項９に記載の発明は、請求項
８記載の部分語分割方法において、もとの文字列を部分
文字列に分割した後、各々の文字列に対して繰り返し分
割を行ない、分割可能な部分文字列を求める段階をさら
に有することを特徴とするものであり、文字列を繰り返
し分割することにより検索対象文書の性質に即した部分
語を求めることが可能になるという作用を有する。

【００２４】本発明の請求項１０に記載の発明は、請求
項８または９に記載の部分語分割動作を利用して、入力
された検索式を構成する検索語を部分語に分割し、分割
された部分語を利用して検索式の拡張または変更を行な
うことを特徴とする文書検索方法であり、より再現性の
高い文書検索が可能になる、という作用を有する。

【００２５】本発明の請求項１１に記載の発明は、第１
言語の任意の入力文字列に対して、請求項４、５または
６に記載の訳語選択動作によって、第２言語の訳語を求
め、各訳語に対して、請求項４、５、または６に記載の
訳語選択動作によって、第１言語の訳語を求め、その訳
語から、入力文字列に対する類似語を選別することを特
徴とするものであり、請求項１または２に記載の類似語
抽出方法では抽出することが困難である、異表記的な類
似語をも抽出することが可能になるという作用を有す
る。

【００２６】本発明の請求項１２に記載の発明は、請求
項１０に記載の類似語抽出方法を利用して、入力された
検索式を構成する検索語から類似語を抽出し、抽出され
た類似語を利用して検索式の拡張または変更を行なうこ
とを特徴とする文書検索方法であり、より再現性の高い
文書検索が可能になるという作用を有する。

【００２７】本発明の請求項１３に記載の発明は、類似
語抽出装置として、文書集合から索引を作成する索引作
成手段と、任意の文字列から構成される検索式に対し
て、索引を検索して頻度情報を取得可能な文書検索手段
と、検索の結果取得された頻度情報からベクトルを作成
する特徴ベクトル作成手段と、文書集合中に含まれるす
べての語に対する特徴ベクトルを算出して表として格納
する特徴ベクトル表作成手段と、特徴ベクトル間の類似
度を算出する類似度算出手段と、を有し、入力された検
索条件から、前記文書検索手段を利用して検索を行い、
得られた頻度情報から前記特徴ベクトル作成手段を利用
して特徴ベクトルを動的に作成し、前記類似度算出手段
が特徴ベクトル表中のベクトルとの類似度を算出し、類
似度の高い特徴ベクトル表中の語を類似語として抽出す
ることを特徴とするものであり、任意の文字列から構成
される任意の検索条件に対して、検索の対象となる文書
の性質に即した類似語を抽出することができる、という
作用を有する。

【００２８】本発明の請求項１４に記載の発明は、類似
語抽出装置として、文書集合から索引を作成する索引作
成手段と、任意の文字列から構成される検索式に対し索
引を検索して頻度情報を取得する文書検索手段と、検索
の結果取得される頻度情報から特徴ベクトルを作成する
特徴ベクトル作成手段と、任意の単語集合に対する特徴
ベクトルを算出して表として格納する特徴ベクトル表作
成手段と、特徴ベクトル間の類似度を算出する類似度算
出手段とを備え、入力された検索条件から、前記文書検
索手段を利用して検索を行い、得られた頻度情報から前
記特徴ベクトル作成手段を利用して特徴ベクトルを動的
に作成し、前記類似度算出手段が、別途与えられた単語
集合に対する特徴ベクトル表中のベクトルとの類似度を
算出し、類似度の高い特徴ベクトル表中の語を類似語と
して抽出することを特徴とするものであり、特定分野の
用語などに限定した類似語抽出を行うことを可能にし
て、より適格な類似語を得ることができるという作用を
有する。

【００２９】本発明の請求項１５に記載の発明は、ユー
ザの入力した検索条件を拡張または変更する検索条件変
更手段を有する文書検索装置であって、前記検索条件変
更手段が、ユーザの入力した検索条件から、類似語抽出
のための検索条件を生成し、前記類似語抽出装置を利用
して類似語を抽出し、前記抽出された類似語を利用し
て、ユーザの入力した検索条に対する拡張または変更を
行うことを特徴とするものであり、検索対象文書の性質
に即した動的な質問拡張が可能になるという作用を有す
る。

【００３０】本発明の請求項１６に記載の発明は、類似
語抽出装置として、第１言語文書集合と第２言語文書集
合とから構成され文書ごとの対応が取れている対訳文書
集合と、この対訳文書集合から、言語ごとに文書集合か
ら索引を作成する索引作成手段と、任意の文字列から構
成される任意の検索式に対して、索引を検索して語の頻
度情報を取得可能な文書検索手段と、検索の結果取得さ
れる頻度情報からベクトルを作成する特徴ベクトル作成
手段と、言語ごとに、文書集合中に含まれるすべての語
に対する特徴ベクトルを算出して表として格納する特徴
ベクトル表作成手段と、特徴ベクトル間の類似度を算出
する類似度算出手段と、を有し、

【００３１】入力された第１言語の検索条件により、前
記文書検索手段と第１言語の索引を利用して検索を行な
い、得られた頻度情報から前記特徴ベクトル作成手段を
利用して特徴ベクトルを動的に作成し、前記類似度算出
手段が第２言語の特徴ベクトル表中のベクトルとの類似
度を算出し、類似度の高い特徴ベクトル表中の語を、第
１言語の検索条件に対する訳語として選択することを特
徴とするものであり、対訳辞書などの外部情報を用いず
に、かつ検索対象文書の性質に即した訳語が選択できる
という作用を有する。

【００３２】本発明の請求項１７に記載の発明は、類似
語抽出装置として、第１言語文書集合と第２言語文書集
合とから構成され文書ごとの対応が取れている対訳文書
集合と、この対訳文書集合から、言語ごとに文書集合か
ら索引を作成する索引作成手段と、任意の文字列から構
成される任意の検索式に対して、索引を検索して語の頻
度情報を取得可能な文書検索手段と、検索の結果取得さ
れる頻度情報からベクトルを作成する特徴ベクトル作成
手段と、言語ごとに、任意の単語集合に対する特徴ベク
トルを算出して表として格納する特徴ベクトル表作成手
段と、特徴ベクトル間の類似度を算出する類似度算出手
段と、を有し、入力された第１言語の検索条件により、
前記文書検索手段と第１言語の索引を利用して検索を行
ない、得られた頻度情報から前記特徴ベクトル作成手段
を利用して特徴ベクトルを動的に作成し、前記類似度算
出手段が、別途与えられた第２言語の単語集合に対する
特徴ベクトル表中のベクトルとの類似度を算出し、類似
度の高い特徴ベクトル表中の語を、第１言語の検索条件
に対する訳語として選択することを特徴とするものであ
り、特定分野の用語などに限定した訳語選択を可能にし
て、より適格な訳語を得ることができるという作用を有
する。

【００３３】本発明の請求項１８に記載の発明は、請求
項１６または請求項１７に記載の類似語抽出装置におい
て、第２言語から第１言語への翻訳が可能な文書翻訳手
段を有し、前記文書翻訳手段により翻訳された第１言語
の文書集合と、翻訳元である第２言語の文書集合とを対
訳文書集合として利用することを特徴とするものであ
り、対訳文書集合が準備できない場合でも、訳語選択が
実現できるという作用を有する。

【００３４】本発明の請求項１９に記載の発明は、ユー
ザの入力した第１言語の検索条件から、第２言語の検索
条件を自動的に作成する検索条件作成手段を有する多言
語文書検索装置であって、前記検索条件作成手段が、ユ
ーザの入力した第１言語の検索条件から、請求項１６乃
至１８のいずれかに記載の訳語選択動作のための検索条
件を生成し、前記訳語選択方法を利用して第２言語の訳
語を選択し、前記選択された訳語を利用して第２言語の
検索条件を作成し、第２言語の文書を検索することを特
徴とするものであり、検索対象文書の性質に合わせた多
言語文書検索が可能になるという作用を有する。

【００３５】本発明の請求項２０に記載の発明は、部分
語分割装置として、文字列を適当な方法で分割する文字
列分割手段と、文字列から検索式を構成する検索式構成
手段と、請求項１３または１４に記載の文書検索手段、
特徴ベクトル作成手段、類似度算出手段と、特徴ベクト
ルの必要な次元だけを取り出す特徴ベクトル演算手段
と、文字列に対して繰り返し分割を行ない、分割可能な
部分文字列を求める分割候補判定手段とを有し、文字列
分割手段を利用して、入力文字列を一文字づつに分割
し、検索式構成手段を利用して、検索条件を構成し、こ
の検索式から請求項１３または１４に記載の文書検索手
段と特徴ベクトル作成手段を利用してマスク特徴ベクト
ルを作成し、文字列分割手段を利用して部分文字列の組
を作成し、その分割された文字列の組の各々について、
前記検索式構成手段、文書検索手段、特徴ベクトル作成
手段を利用して特徴ベクトルを作成し、特徴ベクトル演
算手段を利用して、前記マスク特徴ベクトルに出現する
次元だけを残すような演算を施した特徴ベクトルを作成
し、請求項１３または１４に記載の類似度算出手段を利
用して、各々の部分文字列の特徴ベクトル間の類似度を
計算して類似語抽出を行ない、分割語候補判定手段を利
用して、類似度が閾値以上になる部分文字列の組に含ま
れる部分文字列を分割語候補に追加し、繰り返し類似語
抽出のための分割語候補を求めることを特徴とするもの
であり、検索対象文書の性質に即した部分語を求めるこ
とが可能になるという作用を有する。

【００３６】本発明の請求項２１に記載の発明は、部分
語分割類装置として、ユーザの入力した検索条件に対し
て、索引を検索して頻度情報を取得するよりも前段階で
検索条件を規定する文字列を分割する手段と、特徴ベク
トル作成時にマスク特徴ベクトルを作成する手段と、マ
スク特徴ベクトルを作成した後に特徴ベクトル演算を行
なって特徴ベクトルの必要な次元だけを取り出す手段と
を備えたものであり、特徴ベクトル演算の後に各々の部
分文字列の特徴ベクトル間の類似度を算出し、分割点に
より分割された部分文字列間の類似度が高い分割点にお
いて文字列を分割することにより、検索対象文書の性質
に即した部分語を求めることが可能になるという作用を
有する。

【００３７】本発明の請求項２２に記載の発明は、請求
項２１に記載の部分語分割装置において、もとの文字列
を部分文字列に分割した後、各々の文字列に対して繰り
返し分割を行ない、分割可能な部分文字列を求める手段
をさらに有することを特徴とするものであり部分語分割
をより細かく行なえるという作用を有する。

【００３８】本発明の請求項２３に記載の発明は、文書
検索装置として、請求項２１または２２に記載の部分語
分割動作を利用して、入力された検索式を構成する検索
語を部分語に分割する手段と、分割された部分語を利用
して検索式の拡張または変更を行なう手段とを有するこ
とを特徴とするものであり、文書検索において検索対象
文書の性質に即した部分語を求めることが可能になると
いう作用を有する。

【００３９】

【発明の実施の形態】以下に、本発明の具体的な実施の
形態について、添付の図面を参照して説明する。

【００４０】（実施の形態１）最初に、本発明の第１の
実施の形態について説明する。図１は、本発明の第１の
実施の形態に係る類似語抽出方法の構成を示したブロッ
ク図である。図１において、実線矢印はデータの流れ
を、実線両端矢印はデータの参照関係を、それぞれ示
す。

【００４１】図１に示す類似語抽出方法の構成では、文
書集合１０１から索引作成手段１０２によって索引１０
３が作成される。ここでいう文書とは、ある一つのまと
まりを持つ文または句の集合であって、その要素は新聞
記事のように複数の文から構成されても良いし、文また
は句ごとに一つの文書を構成しても良い。特徴ベクトル
作成手段１０４は、索引１０３を参照して、特徴ベクト
ル表１０５を作成する。その際、別途定義されている単
語集合１０６を参照しても良い。また文書検索手段１０
８は、検索条件１０７を利用して検索を行い、頻度情報
１０９を得ることができる。さらに特徴ベクトル作成手
段１１０が、頻度情報１０９から特徴ベクトル１１１を
作成する。さらに、類似度算出手段１１２が、特徴ベク
トル１１１と特徴ベクトル表１０５を参照して類似度計
算を行い、類似語１１３を抽出する。

【００４２】次に、特徴ベクトル作成手段および類似度
算出手段について、図２を利用して詳しく説明する。ま
ず、索引１０３および文書検索手段１０８は、任意の文
字列から構成される任意の検索条件に対して、文書ごと
の出現頻度および総出現文書数などの頻度情報が取得で
きるものである。これは、例えば特開平８−２４９３５
４公報において開示されている単語索引を利用すること
で実現できる。例えば今、検索条件として”ＷＷＷ”が
与えられると、索引１０３および文書検索手段１０８に
より、頻度情報１０９が求められる。頻度情報１０９に
は、Ｎ個の文書それぞれに対して、”ＷＷＷ”が出現し
た回数が格納されている。次に、頻度情報１０９を利用
して特徴ベクトル作成手段１１０が特徴ベクトル１１１
を作成する。特徴ベクトルとしては、例えばベクトルの
次元を文書数Ｎとし、ベクトルの各次元の値を、非完全
一致モデルに基づく検索手法で通常用いられる tf*idf
による重みづけを利用して算出する（tf*idf による重
みづけについては、成書 Saltion,G. and McGill,M.J.:
Introduction to Modern Information Retrieval,McGr
aw-Hill Publishing Company, 1983 に詳しい解説が記
載されている）。その際、ベクトルの長さが１となるよ
うに正規化しても良い。また、ベクトルの次元を全文書
数Ｎとはせず、例えば各文書に分野コードが付与されて
いるような文書集合では、特定の分野コードを持つ文書
だけをベクトルの次元としても良い。

【００４３】特徴ベクトル表作成手段は、前記特徴ベク
トル作成手段と同様の方法を用いることで実現できる。
すなわち、与えられた単語集合１０６に含まれるすべて
の単語に対して、前記特徴ベクトル作成手段を用いて当
該単語に対する特徴ベクトルを作成し、各単語ごとの特
徴ベクトルを表形式にして格納した特徴ベクトル表１０
５を作成する。単語集合として与えるものは、例えば文
書集合１０１に出現するすべての単語としても良いし、
ある特定の分野に出現する単語集合を別途与えても良
い。

【００４４】また、単語集合に含まれる単語数が多い場
合には、類似語抽出処理の高速化のため、あらかじめ特
徴ベクトル表を作成しておくことが望ましいが、単語集
合に含まれる単語数が十分小さい場合には、特徴ベクト
ルを求めた後で、当該単語集合をもとに特徴ベクトル表
を作成しても良い。また、ここでは索引と文書検索手段
を利用して特徴ベクトル表を作成する方法を説明した
が、文書から直接特徴ベクトルを作成しても良い。例え
ば、英語のように分かち書きされる言語の文書に対して
は、空白で区切られた文字列を単語とみなし、各文字列
ごとの文書中での出現回数を記録した上で、これを特徴
ベクトルに変換する、という方法で特徴ベクトル表を作
成することができる。ただし、前記特徴ベクトル作成手
段で作成された特徴ベクトルと、特徴ベクトル表中の各
ベクトルの次元は同一でなければならない。

【００４５】特徴ベクトル間の類似度算出手段としてよ
く用いられるのは、ベクトルの内積値を計算する方法で
ある。例えば、" ＷＷＷ" と" インターネット" の間の
類似度 SIM("ＷＷＷ" ，" インターネット") は、 SIM(" ＷＷＷ" ，" インターネット") ＝ 0.10*0.15 + 0.00*0.00 + 0.02*0.01 + ..... + 0.07*0.10 ＝ 0.9 のようにして求めることができる。他にも、相互情報量
やt-score のような統計量を用いて、ベクトル間の類似
度を計算することが可能である（相互情報量および t-s
core については、文献「 Church, K.W. and Mercer,
R.L.: Introduction to the Special Issue on Computa
tional Linguistics Using Large Corpora, Computatio
nal Linguistics, Vol.19, No.1, pp.1-24, 1993 」に
詳しい解説が記載されている）。

【００４６】以上の構成および情報を利用した類似語抽
出方法の処理について、図３に示すフローチャートを用
いて説明する。まず、ステップ３０１において、入力さ
れた検索条件に対する特徴ベクトルを求める。次に、ス
テップ３０２において、特徴ベクトル表のうち類似度算
出の対象とする要素にマークを付ける。通常、特徴ベク
トル表に記載のあるすべての要素に対して類似度算出を
行なう場合は、ここですべてにマークを付けるが、例え
ばある特定の分野に出現する語のみを対象としたい場合
などには、ステップ３０２において、そのような要素の
みをマークする。また、もとの検索条件に含まれる語な
どをを抽出対象から除きたい場合には、当該語をステッ
プ３０２においてマークしなければよい。次に、ステッ
プ３０３とステップ３０４をくりかえすことにより、ス
テップ３０２においてマークされたすべての要素と、ス
テップ３０１により作成された特徴ベクトルとの間の類
似度を算出する。続いて、ステップ３０５において、ス
テップ３０２でマークされたすべての要素をその類似度
の高い順に整列し、最後のステップ３０６において、類
似度の高いｎ個のベクトルに対応する語を類似語として
抽出する。前述の図２においては、例えば" ＷＷＷ" の
類似語として、" インターネット" " ＨＴＭＬ" が抽出
される。

【００４７】図４は、前記類似語抽出方法を利用して検
索条件の拡張または変更を行う、文書検索方法について
示したものである。あらかじめ、文書集合４０１から、
索引作成手段４０２を利用して索引４０３が作成されて
おり、文書検索手段４１０によって検索が可能になって
いるとする。ここで、文書集合４０１は、類似語抽出方
法４０７で利用する文書集合とは、同一であっても、異
なっていても良い。ただし互いに異なる文書集合である
場合、抽出される類似語の精度上、文書集合４０１と類
似語抽出に利用する文書集合とが同一の性質を持つもの
であることが望ましい。また、索引作成手段４０２につ
いても、類似語抽出方法４０７で利用する索引作成手段
とは異なっていても良い。

【００４８】検索時には、まず検索条件変更手段４０５
が検索条件４０４を受けとり、これをもとに類似語抽出
用検索条件４０６を作成する。類似語抽出用検索条件と
しては、例えば検索条件４０４に含まれる語のうち辞書
にない語のみを利用する、といった手法でも良いし、検
索条件４０４に含まれるすべての語を利用しても良い。
類似語抽出方法４０７は、前記の方法によって、類似語
抽出用検索条件４０６から類似語４０８を抽出する。検
索条件変更手段は、得られた類似語４０６を利用して、
検索条件を拡張または変更する。拡張または変更の方法
としては、例えば得られた類似語ともとの語を置きかえ
る、あるいは得られた類似語を追加する、といった方法
が上げられる。なお、以上の説明では、検索条件４０４
に対応する１つの類似語抽出用検索条件４０６を作成し
て、類似語を求める方法について述べたが、類似語抽出
用検索条件を複数作成し（例えば、検索条件４０４に含
まれるすべての語について、個別に検索条件を作成す
る）、類似語抽出方法４０７を複数回利用して類似語を
複数セット求める、という実施形態も可能である。

【００４９】以上のようにして得られた新検索条件４０
９を利用して、文書検索手段４１０が検索を実行し、検
索結果４１１を出力する。例えば、ＷＷＷ上のサーチエ
ンジンについて知りたい利用者が、検索条件として「Ｗ
ＷＷ AND サーチエンジン」を入力した場合、前記類似
語抽出方法によって、「ＷＷＷ」に対する類似語として
「インターネット」が、また「サーチエンジン」に対す
る類似語として「検索」が得られ、検索条件を「( ＷＷ
Ｗ OR インターネット) AND ( サーチエンジン OR 検
索) 」のように拡張できる。これにより、「インターネ
ット上の検索サービス」といった表現の文書も検索結果
に含めることができ、より再現性の高い検索が可能とな
る。

【００５０】このように、本実施の形態によれば、任意
の文字列により構成される任意の検索条件に対する検索
を行い、その結果として得られる頻度情報をもとに特徴
ベクトルを作成し、これと特徴ベクトル表中の各要素と
の類似度計算を行うことにより、与えられた検索条件に
対して動的に類似語を求めることが可能となり、対象文
書集合の性質に即した類似語が得られる、という効果を
持つ。

【００５１】また本実施の形態によれば、特徴ベクトル
表の要素となる単語集合を別途与えることにより、ある
特定分野の用語に限定した類似語を得ることが可能とな
る、という効果を持つ。

【００５２】さらに本実施の形態によれば、前記類似語
抽出方法を利用した検索条件変更手段を有する文書検索
方法を構成することで、より再現性の高い文書検索が可
能となる、という効果を持つ。

【００５３】（実施の形態２）次に、本発明の第２の実
施の形態について説明する。図５は、本発明の第２の実
施の形態に係る訳語選択方法の構成を示すブロック図で
ある。図５において、実線矢印はデータの流れを、実線
両端矢印はデータの参照関係を、それぞれ示す。図５に
示す訳語選択方法の構成では、第１言語の文書集合５０
１と、第２言語の文書集合５０２との間で、文書ごとの
対応づけがなされているものとする。すなわち、各言語
の文書集合において、文書番号とその並びが同一であ
り、かつ文書数も同一であるものとする。ここでいう文
書とは、ある一つのまとまりを持つ文または句の集合で
あって、その要素は新聞記事のように複数の文から構成
されても良いし、文または句ごとに一つの文書を構成し
ても良い。また、このように文書ごとの対応が取れてい
る対訳文書が用意できない場合で、第２言語から第１言
語への機械翻訳手段が利用できる場合には、前記機械翻
訳手段を用いて第２言語の文書集合を翻訳し、これを第
１言語の文書集合５０１としても良い。

【００５４】まず、第１言語の文書集合５０１から、索
引作成手段５０２によって第１言語の索引５０３が作成
される。同様に、第２言語の文書集合５１１から、索引
作成手段５１２によって第２言語の索引５１３が作成さ
れる。さらに、特徴ベクトル作成手段５１４が、索引５
１３を参照して特徴ベクトル表５１５を作成する。その
際、別途定義されている第２言語の単語集合５１６を参
照しても良い。

【００５５】また文書検索手段５０５は、検索条件５０
４から、第１言語の索引５０３を参照して検索を行い、
頻度情報５０６を得ることができる。さらに特徴ベクト
ル作成手段５０７は、頻度情報５０６から特徴ベクトル
５０８を作成する。さらに、類似度算出手段５０９が、
特徴ベクトル５０８と特徴ベクトル表５１５を参照して
類似度計算を行い、訳語５１０を抽出する。

【００５６】次に、特徴ベクトル作成手段および類似度
算出手段について、図６を利用して詳しく説明する。図
６においては、第１言語を日本語、第２言語を英語とし
ている。まず、文書検索手段５０５が、検索条件５０４
と第１言語索引５０３を参照して、頻度情報５０６を取
得する。次に、特徴ベクトル作成手段５０７が、特徴ベ
クトル５０８を作成する。ここまでの処理は、本発明の
実施の形態１の説明における処理と同様である。また、
特徴ベクトル表作成手段は、文書集合５１１、索引５１
３、および単語集合５１６が第２言語のものであること
を除き、本発明の実施の形態１の説明における処理と同
様である。特徴ベクトル間の類似度算出手段としては、
本発明の実施の形態１で説明したように、ベクトルの内
積値を計算する方法がよく用いられるが、他に相互情報
量やt-score のような統計量を用いても良い。

【００５７】以上の構成および情報を利用した訳語選択
方法の処理について、図７に示すフローチャートを用い
て説明する。まず、ステップ７０１において、入力され
た第１言語の検索条件に対する特徴ベクトルを求める。
次に、ステップ７０２において、第２言語の特徴ベクト
ル表のうち類似度算出の対象とする要素にマークを付け
る。通常、特徴ベクトル表に記載のあるすべての要素に
対して類似度算出を行なう場合は、ここですべてにマー
クを付けるが、例えばある特定の分野に出現する語のみ
を対象としたい場合などには、ステップ７０２におい
て、そのような要素のみをマークする。また、もとの検
索条件に含まれる語などをを抽出対象から除きたい場合
には、当該語をステップ７０２においてマークしなけれ
ばよい。

【００５８】次に、ステップ７０３とステップ７０４を
くりかえすことにより、ステップ７０２においてマーク
されたすべての要素と、ステップ７０１により作成され
た特徴ベクトルとの間の類似度を算出する。続いて、ス
テップ７０５において、ステップ７０２でマークされた
べての要素を、その類似度の高い順に整列し、最後のス
テップ７０６において、類似度の高いｎ個のベクトルに
対応する語を訳語として抽出する。前述の図６では、例
えば" 情報検索" 対する訳語として、"information" "r
etrieval" が選択される。

【００５９】図８は、前記訳語選択方法を利用して、第
１言語の検索条件から第２言語の検索条件を作成する、
多言語文書検索方法について示したものである。あらか
じめ、第２言語の文書集合８０１から、索引作成手段８
０２を利用して第２言語の索引８０３が作成されてお
り、文書検索手段８１０によって検索が可能になってい
るとする。ここで、文書集合８０１は、訳語選択方法８
０７で利用する文書集合とは異なっていても良い。ただ
しその場合、選択される訳語の精度上、文書集合８０１
と訳語選択に利用する文書集合とが同一分野のものであ
ることが望ましい。また、索引作成手段８０２について
も、類似語抽出方法８０７で利用する索引作成手段とは
異なっていても良い。

【００６０】検索時には、まず検索条件作成手段８０５
が第１言語の検索条件８０４を受けとり、これをもとに
訳語選択用検索条件８０６を作成する。訳語選択用検索
条件としては、例えば検索条件８０４に含まれるすべて
の語を利用する、という手法が上げられる。訳語選択方
法８０７は、前記の方法によって、訳語選択用検索条件
８０６から訳語８０８を抽出する。検索条件変更手段
は、得られた訳語８０６を利用して、第２言語の検索条
件を作成する。第２言語の検索条件作成方法としては、
例えば得られた訳語を元の検索条件における対応する第
１言語の語と置きかえる、といった方法が上げられる。
なお、以上の説明では、検索条件８０４に対応する１つ
の訳語選択用検索条件８０６を作成して、訳語を求める
方法について述べたが、訳語選択用検索条件を複数作成
し（例えば、検索条件８０４に含まれるすべての語につ
いて、個別に検索条件を作成する）、訳語選択方法８０
７を複数回利用して訳語を複数セット求める、という実
施形態も可能である。

【００６１】以上のようにして得られた第２言語の検索
条件８０９を利用して、文書検索手段８１０が検索を実
行し、検索結果８１１を出力する。例えば、情報検索ま
たは情報抽出について知りたい利用者が、第１言語の検
索条件として「情報検索 OR情報抽出」を入力した場
合、前記訳語選択方法によって、「情報検索」に対する
訳語として「"information" "retrieval"」が、また
「情報抽出」に対する訳語として「"information" "ext
raction"」が得られ、第２言語の検索条件として「(inf
ormation AND retrieval) OR (information AND extrac
tion) 」を作成することができる。これにより、対訳辞
書などを利用せずに、対象文書集合の性質に即した第２
言語の検索条件を作成して、多言語文書検索を実現する
ことができる。

【００６２】このように、本実施の形態によれば、第１
言語における任意の文字列により構成される任意の検索
条件に対する検索を行い、その結果として得られる頻度
情報をもとに特徴ベクトルを作成し、これと第２言語の
特徴ベクトル表中の各要素との類似度計算を行うことに
より、与えられた第１言語の検索条件に対して動的に第
２言語の訳語を求めることが可能となり、対象文書集合
の性質に即した訳語が得られる、という効果を持つ。

【００６３】また本実施の形態によれば、第２言語から
第１言語への機械翻訳手段を用意することで、対訳文書
集合が利用できない場合でも、第１言語の検索条件から
第２言語の訳語選択を行なうことができる、という効果
を持つ。

【００６４】さらに本実施の形態によれば、特徴ベクト
ル表の要素となる単語集合を別途与えることにより、あ
る特定分野の用語に限定した訳語を得ることが可能とな
るという効果を持つ。さらに本実施の形態によれば、前
記訳語選択方法を利用した検索条件作成手段を有する多
言語文書検索方法を構成することで、対訳辞書等の外部
情報を利用せずに、対象文書集合の性質に即した多言語
文書検索が可能になる、という効果を持つ。

【００６５】（実施の形態３）本発明の第３の実施の形
態について図９〜図１４を用いて説明する。図９は、本
発明の実施の形態としての部分語分割方法の構成を示す
ブロック図である。この部分語分割方法は、文字列を適
当な方法で分割する文字列分割手段９０１と、与えられ
た文字列から検索式を構成する検索式構成手段９０２
と、実施の形態１に記載されたものと同様の索引９０
３、文書検索手段９０４、特徴ベクトル作成手段９０５
と、実施の形態１に記載されたものと同形式のマスク特
徴ベクトル９０６と、マスク特徴ベクトル９０６を利用
して特徴ベクトルに対して必要な次元だけを残す演算を
施す特徴ベクトル演算手段９０７と、請求項１３または
１４に記載の類似度算出手段９０８と、分割可能な部分
文字列を求め、さらに部分文字列に対して繰り返し分割
を行なう分割候補判定手段９０９と、分割候補文字列の
集合９１０と、から構成されている。

【００６６】次に、本発明の部分語分割方法について、
図９〜図１４を参照しつつその動作を説明する。図１
０は、本発明の部分語分割方法の処理手順を示すフロー
チャートである。まず、文字列分割手段９０１は、入力
された文字列を１文字語ごとに分割し、検索式構成手段
９０２は、分割された各語をＡＮＤ（論理積）で結合
し、入力された文字列自身をＮＯＴ（論理否定）結合し
た検索論理式を構成する（ステップ１００１）。図１１
は入力文字列が「自律移動ロボット」であるときに構成
される検索式を示している。

【００６７】次に、この検索式を文書検索手段９０４の
入力とし、索引９０５を利用して、検索条件に合致する
文書集合を得る。この検索式に合致する文書は、分割さ
れた１文字語を全て含んでいるが、入力文字列自身を含
んでいない文書になる。例えば、「自律的に移動するロ
ボット」とだけ記述された文書は検索条件に合致する
が、「自律移動ロボットについて」とだけ記述された文
書は合致しない。この文書集合を特徴ベクトル作成手段
９０３の入力とし、マスク特徴ベクトル９０６を得る
（ステップ１００２）。

【００６８】次に、文字列分割手段９０１は入力文字列
を先頭文字から順次２分割し、部分文字列の組を生成
し、分割候補に追加する（ステップ１００３）。ここで
は、文字位置を基準として２分割した部分文字列を生成
したが、部分文字列が得られるのであれば、形態素解析
などの手法によって分割してもよい。図１２は入力文字
列「自律移動ロボット」に対して生成された部分文字列
の組を示している。

【００６９】次に、分割された部分文字列の各組につい
て、その要素の部分文字列について、検索式構成手段９
０２、索引９０３、文書検索手段９０４、特徴ベクトル
作成手段９０５を利用して、特徴ベクトルを作成する
(ステップ１００５) 。「自律移動ロボット」からは、
「自」に対する特徴ベクトルと「律移動ロボット」に対
する特徴ベクトルが得られる。ここで得られた部分文字
列に対する特徴ベクトルは、文書集合全体に対する索引
を用いて作成したので、「自律移動ロボット」とは無関
係に、その部分文字列が出現している文書の次元に正の
値を持つことになる。たとえば、部分文字列「自」に対
しては、「自由の追求」とだけ記述された文書に対応す
る次元も正の値を持つ。

【００７０】次に、特徴ベクトルの各々について、特徴
ベクトル演算手段９０７と前記マスク特徴ベクトル９０
６を用いて、マスク特徴ベクトルにおいて正の値を持つ
次元だけを残す演算を施し、ベクトルの長さが１になる
ように正規化する( ステップ１００６) 。図１３はこの
演算の結果を示している。なおこの図では、正の値を文
字つ次元をｘ、０の値を持つ次元をｏと表現している。
この結果、「自由の追求」とだけ記述されている文書
や、「自律移動ロボット」が記述されている文書に対応
する次元の値は０となり、「自」と「律移動ロボット」
が連続せずに独立して共起している文書に対応する次元
だけが、正の値を持つことになる。

【００７１】次に、類似度算出手段９０８を利用して各
部分文字列間の類似度を算出する（ステップ１００
７）。図１４は部分文字列の各組とその類似度、分割可
能性を表形式で示している。本発明の類似度算出手段を
利用すると、部分文字列間の類似度は、同一文書中に共
通に現れているほど高くなる。ステップ１００５で、部
分文字列が連続して出現する文書は取り除いているの
で、その各要素が独立して現れる場合に類似度が高くな
る。独立して出現する部分文字列は、それだけで単独で
意味を持つ文字列と考えられ、分割可能性が高いと言え
る。

【００７２】次に、分割候補判定手段９０９は、予め指
定された閾値以上になった部分文字列の組の各要素を別
々に分割候補に追加する（ステップ１００８、ステップ
１００９）。この例では閾値を０．３５としているの
で、部分文字列組のうち、「自律、移動ロボット」と
「自律移動、ロボット」の二組に対して、分割可能性が
あることが記録される。さらにこの二組から、「自
律」、「移動ロボット」、「自律移動」、「ロボット」
の４つの文字列が分割候補に追加される。分割候補中の
文字列の分割可能性をを全て調べ終えたら（ステップ１
００４）、分割可能性があることが記録されている文字
列を出力する(ステップ１０１０）。以上のようにし
て、本発明の部分語分割方法では、それを構成する分割
可能な部分文字列に分割することができる。

【００７３】（実施の形態４）本発明の第４の実施の形
態について図１５〜図１７を用いて説明する。図１５
は、本発明の第４の実施の形態に係る類似語抽出方法の
構成を示すブロック図である。この類似語抽出方法は、
第１言語の入力文字列に対して、実施例１に記載の方法
と同様にして、第２言語の訳語を抽出する訳語選択手段
１５０１と、抽出された訳語の各々について、実施の形
態２に記載の方法と同様にして、第１言語の訳語を抽出
する訳語選択手段１５０２と、入力文字列と訳語を経由
して得られた訳語を比較して、類似語を選別する類似語
選別手段１５０３から構成されている。図１５では、訳
語選択手段を一つのブロックとして表現しているが、そ
の構成は、実施の形態２に記載の特徴ベクトル表、文書
検索手段、特徴ベクトル作成手段、類似度算出手段であ
り、その処理手順も同様である。

【００７４】次に、本発明の類似語抽出方法について、
図１５〜図１７を参照しつつその動作を説明する。図１
６は本発明の類似語抽出方法の処理手順を示すフローチ
ャートである。まず、訳語選択手段１５０１は第１言語
の入力文字列から第２言語の訳語を求める（ステップ１
６０１）。この処理は入力文字列を実施の形態２に記載
の方法における検索式とし、第２言語の特徴ベクトル表
を参照して、その訳語を求める処理である。。図１７は
第１言語を日本語とし、第２言語を英語とした場合の、
入力文字列「ギリシャ」から得られた英訳語を示してい
る。この例では「ＧＲＥＥＣＥ」と「ＲＯＭＥ」が得ら
れる。

【００７５】次に第２言語の訳語の各々について第１言
語の訳語を求める（ステップ１６０２、ステップ１６０
３）。この処理は入力文字列を実施の形態２に記載にお
ける検索式とし、第１言語の特徴ベクトル表を参照し
て、その訳語を求める処理である。ステップ１６０１と
の違いは、参照する特徴ベクトルの言語が交換してある
点である。図１７は、入力文字列「ＧＲＥＥＣＥ」、
「ＲＯＭＥ」に対する訳語を選択した例を示している。
この例では「ＧＲＥＥＣＥ」から「ギリシャ」、「ギリ
シヤ」、「ギリシア」が、「ＲＯＭＥ」から「ローマ」
が得られる。次に、類似語選別手段１５０３は、訳語選
択手段を２回経由して得られた、これらの第１言語の訳
語を入力文字列「ギリシャ」に対する類似語とする（ス
テップ１６０４）。

【００７６】カタカナ語のように、同一概念に対する異
表記が複数存在する場合、文書中での表記は異表記中の
一つが統一的に利用されることが多く、異表記を混在さ
せて記述してある文書は少ない。例えば、ある文書で
は、「ギリシャ」という表記を統一的に利用し、別の文
書では「ギリシヤ」という表記をを利用する。本発明の
実施の形態１による類似語抽出方法では、入力文字列と
同一言語の文書を次元とする特徴ベクトルを参照するた
め、異表記が存在していても、それらの異表記に対応す
る文書ベクトルは相補的になり、結果としてその異表記
を類似語と抽出することができない。本発明の実施の形
態４の方法によれば、第２言語において、同一の表記に
なるような文字列に対しても類似語が抽出できる。

【００７７】以上のようにして、本発明の類似語抽出方
法では、特に「ギリシャ」、「ギリシア」、「ギリシ
ヤ」のように、第１言語で複数の表記で表される概念
が、第２言語では一つの語で表現される場合には、その
異表記的な類似語をも抽出することができる。

【００７８】

【発明の効果】以上説明したように、本発明によれば、
文書集合から、各単語ごとの特徴ベクトルを格納した特
徴ベクトル表と、任意の文字列から構成される任意の検
索条件に対して頻度情報が取得可能な索引を作成し、与
えられた検索条件に対して前記索引を検索して頻度情報
を取得し、前記頻度情報を利用して検索条件に対応する
特徴ベクトルを動的に作成し、前記特徴ベクトル表との
照応を行って各単語との類似度を計算する、という構成
により、検索条件に対する類似度が高く、かつ文書の性
質に即した類似語を求めることができ、さらに得られた
類似語を利用して質問拡張を行うことで、再現性の高い
文書検索結果を得ることができる。

【００７９】また、前記構成に加えて、類似度算出の対
象となる単語集合を、文書集合中に出現するすべての語
とするのではなく、別途任意の単語集合を指定する、と
いう構成により、例えば特定の分野で利用される専門用
語のみから類似語を抽出することが可能となり、これに
よって分野の特性に合わせた類似語を得ることができ
る。

【００８０】さらに、文書ごとの対応がとれている対訳
文書集合に対して、第１言語および第２言語の文書集合
から、各単語ごとの特徴ベクトルを格納した特徴ベクト
ル表と、任意の文字列から構成される任意の検索条件に
対して頻度情報が取得可能な索引とをそれぞれ作成し、
与えられた第１言語の検索条件に対して、前記第１言語
の索引を検索して頻度情報を取得し、前記頻度情報を利
用して検索条件に対応する特徴ベクトルを動的に作成
し、前記第２言語の特徴ベクトル表との照応を行って各
単語との類似度を計算する、という構成により、第１言
語の検索条件に対する類似度が高く、かつ文書の性質に
即した第２言語の訳語を、対訳辞書などの外部情報を利
用せずに求めることができ、これを利用した多言語文書
検索が実現できる。

【００８１】さらに、任意の文字列に対して、分割可能
な文字列を求めることにより、新聞記事の見出しのよう
に助詞が省略された文字列や、一般に定着していない専
門語からでも、それを構成する部分文字列を抽出するこ
とができ、より再現性の高い文書検索が可能になる。

【００８２】さらに、第１言語と第２言語の間での訳語
を繰り返し求めることにより、第２言語では一語で表現
される概念が、第１言語では複数の表記で表現されてい
る場合であっても、同一概念の異なる表記の類似語を求
めることができ、より再現性の高い文書検索が可能にな
る。

【図面の簡単な説明】

【図１】本発明の類似語抽出方法の構成を示すブロック
図

【図２】本発明の類似語抽出方法における、特徴ベクト
ルと類似語算出の一例を示す図

【図３】本発明の類似語抽出方法の処理手順を示すフロ
ーチャート

【図４】本発明の類似語抽出方法を利用した文書検索方
法の構成を示すブロック図

【図５】本発明の訳語選択方法の構成を示すブロック図

【図６】本発明の訳語選択方法における、特徴ベクトル
と類似語算出の一例を示す図

【図７】本発明の訳語選択方法の処理手順を示すフロー
チャート

【図８】本発明の訳語選択方法を利用した多言語文書検
索方法の構成を示すブロック図

【図９】本発明の部文語分割方法の構成を示すブロック
図

【図１０】本発明の部文語分割方法の処理手順を示すフ
ローチャート

【図１１】本発明の部文語分割方法の検索条件の一例を
示す図

【図１２】本発明の部文語分割方法の分割文字列の一例
を示す図

【図１３】本発明の部文語分割方法のベクトル演算の一
例を示す図

【図１４】本発明の部文語分割方法の分割文字列、類似
度、分割可能性の一例を示す図

【図１５】本発明の類似語抽出方法の構成を示すブロッ
ク図

【図１６】本発明の類似語抽出方法の処理手順を示すフ
ローチャート

【図１７】本発明の類似語抽出方法で抽出された類似語
の一例を示す図

【符号の説明】

１０１文書集合１０２索引作成手段１０３索引１０４特徴ベクトル表作成手段１０５特徴ベクトル表１０６単語集合１０７検索条件１０８文書検索手段１０９頻度情報１１０特徴ベクトル作成手段１１１特徴ベクトル１１２類似度算出手段１１３類似語４０１文書集合４０２索引作成手段４０３索引４０４検索条件４０５検索条件変更手段４０６類似語抽出用検索条件４０７類似語抽出方法４０８類似語４０９新検索条件４１０文書検索手段４１１検索結果５０１第１言語文書集合５０２、５１２索引作成手段５０３第１言語索引５０４検索条件５０５文書検索手段５０６頻度情報５０７特徴ベクトル作成手段５０８特徴ベクトル５０９類似度算出手段５１０訳語５１１第２言語文書集合５１３第２言語索引５１４特徴ベクトル表作成手段５１５特徴ベクトル表５１６第２言語単語集合８０１第２言語文書集合８０２索引作成手段８０３第２言語索引８０４第１言語検索条件８０５検索条件作成手段８０６訳語選択用検索条件８０７訳語選択方法８０８訳語８０９第２言語検索条件８１０文書検索手段８１１検索結果９０１文字列分割手段９０２検索式構成手段９０３索引９０４文書検索手段９０５特徴ベクトル作成手段９０６マスク特徴ベクトル９０７特徴ベクトル演算手段９０８類似度算出手段９０９分割候補判定手段９１０分割候補文字列集合１５０１、１５０２訳語選択手段１５０３類似語選択手段

Claims

【特許請求の範囲】

【請求項１】文書集合から索引を作成する段階と、任
意の文字列から構成される検索式に対して、索引を検索
して頻度情報を取得する段階と、検索の結果取得される
頻度情報から特徴ベクトルを作成する段階と、文書集合
中に含まれるすべての語に対する特徴ベクトルを算出し
て特徴ベクトル表を作成する段階と、頻度情報から作成
した特徴ベクトルと特徴ベクトル表の中の特徴ベクトル
との間の類似度を算出する段階とを有し、入力された検索条件から検索を行い、得られた頻度情報
から特徴ベクトルを動的に作成し、作成された特徴ベク
トルと特徴ベクトル表中のベクトルとの類似度を算出
し、類似度の高い特徴ベクトル表中の語を類似語として
抽出することを特徴とする類似語抽出方法。
【請求項２】文書集合から索引を作成する段階と、任
意の文字列から構成される検索式に対して、索引を検索
して頻度情報を取得する段階と、検索の結果取得される
頻度情報から特徴ベクトルを作成する段階と、任意の単
語集合に対する特徴ベクトルを算出して特徴ベクトル表
を作成する段階と、頻度情報から作成した特徴ベクトル
と特徴ベクトル表の中の特徴ベクトルとの間の類似度を
算出する段階とを有し、入力された検索条件から検索を行い、得られた頻度情報
から特徴ベクトルを動的に作成し、作成された特徴ベク
トルと別途与えられた単語集合に対する特徴ベクトル表
中のベクトルとの類似度を算出し、類似度の高い特徴ベ
クトル表中の語を類似語として抽出することを特徴とす
る類似語抽出方法。
【請求項３】ユーザの入力した検索条件を拡張または
変更する段階を有する文書検索方法であって、前記検索条件を拡張または変更する段階において、ユー
ザの入力した検索条件から請求項１または２に記載の類
似語抽出方法のための検索条件を生成し、前記類似語抽
出方法を利用して類似語を抽出し、前記抽出された類似
語を利用して、ユーザの入力した検索条件に対する拡張
または変更を行なうことを特徴とする文書検索方法。
【請求項４】第１言語文書集合と第２言語文書集合と
の間で文書ごとの対応が取られている対訳文書集合を作
成する段階と、対応する言語ごとに文書集合から索引を
作成する段階と、任意の文字列から構成される検索式に
対して、索引を検索して語の頻度情報を取得する段階
と、検索の結果取得される頻度情報から特徴ベクトルを
作成する段階と、言語ごとに、文書集合中に含まれるす
べての語に対する特徴ベクトルを算出して特徴ベクトル
表を作成する段階と、頻度情報から作成した特徴ベクト
ルと特徴ベクトル表の中の特徴ベクトルとの間の類似度
を算出する段階とを有し、入力された第１言語の検索条件により第１言語の索引を
利用して検索を行い、得られた頻度情報から特徴ベクト
ルを動的に作成し、作成された特徴ベクトルと第２言語
の特徴ベクトル表中のベクトルとの類似度を算出し、類
似度の高い特徴ベクトル表中の語を、第１言語の検索条
件に対する訳語として選択することを特徴とする訳語選
択方法。
【請求項５】第１言語文書集合と第２言語文書集合と
の間で文書ごとの対応が取られている対訳文書集合を作
成する段階と、対応する言語ごとに文書集合から索引を
作成する段階と、任意の文字列から構成される検索式に
対して、索引を検索して語の頻度情報を取得する段階
と、検索の結果取得される頻度情報から特徴ベクトルを
作成する段階と、言語ごとに、任意の単語集合に対する
特徴ベクトルを算出して特徴ベクトル表を作成する段階
と、頻度情報から作成した特徴ベクトルと特徴ベクトル
表の中の特徴ベクトルとの間の類似度を算出する段階と
を有し、入力された第１言語の検索条件により第１言語の索引を
利用して検索を行い、得られた頻度情報から特徴ベクト
ルを動的に作成し、作成された特徴ベクトルと別途与え
られた第２言語の単語集合に対する特徴ベクトル表中の
ベクトルとの類似度を算出し、類似度の高い特徴ベクト
ル表中の語を、第１言語の検索条件に対する訳語として
選択することを特徴とする訳語選択方法。
【請求項６】第２言語から第１言語へ翻訳する段階を
さらに有し、翻訳された第１言語の文書集合と、翻訳元
である第２言語の文書集合とを対訳文書集合として利用
することを特徴とする請求項４または請求項５に記載の
類似語抽出方法。
【請求項７】ユーザの入力した第１言語の検索条件か
ら、第２言語の検索条件を自動的に作成する段階をさら
に有し、前記検索条件を自動的に作成する段階において
ユーザの入力した第１言語の検索条件から、請求項４、
５または６に記載の類似語抽出方法のための検索条件を
生成し、前記類似語抽出方法を利用して第２言語の訳語
を選択し、前記選択された訳語を利用して第２言語の検
索条件を作成し、第２言語の文書を検索することを特徴
とする多言語文書の文書検索方法。
【請求項８】索引を検索して頻度情報を取得するより
も前段階で検索条件を規定する文字列を分割する段階
と、特徴ベクトル作成時にマスク特徴ベクトルを作成す
る段階と、マスク特徴ベクトルを作成した後に特徴ベク
トル演算を行なって特徴ベクトルの必要な次元だけを取
り出す段階と、特徴ベクトル演算の後に各々の部分文字
列の特徴ベクトル間の類似度を算出し、分割点により分
割された部分文字列間の類似度が高い分割点において文
字列を分割することを特徴とする部分語分割方法。
【請求項９】もとの文字列を部分文字列に分割した
後、各々の文字列に対して繰り返し分割を行ない、分割
可能な部分文字列を求める段階をさらに有することを特
徴とする請求項８に記載の部分語分割方法。
【請求項１０】請求項８または９に記載の部分語分割
動作を利用して、入力された検索式を構成する検索語を
部分語に分割し、分割された部分語を利用して検索式の
拡張または変更を行なうことを特徴とする文書検索方
法。
【請求項１１】第１言語の任意の入力文字列に対し
て、請求項４、５または６に記載の訳語選択動作によっ
て、第２言語の訳語を求め、各訳語に対して、請求項
４、５、または６に記載の訳語選択動作によって、第１
言語の訳語を求め、その訳語から、入力文字列に対する
類似語を選別することを特徴とする、類似語抽出方法。
【請求項１２】請求項１０に記載の類似語抽出方法を
利用して、入力された検索式を構成する検索語から類似
語を抽出し、抽出された類似語を利用して検索式の拡張
または変更を行なうことを特徴とする文書検索方法。
【請求項１３】文書集合から索引を作成する索引作成
手段と、任意の文字列から構成される検索式に対し索引
を検索して頻度情報を取得する文書検索手段と、検索の
結果取得される頻度情報から特徴ベクトルを作成する特
徴ベクトル作成手段と、文書集合中に含まれるすべての
語に対する特徴ベクトルを算出して表として格納する特
徴ベクトル表作成手段と、特徴ベクトル間の類似度を算
出する類似度算出手段とを備え、入力された検索条件から、前記文書検索手段を利用して
検索を行い、得られた頻度情報から前記特徴ベクトル作
成手段を利用して特徴ベクトルを動的に作成し、前記類
似度算出手段が頻度情報から作成した特徴ベクトルと特
徴ベクトル表の中の特徴ベクトルとの間の類似度を算出
し、類似度の高い特徴ベクトル表中の語を類似語として
抽出することを特徴とする類似語抽出装置
【請求項１４】文書集合から索引を作成する索引作成
手段と、任意の文字列から構成される検索式に対し索引
を検索して頻度情報を取得する文書検索手段と、検索の
結果取得される頻度情報から特徴ベクトルを作成する特
徴ベクトル作成手段と、任意の単語集合に対する特徴ベ
クトルを算出して表として格納する特徴ベクトル表作成
手段と、特徴ベクトル間の類似度を算出する類似度算出
手段とを備え、入力された検索条件から、前記文書検索手段を利用して
検索を行い、得られた頻度情報から前記特徴ベクトル作
成手段を利用して特徴ベクトルを動的に作成し、前記類
似度算出手段が、別途与えられた単語集合に対する特徴
ベクトル表中のベクトルとの類似度を算出し、類似度の
高い特徴ベクトル表中の語を類似語として抽出すること
を特徴とする類似語抽出装置。
【請求項１５】ユーザの入力した検索条件を拡張また
は変更する検索条件変更手段を有する文書検索装置であ
って、前記検索条件変更手段が、ユーザの入力した検索条件か
ら、類似語抽出のための検索条件を生成し、前記類似語
抽出装置を利用して類似語を抽出し、前記抽出された類
似語を利用して、ユーザの入力した検索条に対する拡張
または変更を行うことを特徴とする文書検索装置。
【請求項１６】第１言語文書集合と第２言語文書集合
とから構成され文書ごとの対応が取れている対訳文書集
合と、この対訳文書集合から、言語ごとに文書集合から
索引を作成する索引作成手段と、任意の文字列から構成
される任意の検索式に対して、索引を検索して語の頻度
情報を取得可能な文書検索手段と、検索の結果取得され
る頻度情報からベクトルを作成する特徴ベクトル作成手
段と、言語ごとに、文書集合中に含まれるすべての語に
対する特徴ベクトルを算出して表として格納する特徴ベ
クトル表作成手段と、特徴ベクトル間の類似度を算出す
る類似度算出手段と、を有し、入力された第１言語の検索条件により、前記文書検索手
段と第１言語の索引を利用して検索を行ない、得られた
頻度情報から前記特徴ベクトル作成手段を利用して特徴
ベクトルを動的に作成し、前記類似度算出手段が第２言
語の特徴ベクトル表中のベクトルとの類似度を算出し、
類似度の高い特徴ベクトル表中の語を、第１言語の検索
条件に対する訳語として選択することを特徴とする訳語
選択装置。
【請求項１７】第１言語文書集合と第２言語文書集合
とから構成され文書ごとの対応が取れている対訳文書集
合と、この対訳文書集合から、言語ごとに文書集合から
索引を作成する索引作成手段と、任意の文字列から構成
される任意の検索式に対して、索引を検索して語の頻度
情報を取得可能な文書検索手段と、検索の結果取得され
る頻度情報からベクトルを作成する特徴ベクトル作成手
段と、言語ごとに、任意の単語集合に対する特徴ベクト
ルを算出して表として格納する特徴ベクトル表作成手段
と、特徴ベクトル間の類似度を算出する類似度算出手段
とを有し、入力された第１言語の検索条件により、前記文書検索手
段と第１言語の索引を利用して検索を行ない、得られた
頻度情報から前記特徴ベクトル作成手段を利用して特徴
ベクトルを動的に作成し、前記類似度算出手段が、別途
与えられた第２言語の単語集合に対する特徴ベクトル表
中のベクトルとの類似度を算出し、類似度の高い特徴ベ
クトル表中の語を、第１言語の検索条件に対する訳語と
して選択することを特徴とする訳語選択装置。
【請求項１８】第２言語から第１言語への翻訳が可能
な文書翻訳手段を有し、前記文書翻訳手段により翻訳さ
れた第１言語の文書集合と、翻訳元である第２言語の文
書集合とを対訳文書集合として利用することを特徴とす
る、請求項１６または請求項１７に記載の訳語選択装
置。
【請求項１９】ユーザの入力した第１言語の検索条件
から、第２言語の検索条件を自動的に作成する検索条件
作成手段を有する多言語文書検索装置であって、前記
検索条件作成手段が、ユーザの入力した第１言語の検索
条件から、請求項１６乃至１８のいずれかに記載の訳語
選択動作のための検索条件を生成し、前記訳語選択方法
を利用して第２言語の訳語を選択し、前記選択された訳
語を利用して第２言語の検索条件を作成し、第２言語の
文書を検索することを特徴とする、多言語文書検索装
置。
【請求項２０】文字列を適当な方法で分割する文字列
分割手段と、文字列から検索式を構成する検索式構成手
段と、請求項１３または１４に記載の文書検索手段、特
徴ベクトル作成手段、類似度算出手段と、特徴ベクトル
の必要な次元だけを取り出す特徴ベクトル演算手段と、
文字列に対して繰り返し分割を行ない、分割可能な部分
文字列を求める分割候補判定手段とを有し、文字列分割手段を利用して、入力文字列を一文字づつに
分割し、検索式構成手段を利用して、検索条件を構成
し、この検索式から請求項１３または１４に記載の文書
検索手段と特徴ベクトル作成手段を利用してマスク特徴
ベクトルを作成し、文字列分割手段を利用して部分文字
列の組を作成し、その分割された文字列の組の各々につ
いて、前記検索式構成手段、文書検索手段、特徴ベクト
ル作成手段を利用して特徴ベクトルを作成し、特徴ベク
トル演算手段を利用して、前記マスク特徴ベクトルに出
現する次元だけを残すような演算を施した特徴ベクトル
を作成し、請求項１３または１４に記載の類似度算出手
段を利用して、各々の部分文字列の特徴ベクトル間の類
似度を計算して類似語抽出を行ない、分割語候補判定手
段を利用して、類似度が閾値以上になる部分文字列の組
に含まれる部分文字列を分割語候補に追加し、繰り返し
類似語抽出のための分割語候補を求めることを特徴とす
る部分語分割装置。
【請求項２１】ユーザの入力した検索条件に対して、
索引を検索して頻度情報を取得するよりも前段階で検索
条件を規定する文字列を分割する手段と、特徴ベクトル
作成時にマスク特徴ベクトルを作成する手段と、マスク
特徴ベクトルを作成した後に特徴ベクトル演算を行なっ
て特徴ベクトルの必要な次元だけを取り出す手段とを備
え、特徴ベクトル演算の後に各々の部分文字列の特徴ベ
クトル間の類似度を算出し、分割点により分割された部
分文字列間の類似度が高い分割点において文字列を分割
することを特徴とする部分語分割装置。
【請求項２２】もとの文字列を部分文字列に分割した
後、各々の文字列に対して繰り返し分割を行ない、分割
可能な部分文字列を求める手段をさらに有することを特
徴とする請求項２１に記載の部分語分割装置。
【請求項２３】請求項２１または２２に記載の部分語
分割動作を利用して、入力された検索式を構成する検索
語を部分語に分割する手段と、分割された部分語を利用
して検索式の拡張または変更を行なう手段とを有するこ
とを特徴とする文書検索装置。