JP2001043236A - 類似語抽出方法、文書検索方法及びこれらに用いる装置 - Google Patents

類似語抽出方法、文書検索方法及びこれらに用いる装置

Info

Publication number
JP2001043236A
JP2001043236A JP11216617A JP21661799A JP2001043236A JP 2001043236 A JP2001043236 A JP 2001043236A JP 11216617 A JP11216617 A JP 11216617A JP 21661799 A JP21661799 A JP 21661799A JP 2001043236 A JP2001043236 A JP 2001043236A
Authority
JP
Japan
Prior art keywords
feature vector
search
language
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11216617A
Other languages
English (en)
Inventor
Mitsuhiro Sato
光弘 佐藤
Kai Itou
快 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP11216617A priority Critical patent/JP2001043236A/ja
Priority to CN00122279A priority patent/CN1282934A/zh
Priority to EP00116441A priority patent/EP1072982A3/en
Priority to TW089115283A priority patent/TW476034B/zh
Priority to KR10-2000-0044283A priority patent/KR100408637B1/ko
Publication of JP2001043236A publication Critical patent/JP2001043236A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 任意の文字列から成る検索条件に対して、類
似語や訳語を抽出して検索条件を拡張し、再現性の高い
文書検索を実現する。 【解決手段】 類似語抽出装置に、文書集合101から
索引を作成する索引作成手段102と、任意の文字列で
成る検索式に対し索引を検索して頻度情報を取得する文
書検索手段108と、前記頻度情報から特徴ベクトルを
作成する手段110と、文書集合中の全語に対する特徴
ベクトルを算出して表として格納する特徴ベクトル表作
成手段104と、特徴ベクトル間の類似度を算出する類
似度算出手段112とを設けた。前記頻度情報から特徴
ベクトルを動的に作成し、類似度算出手段によって特徴
ベクトル表中のベクトルとの類似度を算出して、ベクト
ル間の類似度が高い語を類似語として抽出し、類似語を
利用して質問拡張を行なうことにより、より再現性の高
い文書検索を行える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子化され蓄積さ
れた文書情報から、所望の文書を検索する文書検索シス
テムに関するものであり、特に利用者の検索要求を拡張
または変更するための類似語抽出方法、および抽出され
た語を利用した文書検索方法並びにこれらに用いる装置
に関する。
【0002】
【従来の技術】インターネット、パーソナルコンピュー
タ等の普及によって、大量の電子化文書が流通するよう
になったのに伴ない、文書検索システムに対する関心が
高まってきている。そのような文書検索システムでは、
通常、利用者が入力した検索キーワードに対する照合を
行い、キーワードが含まれる文書を検索結果として提示
する。しかしながら、同一の内容を異なる表現で記述し
ている文書は数多く存在するため、利用者が想起したキ
ーワードのみで、利用者が欲するすべての文書を取得す
ることは困難である。このため、検索条件を拡張して検
索を行う、質問拡張の手法が、従来から提案されてきて
いる。
【0003】また、インターネットの普及によって手軽
に世界中の情報にアクセスできる環境が整ったことか
ら、母国語以外の情報を検索したい、という要求も増え
つつある。こうした要求に答える多言語文書検索方法の
研究開発も、近年盛んになってきた。
【0004】質問拡張の手法としては、例えば、「シソ
ーラスによるクエリー展開を用いた大規模テキスト検
索」(赤峯他、情報処理学会第52回全国大会論文集,
pp. 4-201 - 4-202, 1996 )(文献1)がある。この手
法では、固定のシソーラスを利用して検索語に対する類
似語を求め、これを用いて検索条件を拡張する。
【0005】一方、「概念に基づく検索要求文の拡張」
(斉藤他、情報処理学会研究報告、情報学基礎 47-10,
pp.67-74, 1997)(文献2)では、文書を次元とするベ
クトル空間上に各単語をマップし、ベクトル間の内積値
を単語間の類似度とすることで、検索対象文書の性質に
合った類似語を取得し、質問拡張を行う手法が提案され
ている。
【0006】また、多言語文書検索の実現方法として
は、例えば "Resolving Ambiguity for Cross-Language
Retrieval" (Ballesteros, L. and Croft, W.B., ACM-
SIGIR98 pp.64-71, 1998) (文献3)がある。この手法
では、対訳辞書を利用して訳語候補をリストアップし、
検索対象文書中の語の共起頻度を利用して訳語を絞り込
むことにより、目的言語の検索条件を生成する。
【0007】
【発明が解決しようとする課題】文献1で示されている
手法では、求められる類似語は固定のシソーラスの語彙
に依存するため、専門分野の検索などには適さない、と
いう問題がある。また、文献2に示されている手法で
は、日本語のように分かち書きされない言語が検索対象
文書である場合、一般に定着していない専門語や、助詞
を省略した新聞記事の見出しからは、それを構成する検
索語を抽出することができず、特に専門用語が重要とな
る検索対象に対しては質問拡張が困難である、という欠
点があった。
【0008】また、文献3で示されている多言語文書検
索手法では、対訳辞書の利用が前提となっており、選択
される訳語が固定の対訳辞書の語彙に依存し、かつ日本
語のように分かち書きされない言語の場合には、任意の
文字列に対する訳語を求めることができないため、特に
専門用語が重要となる検索対象に対しては、訳語選択が
困難である、という欠点があった。
【0009】本発明は、上記の課題を解決するものであ
り、任意の文字列から構成される任意の検索条件に対し
て、動的に類似語や訳語を求めることが可能な類似語抽
出方法および訳語選択方法と、これらを利用した文書検
索方法を提供することを目的とする。
【0010】
【課題を解決するための手段】本発明は、上記目的を達
成するため、文書集合から、各単語ごとの特徴ベクトル
を格納した特徴ベクトル表と、任意の文字列から構成さ
れる任意の検索条件に対して頻度情報が取得可能な索引
を作成し、与えられた検索条件に対して前記索引を検索
して頻度情報を取得し、前記頻度情報を利用して検索条
件に対応する特徴ベクトルを動的に作成し、前記特徴ベ
クトル表との照応を行って各単語との類似度を計算する
ことにより、前記検索条件に対する類似度が高く、かつ
文書の性質に即した類似語を求めることができ、さらに
得られた類似語を利用して質問拡張を行うことで、再現
性の高い文書検索結果を得ることができる。
【0011】また本発明によれば、類似度算出の対象と
なる単語集合を、文書集合中に出現するすべての語とす
るのではなく、別途任意の単語集合を指定することで、
例えば特定の分野で利用される専門用語のみから類似語
を抽出することが可能であり、これによって分野の特性
に合わせた類似語を得ることができる。
【0012】さらに本発明によれば、文書ごとの対応が
とれている対訳文書集合に対して、第1言語および第2
言語の文書集合から、各単語ごとの特徴ベクトルを格納
した特徴ベクトル表と、任意の文字列から構成される任
意の検索条件に対して頻度情報が取得可能な索引とをそ
れぞれ作成し、与えられた第1言語の検索条件に対し
て、前記第1言語の索引を検索して頻度情報を取得し、
前記頻度情報を利用して検索条件に対応する特徴ベクト
ルを動的に作成し、前記第2言語の特徴ベクトル表との
照応を行って各単語との類似度を計算することにより、
前記第1言語の検索条件に対する類似度が高く、かつ文
書の性質に即した第2言語の訳語を、対訳辞書などの外
部情報を利用せずに求めることができ、これを利用した
多言語文書検索が実現できる。
【0013】さらに本発明によれば、任意の文字列に対
して、分割可能な文字列を求めることにより、新聞記事
の見出しのように助詞が省略された文字列や、一般に定
着していない専門語からでも、それを構成する部分文字
列を抽出することができ、より再現性の高い文書検索が
可能になる。
【0014】さらに本発明によれば、第1言語と第2言
語の間での訳語を繰り返し求めることにより、第2言語
では一語で表現される概念が、第1言語では複数の表記
で表現されている場合であっても、同一概念の異なる表
記の類似語を求めることができ、より再現性の高い文書
検索が可能になる。
【0015】上記のような特徴を有する本発明におい
て、本発明の請求項1に記載の発明は、文書集合から索
引を作成する段階と、任意の文字列から構成される検索
式に対して、索引を検索して頻度情報を取得する段階
と、検索の結果取得される頻度情報から特徴ベクトルを
作成する段階と、文書集合中に含まれるすべての語に対
する特徴ベクトルを算出して特徴ベクトル表を作成する
段階と、頻度情報から作成した特徴ベクトルと特徴ベク
トル表の中の特徴ベクトルとの間の類似度を算出する段
階とを有し、入力された検索条件から検索を行い、得ら
れた頻度情報から特徴ベクトルを動的に作成し、作成さ
れた特徴ベクトルと特徴ベクトル表中のベクトルとの類
似度を算出し、類似度の高い特徴ベクトル表中の語を類
似語として抽出することを特徴とするものであり、任意
の文字列から構成される任意の検索条件に対して、検索
の対象となる文書の性質に即した類似語を抽出すること
ができるという作用を有する。
【0016】本発明の請求項2に記載の発明は、文書集
合から索引を作成する段階と、任意の文字列から構成さ
れる検索式に対して、索引を検索して頻度情報を取得す
る段階と、検索の結果取得される頻度情報から特徴ベク
トルを作成する段階と、任意の単語集合に対する特徴ベ
クトルを算出して特徴ベクトル表を作成する段階と、頻
度情報から作成した特徴ベクトルと特徴ベクトル表の中
の特徴ベクトルとの間の類似度を算出する段階とを有
し、入力された検索条件から検索を行い、得られた頻度
情報から特徴ベクトルを動的に作成し、作成された特徴
ベクトルと別途与えられた単語集合に対する特徴ベクト
ル表中のベクトルとの類似度を算出し、類似度の高い特
徴ベクトル表中の語を類似語として抽出することを特徴
とするものであり、特定分野の用語などに限定した類似
語抽出を行うことを可能にして、より適格な類似語を得
ることができるという作用を有する。
【0017】本発明の請求項3に記載の発明は、ユーザ
の入力した検索条件を拡張または変更する段階を有する
文書検索方法であって、前記検索条件を拡張または変更
する段階において、ユーザの入力した検索条件から請求
項1または2に記載の類似語抽出方法のための検索条件
を生成し、前記類似語抽出方法を利用して類似語を抽出
し、前記抽出された類似語を利用して、ユーザの入力し
た検索条件に対する拡張または変更を行なうことを特徴
とするものであり、検索対象文書の性質に即した動的な
質問拡張が可能になるという作用を有する。
【0018】本発明の請求項4に記載の発明は、第1言
語文書集合と第2言語文書集合との間で文書ごとの対応
が取られている対訳文書集合を作成する段階と、対応す
る言語ごとに文書集合から索引を作成する段階と、任意
の文字列から構成される検索式に対して、索引を検索し
て語の頻度情報を取得する段階と、検索の結果取得され
る頻度情報から特徴ベクトルを作成する段階と、言語ご
とに、文書集合中に含まれるすべての語に対する特徴ベ
クトルを算出して特徴ベクトル表を作成する段階と、頻
度情報から作成した特徴ベクトルと特徴ベクトル表の中
の特徴ベクトルとの間の類似度を算出する段階とを有
し、入力された第1言語の検索条件により第1言語の索
引を利用して検索を行い、得られた頻度情報から特徴ベ
クトルを動的に作成し、作成された特徴ベクトルと第2
言語の特徴ベクトル表中のベクトルとの類似度を算出
し、類似度の高い特徴ベクトル表中の語を、第1言語の
検索条件に対する訳語として選択することを特徴とする
ものであり、対訳辞書などの外部情報を用いずに、かつ
検索対象文書の性質に即した訳語が選択できるという作
用を有する。
【0019】本発明の請求項5に記載の発明は、第1言
語文書集合と第2言語文書集合との間で文書ごとの対応
が取られている対訳文書集合を作成する段階と、対応す
る言語ごとに文書集合から索引を作成する段階と、任意
の文字列から構成される検索式に対して、索引を検索し
て語の頻度情報を取得する段階と、検索の結果取得され
る頻度情報から特徴ベクトルを作成する段階と、言語ご
とに、任意の単語集合に対する特徴ベクトルを算出して
特徴ベクトル表を作成する段階と、頻度情報から作成し
た特徴ベクトルと特徴ベクトル表の中の特徴ベクトルと
の間の類似度を算出する段階とを有し、入力された第1
言語の検索条件により第1言語の索引を利用して検索を
行い、得られた頻度情報から特徴ベクトルを動的に作成
し、作成された特徴ベクトルと別途与えられた第2言語
の単語集合に対する特徴ベクトル表中のベクトルとの類
似度を算出し、類似度の高い特徴ベクトル表中の語を、
第1言語の検索条件に対する訳語として選択することを
特徴とするものであり、特定分野の用語などに限定した
訳語選択を可能にして、より適格な訳語を得ることがで
きるという作用を有する。
【0020】本発明の請求項6に記載の発明は、請求項
4または請求項5に記載の類似語抽出方法において、第
2言語から第1言語へ翻訳する段階をさらに有し、翻訳
された第1言語の文書集合と、翻訳元である第2言語の
文書集合とを対訳文書集合として利用することを特徴と
するものであり、対訳文書集合が準備できない場合で
も、訳語選択が実現できるという作用を有する。
【0021】本発明の請求項7に記載の発明は、ユーザ
の入力した第1言語の検索条件から、第2言語の検索条
件を自動的に作成する段階をさらに有し、ユーザの入力
した第1言語の検索条件から、請求項4、5または6に
記載の類似語抽出方法のための検索条件を生成し、前記
類似語抽出方法を利用して第2言語の訳語を選択し、前
記選択された訳語を利用して第2言語の検索条件を作成
し、第2言語の文書を検索することを特徴とする多言語
文書検索方法であり、これによって、検索対象文書の性
質に合わせた多言語文書検索が可能になるという作用を
有する。
【0022】本発明の請求項8に記載の発明は、索引を
検索して頻度情報を取得するよりも前段階で検索条件を
規定する文字列を分割する段階と、特徴ベクトル作成時
にマスク特徴ベクトルを作成する段階と、マスク特徴ベ
クトルを作成した後に特徴ベクトル演算を行なって特徴
ベクトルの必要な次元だけを取り出す段階と、特徴ベク
トル演算の後に各々の部分文字列の特徴ベクトル間の類
似度を算出し、分割点により分割された部分文字列間の
類似度が高い分割点において文字列を分割することを特
徴とするものであり、検索対象文書の性質に即した部分
語を求めることが可能になるという作用を有する。
【0023】本発明の請求項9に記載の発明は、請求項
8記載の部分語分割方法において、もとの文字列を部分
文字列に分割した後、各々の文字列に対して繰り返し分
割を行ない、分割可能な部分文字列を求める段階をさら
に有することを特徴とするものであり、文字列を繰り返
し分割することにより検索対象文書の性質に即した部分
語を求めることが可能になるという作用を有する。
【0024】本発明の請求項10に記載の発明は、請求
項8または9に記載の部分語分割動作を利用して、入力
された検索式を構成する検索語を部分語に分割し、分割
された部分語を利用して検索式の拡張または変更を行な
うことを特徴とする文書検索方法であり、より再現性の
高い文書検索が可能になる、という作用を有する。
【0025】本発明の請求項11に記載の発明は、第1
言語の任意の入力文字列に対して、請求項4、5または
6に記載の訳語選択動作によって、第2言語の訳語を求
め、各訳語に対して、請求項4、5、または6に記載の
訳語選択動作によって、第1言語の訳語を求め、その訳
語から、入力文字列に対する類似語を選別することを特
徴とするものであり、請求項1または2に記載の類似語
抽出方法では抽出することが困難である、異表記的な類
似語をも抽出することが可能になるという作用を有す
る。
【0026】本発明の請求項12に記載の発明は、請求
項10に記載の類似語抽出方法を利用して、入力された
検索式を構成する検索語から類似語を抽出し、抽出され
た類似語を利用して検索式の拡張または変更を行なうこ
とを特徴とする文書検索方法であり、より再現性の高い
文書検索が可能になるという作用を有する。
【0027】本発明の請求項13に記載の発明は、類似
語抽出装置として、文書集合から索引を作成する索引作
成手段と、任意の文字列から構成される検索式に対し
て、索引を検索して頻度情報を取得可能な文書検索手段
と、検索の結果取得された頻度情報からベクトルを作成
する特徴ベクトル作成手段と、文書集合中に含まれるす
べての語に対する特徴ベクトルを算出して表として格納
する特徴ベクトル表作成手段と、特徴ベクトル間の類似
度を算出する類似度算出手段と、を有し、入力された検
索条件から、前記文書検索手段を利用して検索を行い、
得られた頻度情報から前記特徴ベクトル作成手段を利用
して特徴ベクトルを動的に作成し、前記類似度算出手段
が特徴ベクトル表中のベクトルとの類似度を算出し、類
似度の高い特徴ベクトル表中の語を類似語として抽出す
ることを特徴とするものであり、任意の文字列から構成
される任意の検索条件に対して、検索の対象となる文書
の性質に即した類似語を抽出することができる、という
作用を有する。
【0028】本発明の請求項14に記載の発明は、類似
語抽出装置として、文書集合から索引を作成する索引作
成手段と、任意の文字列から構成される検索式に対し索
引を検索して頻度情報を取得する文書検索手段と、検索
の結果取得される頻度情報から特徴ベクトルを作成する
特徴ベクトル作成手段と、任意の単語集合に対する特徴
ベクトルを算出して表として格納する特徴ベクトル表作
成手段と、特徴ベクトル間の類似度を算出する類似度算
出手段とを備え、入力された検索条件から、前記文書検
索手段を利用して検索を行い、得られた頻度情報から前
記特徴ベクトル作成手段を利用して特徴ベクトルを動的
に作成し、前記類似度算出手段が、別途与えられた単語
集合に対する特徴ベクトル表中のベクトルとの類似度を
算出し、類似度の高い特徴ベクトル表中の語を類似語と
して抽出することを特徴とするものであり、特定分野の
用語などに限定した類似語抽出を行うことを可能にし
て、より適格な類似語を得ることができるという作用を
有する。
【0029】本発明の請求項15に記載の発明は、ユー
ザの入力した検索条件を拡張または変更する検索条件変
更手段を有する文書検索装置であって、前記検索条件変
更手段が、ユーザの入力した検索条件から、類似語抽出
のための検索条件を生成し、前記類似語抽出装置を利用
して類似語を抽出し、前記抽出された類似語を利用し
て、ユーザの入力した検索条に対する拡張または変更を
行うことを特徴とするものであり、検索対象文書の性質
に即した動的な質問拡張が可能になるという作用を有す
る。
【0030】本発明の請求項16に記載の発明は、類似
語抽出装置として、第1言語文書集合と第2言語文書集
合とから構成され文書ごとの対応が取れている対訳文書
集合と、この対訳文書集合から、言語ごとに文書集合か
ら索引を作成する索引作成手段と、任意の文字列から構
成される任意の検索式に対して、索引を検索して語の頻
度情報を取得可能な文書検索手段と、検索の結果取得さ
れる頻度情報からベクトルを作成する特徴ベクトル作成
手段と、言語ごとに、文書集合中に含まれるすべての語
に対する特徴ベクトルを算出して表として格納する特徴
ベクトル表作成手段と、特徴ベクトル間の類似度を算出
する類似度算出手段と、を有し、
【0031】入力された第1言語の検索条件により、前
記文書検索手段と第1言語の索引を利用して検索を行な
い、得られた頻度情報から前記特徴ベクトル作成手段を
利用して特徴ベクトルを動的に作成し、前記類似度算出
手段が第2言語の特徴ベクトル表中のベクトルとの類似
度を算出し、類似度の高い特徴ベクトル表中の語を、第
1言語の検索条件に対する訳語として選択することを特
徴とするものであり、対訳辞書などの外部情報を用いず
に、かつ検索対象文書の性質に即した訳語が選択できる
という作用を有する。
【0032】本発明の請求項17に記載の発明は、類似
語抽出装置として、第1言語文書集合と第2言語文書集
合とから構成され文書ごとの対応が取れている対訳文書
集合と、この対訳文書集合から、言語ごとに文書集合か
ら索引を作成する索引作成手段と、任意の文字列から構
成される任意の検索式に対して、索引を検索して語の頻
度情報を取得可能な文書検索手段と、検索の結果取得さ
れる頻度情報からベクトルを作成する特徴ベクトル作成
手段と、言語ごとに、任意の単語集合に対する特徴ベク
トルを算出して表として格納する特徴ベクトル表作成手
段と、特徴ベクトル間の類似度を算出する類似度算出手
段と、を有し、入力された第1言語の検索条件により、
前記文書検索手段と第1言語の索引を利用して検索を行
ない、得られた頻度情報から前記特徴ベクトル作成手段
を利用して特徴ベクトルを動的に作成し、前記類似度算
出手段が、別途与えられた第2言語の単語集合に対する
特徴ベクトル表中のベクトルとの類似度を算出し、類似
度の高い特徴ベクトル表中の語を、第1言語の検索条件
に対する訳語として選択することを特徴とするものであ
り、特定分野の用語などに限定した訳語選択を可能にし
て、より適格な訳語を得ることができるという作用を有
する。
【0033】本発明の請求項18に記載の発明は、請求
項16または請求項17に記載の類似語抽出装置におい
て、第2言語から第1言語への翻訳が可能な文書翻訳手
段を有し、前記文書翻訳手段により翻訳された第1言語
の文書集合と、翻訳元である第2言語の文書集合とを対
訳文書集合として利用することを特徴とするものであ
り、対訳文書集合が準備できない場合でも、訳語選択が
実現できるという作用を有する。
【0034】本発明の請求項19に記載の発明は、ユー
ザの入力した第1言語の検索条件から、第2言語の検索
条件を自動的に作成する検索条件作成手段を有する多言
語文書検索装置であって、前記検索条件作成手段が、ユ
ーザの入力した第1言語の検索条件から、請求項16乃
至18のいずれかに記載の訳語選択動作のための検索条
件を生成し、前記訳語選択方法を利用して第2言語の訳
語を選択し、前記選択された訳語を利用して第2言語の
検索条件を作成し、第2言語の文書を検索することを特
徴とするものであり、検索対象文書の性質に合わせた多
言語文書検索が可能になるという作用を有する。
【0035】本発明の請求項20に記載の発明は、部分
語分割装置として、文字列を適当な方法で分割する文字
列分割手段と、文字列から検索式を構成する検索式構成
手段と、請求項13または14に記載の文書検索手段、
特徴ベクトル作成手段、類似度算出手段と、特徴ベクト
ルの必要な次元だけを取り出す特徴ベクトル演算手段
と、文字列に対して繰り返し分割を行ない、分割可能な
部分文字列を求める分割候補判定手段とを有し、文字列
分割手段を利用して、入力文字列を一文字づつに分割
し、検索式構成手段を利用して、検索条件を構成し、こ
の検索式から請求項13または14に記載の文書検索手
段と特徴ベクトル作成手段を利用してマスク特徴ベクト
ルを作成し、文字列分割手段を利用して部分文字列の組
を作成し、その分割された文字列の組の各々について、
前記検索式構成手段、文書検索手段、特徴ベクトル作成
手段を利用して特徴ベクトルを作成し、特徴ベクトル演
算手段を利用して、前記マスク特徴ベクトルに出現する
次元だけを残すような演算を施した特徴ベクトルを作成
し、請求項13または14に記載の類似度算出手段を利
用して、各々の部分文字列の特徴ベクトル間の類似度を
計算して類似語抽出を行ない、分割語候補判定手段を利
用して、類似度が閾値以上になる部分文字列の組に含ま
れる部分文字列を分割語候補に追加し、繰り返し類似語
抽出のための分割語候補を求めることを特徴とするもの
であり、検索対象文書の性質に即した部分語を求めるこ
とが可能になるという作用を有する。
【0036】本発明の請求項21に記載の発明は、部分
語分割類装置として、ユーザの入力した検索条件に対し
て、索引を検索して頻度情報を取得するよりも前段階で
検索条件を規定する文字列を分割する手段と、特徴ベク
トル作成時にマスク特徴ベクトルを作成する手段と、マ
スク特徴ベクトルを作成した後に特徴ベクトル演算を行
なって特徴ベクトルの必要な次元だけを取り出す手段と
を備えたものであり、特徴ベクトル演算の後に各々の部
分文字列の特徴ベクトル間の類似度を算出し、分割点に
より分割された部分文字列間の類似度が高い分割点にお
いて文字列を分割することにより、検索対象文書の性質
に即した部分語を求めることが可能になるという作用を
有する。
【0037】本発明の請求項22に記載の発明は、請求
項21に記載の部分語分割装置において、もとの文字列
を部分文字列に分割した後、各々の文字列に対して繰り
返し分割を行ない、分割可能な部分文字列を求める手段
をさらに有することを特徴とするものであり部分語分割
をより細かく行なえるという作用を有する。
【0038】本発明の請求項23に記載の発明は、文書
検索装置として、請求項21または22に記載の部分語
分割動作を利用して、入力された検索式を構成する検索
語を部分語に分割する手段と、分割された部分語を利用
して検索式の拡張または変更を行なう手段とを有するこ
とを特徴とするものであり、文書検索において検索対象
文書の性質に即した部分語を求めることが可能になると
いう作用を有する。
【0039】
【発明の実施の形態】以下に、本発明の具体的な実施の
形態について、添付の図面を参照して説明する。
【0040】(実施の形態1)最初に、本発明の第1の
実施の形態について説明する。図1は、本発明の第1の
実施の形態に係る類似語抽出方法の構成を示したブロッ
ク図である。図1において、実線矢印はデータの流れ
を、実線両端矢印はデータの参照関係を、それぞれ示
す。
【0041】図1に示す類似語抽出方法の構成では、文
書集合101から索引作成手段102によって索引10
3が作成される。ここでいう文書とは、ある一つのまと
まりを持つ文または句の集合であって、その要素は新聞
記事のように複数の文から構成されても良いし、文また
は句ごとに一つの文書を構成しても良い。特徴ベクトル
作成手段104は、索引103を参照して、特徴ベクト
ル表105を作成する。その際、別途定義されている単
語集合106を参照しても良い。また文書検索手段10
8は、検索条件107を利用して検索を行い、頻度情報
109を得ることができる。さらに特徴ベクトル作成手
段110が、頻度情報109から特徴ベクトル111を
作成する。さらに、類似度算出手段112が、特徴ベク
トル111と特徴ベクトル表105を参照して類似度計
算を行い、類似語113を抽出する。
【0042】次に、特徴ベクトル作成手段および類似度
算出手段について、図2を利用して詳しく説明する。ま
ず、索引103および文書検索手段108は、任意の文
字列から構成される任意の検索条件に対して、文書ごと
の出現頻度および総出現文書数などの頻度情報が取得で
きるものである。これは、例えば特開平8−24935
4公報において開示されている単語索引を利用すること
で実現できる。例えば今、検索条件として”WWW”が
与えられると、索引103および文書検索手段108に
より、頻度情報109が求められる。頻度情報109に
は、N個の文書それぞれに対して、”WWW”が出現し
た回数が格納されている。次に、頻度情報109を利用
して特徴ベクトル作成手段110が特徴ベクトル111
を作成する。特徴ベクトルとしては、例えばベクトルの
次元を文書数Nとし、ベクトルの各次元の値を、非完全
一致モデルに基づく検索手法で通常用いられる tf*idf
による重みづけを利用して算出する(tf*idf による重
みづけについては、成書 Saltion,G. and McGill,M.J.:
Introduction to Modern Information Retrieval,McGr
aw-Hill Publishing Company, 1983 に詳しい解説が記
載されている)。その際、ベクトルの長さが1となるよ
うに正規化しても良い。また、ベクトルの次元を全文書
数Nとはせず、例えば各文書に分野コードが付与されて
いるような文書集合では、特定の分野コードを持つ文書
だけをベクトルの次元としても良い。
【0043】特徴ベクトル表作成手段は、前記特徴ベク
トル作成手段と同様の方法を用いることで実現できる。
すなわち、与えられた単語集合106に含まれるすべて
の単語に対して、前記特徴ベクトル作成手段を用いて当
該単語に対する特徴ベクトルを作成し、各単語ごとの特
徴ベクトルを表形式にして格納した特徴ベクトル表10
5を作成する。単語集合として与えるものは、例えば文
書集合101に出現するすべての単語としても良いし、
ある特定の分野に出現する単語集合を別途与えても良
い。
【0044】また、単語集合に含まれる単語数が多い場
合には、類似語抽出処理の高速化のため、あらかじめ特
徴ベクトル表を作成しておくことが望ましいが、単語集
合に含まれる単語数が十分小さい場合には、特徴ベクト
ルを求めた後で、当該単語集合をもとに特徴ベクトル表
を作成しても良い。また、ここでは索引と文書検索手段
を利用して特徴ベクトル表を作成する方法を説明した
が、文書から直接特徴ベクトルを作成しても良い。例え
ば、英語のように分かち書きされる言語の文書に対して
は、空白で区切られた文字列を単語とみなし、各文字列
ごとの文書中での出現回数を記録した上で、これを特徴
ベクトルに変換する、という方法で特徴ベクトル表を作
成することができる。ただし、前記特徴ベクトル作成手
段で作成された特徴ベクトルと、特徴ベクトル表中の各
ベクトルの次元は同一でなければならない。
【0045】特徴ベクトル間の類似度算出手段としてよ
く用いられるのは、ベクトルの内積値を計算する方法で
ある。例えば、" WWW" と" インターネット" の間の
類似度 SIM("WWW" ," インターネット") は、 SIM(" WWW" ," インターネット") = 0.10*0.15 + 0.00*0.00 + 0.02*0.01 + ..... + 0.07*0.10 = 0.9 のようにして求めることができる。他にも、相互情報量
やt-score のような統計量を用いて、ベクトル間の類似
度を計算することが可能である(相互情報量および t-s
core については、文献「 Church, K.W. and Mercer,
R.L.: Introduction to the Special Issue on Computa
tional Linguistics Using Large Corpora, Computatio
nal Linguistics, Vol.19, No.1, pp.1-24, 1993 」に
詳しい解説が記載されている)。
【0046】以上の構成および情報を利用した類似語抽
出方法の処理について、図3に示すフローチャートを用
いて説明する。まず、ステップ301において、入力さ
れた検索条件に対する特徴ベクトルを求める。次に、ス
テップ302において、特徴ベクトル表のうち類似度算
出の対象とする要素にマークを付ける。通常、特徴ベク
トル表に記載のあるすべての要素に対して類似度算出を
行なう場合は、ここですべてにマークを付けるが、例え
ばある特定の分野に出現する語のみを対象としたい場合
などには、ステップ302において、そのような要素の
みをマークする。また、もとの検索条件に含まれる語な
どをを抽出対象から除きたい場合には、当該語をステッ
プ302においてマークしなければよい。次に、ステッ
プ303とステップ304をくりかえすことにより、ス
テップ302においてマークされたすべての要素と、ス
テップ301により作成された特徴ベクトルとの間の類
似度を算出する。続いて、ステップ305において、ス
テップ302でマークされたすべての要素をその類似度
の高い順に整列し、最後のステップ306において、類
似度の高いn個のベクトルに対応する語を類似語として
抽出する。前述の図2においては、例えば" WWW" の
類似語として、" インターネット" " HTML" が抽出
される。
【0047】図4は、前記類似語抽出方法を利用して検
索条件の拡張または変更を行う、文書検索方法について
示したものである。あらかじめ、文書集合401から、
索引作成手段402を利用して索引403が作成されて
おり、文書検索手段410によって検索が可能になって
いるとする。ここで、文書集合401は、類似語抽出方
法407で利用する文書集合とは、同一であっても、異
なっていても良い。ただし互いに異なる文書集合である
場合、抽出される類似語の精度上、文書集合401と類
似語抽出に利用する文書集合とが同一の性質を持つもの
であることが望ましい。また、索引作成手段402につ
いても、類似語抽出方法407で利用する索引作成手段
とは異なっていても良い。
【0048】検索時には、まず検索条件変更手段405
が検索条件404を受けとり、これをもとに類似語抽出
用検索条件406を作成する。類似語抽出用検索条件と
しては、例えば検索条件404に含まれる語のうち辞書
にない語のみを利用する、といった手法でも良いし、検
索条件404に含まれるすべての語を利用しても良い。
類似語抽出方法407は、前記の方法によって、類似語
抽出用検索条件406から類似語408を抽出する。検
索条件変更手段は、得られた類似語406を利用して、
検索条件を拡張または変更する。拡張または変更の方法
としては、例えば得られた類似語ともとの語を置きかえ
る、あるいは得られた類似語を追加する、といった方法
が上げられる。なお、以上の説明では、検索条件404
に対応する1つの類似語抽出用検索条件406を作成し
て、類似語を求める方法について述べたが、類似語抽出
用検索条件を複数作成し(例えば、検索条件404に含
まれるすべての語について、個別に検索条件を作成す
る)、類似語抽出方法407を複数回利用して類似語を
複数セット求める、という実施形態も可能である。
【0049】以上のようにして得られた新検索条件40
9を利用して、文書検索手段410が検索を実行し、検
索結果411を出力する。例えば、WWW上のサーチエ
ンジンについて知りたい利用者が、検索条件として「W
WW AND サーチエンジン」を入力した場合、前記類似
語抽出方法によって、「WWW」に対する類似語として
「インターネット」が、また「サーチエンジン」に対す
る類似語として「検索」が得られ、検索条件を「( WW
W OR インターネット) AND ( サーチエンジン OR 検
索) 」のように拡張できる。これにより、「インターネ
ット上の検索サービス」といった表現の文書も検索結果
に含めることができ、より再現性の高い検索が可能とな
る。
【0050】このように、本実施の形態によれば、任意
の文字列により構成される任意の検索条件に対する検索
を行い、その結果として得られる頻度情報をもとに特徴
ベクトルを作成し、これと特徴ベクトル表中の各要素と
の類似度計算を行うことにより、与えられた検索条件に
対して動的に類似語を求めることが可能となり、対象文
書集合の性質に即した類似語が得られる、という効果を
持つ。
【0051】また本実施の形態によれば、特徴ベクトル
表の要素となる単語集合を別途与えることにより、ある
特定分野の用語に限定した類似語を得ることが可能とな
る、という効果を持つ。
【0052】さらに本実施の形態によれば、前記類似語
抽出方法を利用した検索条件変更手段を有する文書検索
方法を構成することで、より再現性の高い文書検索が可
能となる、という効果を持つ。
【0053】(実施の形態2)次に、本発明の第2の実
施の形態について説明する。図5は、本発明の第2の実
施の形態に係る訳語選択方法の構成を示すブロック図で
ある。図5において、実線矢印はデータの流れを、実線
両端矢印はデータの参照関係を、それぞれ示す。図5に
示す訳語選択方法の構成では、第1言語の文書集合50
1と、第2言語の文書集合502との間で、文書ごとの
対応づけがなされているものとする。すなわち、各言語
の文書集合において、文書番号とその並びが同一であ
り、かつ文書数も同一であるものとする。ここでいう文
書とは、ある一つのまとまりを持つ文または句の集合で
あって、その要素は新聞記事のように複数の文から構成
されても良いし、文または句ごとに一つの文書を構成し
ても良い。また、このように文書ごとの対応が取れてい
る対訳文書が用意できない場合で、第2言語から第1言
語への機械翻訳手段が利用できる場合には、前記機械翻
訳手段を用いて第2言語の文書集合を翻訳し、これを第
1言語の文書集合501としても良い。
【0054】まず、第1言語の文書集合501から、索
引作成手段502によって第1言語の索引503が作成
される。同様に、第2言語の文書集合511から、索引
作成手段512によって第2言語の索引513が作成さ
れる。さらに、特徴ベクトル作成手段514が、索引5
13を参照して特徴ベクトル表515を作成する。その
際、別途定義されている第2言語の単語集合516を参
照しても良い。
【0055】また文書検索手段505は、検索条件50
4から、第1言語の索引503を参照して検索を行い、
頻度情報506を得ることができる。さらに特徴ベクト
ル作成手段507は、頻度情報506から特徴ベクトル
508を作成する。さらに、類似度算出手段509が、
特徴ベクトル508と特徴ベクトル表515を参照して
類似度計算を行い、訳語510を抽出する。
【0056】次に、特徴ベクトル作成手段および類似度
算出手段について、図6を利用して詳しく説明する。図
6においては、第1言語を日本語、第2言語を英語とし
ている。まず、文書検索手段505が、検索条件504
と第1言語索引503を参照して、頻度情報506を取
得する。次に、特徴ベクトル作成手段507が、特徴ベ
クトル508を作成する。ここまでの処理は、本発明の
実施の形態1の説明における処理と同様である。また、
特徴ベクトル表作成手段は、文書集合511、索引51
3、および単語集合516が第2言語のものであること
を除き、本発明の実施の形態1の説明における処理と同
様である。特徴ベクトル間の類似度算出手段としては、
本発明の実施の形態1で説明したように、ベクトルの内
積値を計算する方法がよく用いられるが、他に相互情報
量やt-score のような統計量を用いても良い。
【0057】以上の構成および情報を利用した訳語選択
方法の処理について、図7に示すフローチャートを用い
て説明する。まず、ステップ701において、入力され
た第1言語の検索条件に対する特徴ベクトルを求める。
次に、ステップ702において、第2言語の特徴ベクト
ル表のうち類似度算出の対象とする要素にマークを付け
る。通常、特徴ベクトル表に記載のあるすべての要素に
対して類似度算出を行なう場合は、ここですべてにマー
クを付けるが、例えばある特定の分野に出現する語のみ
を対象としたい場合などには、ステップ702におい
て、そのような要素のみをマークする。また、もとの検
索条件に含まれる語などをを抽出対象から除きたい場合
には、当該語をステップ702においてマークしなけれ
ばよい。
【0058】次に、ステップ703とステップ704を
くりかえすことにより、ステップ702においてマーク
されたすべての要素と、ステップ701により作成され
た特徴ベクトルとの間の類似度を算出する。続いて、ス
テップ705において、ステップ702でマークされた
べての要素を、その類似度の高い順に整列し、最後のス
テップ706において、類似度の高いn個のベクトルに
対応する語を訳語として抽出する。前述の図6では、例
えば" 情報検索" 対する訳語として、"information" "r
etrieval" が選択される。
【0059】図8は、前記訳語選択方法を利用して、第
1言語の検索条件から第2言語の検索条件を作成する、
多言語文書検索方法について示したものである。あらか
じめ、第2言語の文書集合801から、索引作成手段8
02を利用して第2言語の索引803が作成されてお
り、文書検索手段810によって検索が可能になってい
るとする。ここで、文書集合801は、訳語選択方法8
07で利用する文書集合とは異なっていても良い。ただ
しその場合、選択される訳語の精度上、文書集合801
と訳語選択に利用する文書集合とが同一分野のものであ
ることが望ましい。また、索引作成手段802について
も、類似語抽出方法807で利用する索引作成手段とは
異なっていても良い。
【0060】検索時には、まず検索条件作成手段805
が第1言語の検索条件804を受けとり、これをもとに
訳語選択用検索条件806を作成する。訳語選択用検索
条件としては、例えば検索条件804に含まれるすべて
の語を利用する、という手法が上げられる。訳語選択方
法807は、前記の方法によって、訳語選択用検索条件
806から訳語808を抽出する。検索条件変更手段
は、得られた訳語806を利用して、第2言語の検索条
件を作成する。第2言語の検索条件作成方法としては、
例えば得られた訳語を元の検索条件における対応する第
1言語の語と置きかえる、といった方法が上げられる。
なお、以上の説明では、検索条件804に対応する1つ
の訳語選択用検索条件806を作成して、訳語を求める
方法について述べたが、訳語選択用検索条件を複数作成
し(例えば、検索条件804に含まれるすべての語につ
いて、個別に検索条件を作成する)、訳語選択方法80
7を複数回利用して訳語を複数セット求める、という実
施形態も可能である。
【0061】以上のようにして得られた第2言語の検索
条件809を利用して、文書検索手段810が検索を実
行し、検索結果811を出力する。例えば、情報検索ま
たは情報抽出について知りたい利用者が、第1言語の検
索条件として「情報検索 OR情報抽出」を入力した場
合、前記訳語選択方法によって、「情報検索」に対する
訳語として「"information" "retrieval"」が、また
「情報抽出」に対する訳語として「"information" "ext
raction"」が得られ、第2言語の検索条件として「(inf
ormation AND retrieval) OR (information AND extrac
tion) 」を作成することができる。これにより、対訳辞
書などを利用せずに、対象文書集合の性質に即した第2
言語の検索条件を作成して、多言語文書検索を実現する
ことができる。
【0062】このように、本実施の形態によれば、第1
言語における任意の文字列により構成される任意の検索
条件に対する検索を行い、その結果として得られる頻度
情報をもとに特徴ベクトルを作成し、これと第2言語の
特徴ベクトル表中の各要素との類似度計算を行うことに
より、与えられた第1言語の検索条件に対して動的に第
2言語の訳語を求めることが可能となり、対象文書集合
の性質に即した訳語が得られる、という効果を持つ。
【0063】また本実施の形態によれば、第2言語から
第1言語への機械翻訳手段を用意することで、対訳文書
集合が利用できない場合でも、第1言語の検索条件から
第2言語の訳語選択を行なうことができる、という効果
を持つ。
【0064】さらに本実施の形態によれば、特徴ベクト
ル表の要素となる単語集合を別途与えることにより、あ
る特定分野の用語に限定した訳語を得ることが可能とな
るという効果を持つ。さらに本実施の形態によれば、前
記訳語選択方法を利用した検索条件作成手段を有する多
言語文書検索方法を構成することで、対訳辞書等の外部
情報を利用せずに、対象文書集合の性質に即した多言語
文書検索が可能になる、という効果を持つ。
【0065】(実施の形態3)本発明の第3の実施の形
態について図9〜図14を用いて説明する。図9は、本
発明の実施の形態としての部分語分割方法の構成を示す
ブロック図である。この部分語分割方法は、文字列を適
当な方法で分割する文字列分割手段901と、与えられ
た文字列から検索式を構成する検索式構成手段902
と、実施の形態1に記載されたものと同様の索引90
3、文書検索手段904、特徴ベクトル作成手段905
と、実施の形態1に記載されたものと同形式のマスク特
徴ベクトル906と、マスク特徴ベクトル906を利用
して特徴ベクトルに対して必要な次元だけを残す演算を
施す特徴ベクトル演算手段907と、請求項13または
14に記載の類似度算出手段908と、分割可能な部分
文字列を求め、さらに部分文字列に対して繰り返し分割
を行なう分割候補判定手段909と、分割候補文字列の
集合910と、から構成されている。
【0066】次に、本発明の部分語分割方法について、
図9〜図14を参照しつつその動作を説明する。 図1
0は、本発明の部分語分割方法の処理手順を示すフロー
チャートである。まず、文字列分割手段901は、入力
された文字列を1文字語ごとに分割し、検索式構成手段
902は、分割された各語をAND(論理積)で結合
し、入力された文字列自身をNOT(論理否定)結合し
た検索論理式を構成する(ステップ1001)。図11
は入力文字列が「自律移動ロボット」であるときに構成
される検索式を示している。
【0067】次に、この検索式を文書検索手段904の
入力とし、索引905を利用して、検索条件に合致する
文書集合を得る。この検索式に合致する文書は、分割さ
れた1文字語を全て含んでいるが、入力文字列自身を含
んでいない文書になる。例えば、「自律的に移動するロ
ボット」とだけ記述された文書は検索条件に合致する
が、「自律移動ロボットについて」とだけ記述された文
書は合致しない。この文書集合を特徴ベクトル作成手段
903の入力とし、マスク特徴ベクトル906を得る
(ステップ1002)。
【0068】次に、文字列分割手段901は入力文字列
を先頭文字から順次2分割し、部分文字列の組を生成
し、分割候補に追加する(ステップ1003)。ここで
は、文字位置を基準として2分割した部分文字列を生成
したが、部分文字列が得られるのであれば、形態素解析
などの手法によって分割してもよい。図12は入力文字
列「自律移動ロボット」に対して生成された部分文字列
の組を示している。
【0069】次に、分割された部分文字列の各組につい
て、その要素の部分文字列について、検索式構成手段9
02、索引903、文書検索手段904、特徴ベクトル
作成手段905を利用して、特徴ベクトルを作成する
(ステップ1005) 。「自律移動ロボット」からは、
「自」に対する特徴ベクトルと「律移動ロボット」に対
する特徴ベクトルが得られる。ここで得られた部分文字
列に対する特徴ベクトルは、文書集合全体に対する索引
を用いて作成したので、「自律移動ロボット」とは無関
係に、その部分文字列が出現している文書の次元に正の
値を持つことになる。たとえば、部分文字列「自」に対
しては、「自由の追求」とだけ記述された文書に対応す
る次元も正の値を持つ。
【0070】次に、特徴ベクトルの各々について、特徴
ベクトル演算手段907と前記マスク特徴ベクトル90
6を用いて、マスク特徴ベクトルにおいて正の値を持つ
次元だけを残す演算を施し、ベクトルの長さが1になる
ように正規化する( ステップ1006) 。図13はこの
演算の結果を示している。なおこの図では、正の値を文
字つ次元をx、0の値を持つ次元をoと表現している。
この結果、「自由の追求」とだけ記述されている文書
や、「自律移動ロボット」が記述されている文書に対応
する次元の値は0となり、「自」と「律移動ロボット」
が連続せずに独立して共起している文書に対応する次元
だけが、正の値を持つことになる。
【0071】次に、類似度算出手段908を利用して各
部分文字列間の類似度を算出する(ステップ100
7)。図14は部分文字列の各組とその類似度、分割可
能性を表形式で示している。本発明の類似度算出手段を
利用すると、部分文字列間の類似度は、同一文書中に共
通に現れているほど高くなる。ステップ1005で、部
分文字列が連続して出現する文書は取り除いているの
で、その各要素が独立して現れる場合に類似度が高くな
る。独立して出現する部分文字列は、それだけで単独で
意味を持つ文字列と考えられ、分割可能性が高いと言え
る。
【0072】次に、分割候補判定手段909は、予め指
定された閾値以上になった部分文字列の組の各要素を別
々に分割候補に追加する(ステップ1008、ステップ
1009)。この例では閾値を0.35としているの
で、部分文字列組のうち、「自律、移動ロボット」と
「自律移動、ロボット」の二組に対して、分割可能性が
あることが記録される。さらにこの二組から、「自
律」、「移動ロボット」、「自律移動」、「ロボット」
の4つの文字列が分割候補に追加される。分割候補中の
文字列の分割可能性をを全て調べ終えたら(ステップ1
004)、分割可能性があることが記録されている文字
列を出力する(ステップ1010)。以上のようにし
て、本発明の部分語分割方法では、それを構成する分割
可能な部分文字列に分割することができる。
【0073】(実施の形態4)本発明の第4の実施の形
態について図15〜図17を用いて説明する。図15
は、本発明の第4の実施の形態に係る類似語抽出方法の
構成を示すブロック図である。この類似語抽出方法は、
第1言語の入力文字列に対して、実施例1に記載の方法
と同様にして、第2言語の訳語を抽出する訳語選択手段
1501と、抽出された訳語の各々について、実施の形
態2に記載の方法と同様にして、第1言語の訳語を抽出
する訳語選択手段1502と、入力文字列と訳語を経由
して得られた訳語を比較して、類似語を選別する類似語
選別手段1503から構成されている。図15では、訳
語選択手段を一つのブロックとして表現しているが、そ
の構成は、実施の形態2に記載の特徴ベクトル表、文書
検索手段、特徴ベクトル作成手段、類似度算出手段であ
り、その処理手順も同様である。
【0074】次に、本発明の類似語抽出方法について、
図15〜図17を参照しつつその動作を説明する。図1
6は本発明の類似語抽出方法の処理手順を示すフローチ
ャートである。まず、訳語選択手段1501は第1言語
の入力文字列から第2言語の訳語を求める(ステップ1
601)。この処理は入力文字列を実施の形態2に記載
の方法における検索式とし、第2言語の特徴ベクトル表
を参照して、その訳語を求める処理である。。図17は
第1言語を日本語とし、第2言語を英語とした場合の、
入力文字列「ギリシャ」から得られた英訳語を示してい
る。この例では「GREECE」と「ROME」が得ら
れる。
【0075】次に第2言語の訳語の各々について第1言
語の訳語を求める(ステップ1602、ステップ160
3)。この処理は入力文字列を実施の形態2に記載にお
ける検索式とし、第1言語の特徴ベクトル表を参照し
て、その訳語を求める処理である。ステップ1601と
の違いは、参照する特徴ベクトルの言語が交換してある
点である。図17は、入力文字列「GREECE」、
「ROME」に対する訳語を選択した例を示している。
この例では「GREECE」から「ギリシャ」、「ギリ
シヤ」、「ギリシア」が、「ROME」から「ローマ」
が得られる。次に、類似語選別手段1503は、訳語選
択手段を2回経由して得られた、これらの第1言語の訳
語を入力文字列「ギリシャ」に対する類似語とする(ス
テップ1604)。
【0076】カタカナ語のように、同一概念に対する異
表記が複数存在する場合、文書中での表記は異表記中の
一つが統一的に利用されることが多く、異表記を混在さ
せて記述してある文書は少ない。例えば、ある文書で
は、「ギリシャ」という表記を統一的に利用し、別の文
書では「ギリシヤ」という表記をを利用する。本発明の
実施の形態1による類似語抽出方法では、入力文字列と
同一言語の文書を次元とする特徴ベクトルを参照するた
め、異表記が存在していても、それらの異表記に対応す
る文書ベクトルは相補的になり、結果としてその異表記
を類似語と抽出することができない。本発明の実施の形
態4の方法によれば、第2言語において、同一の表記に
なるような文字列に対しても類似語が抽出できる。
【0077】以上のようにして、本発明の類似語抽出方
法では、特に「ギリシャ」、「ギリシア」、「ギリシ
ヤ」のように、第1言語で複数の表記で表される概念
が、第2言語では一つの語で表現される場合には、その
異表記的な類似語をも抽出することができる。
【0078】
【発明の効果】以上説明したように、本発明によれば、
文書集合から、各単語ごとの特徴ベクトルを格納した特
徴ベクトル表と、任意の文字列から構成される任意の検
索条件に対して頻度情報が取得可能な索引を作成し、与
えられた検索条件に対して前記索引を検索して頻度情報
を取得し、前記頻度情報を利用して検索条件に対応する
特徴ベクトルを動的に作成し、前記特徴ベクトル表との
照応を行って各単語との類似度を計算する、という構成
により、検索条件に対する類似度が高く、かつ文書の性
質に即した類似語を求めることができ、さらに得られた
類似語を利用して質問拡張を行うことで、再現性の高い
文書検索結果を得ることができる。
【0079】また、前記構成に加えて、類似度算出の対
象となる単語集合を、文書集合中に出現するすべての語
とするのではなく、別途任意の単語集合を指定する、と
いう構成により、例えば特定の分野で利用される専門用
語のみから類似語を抽出することが可能となり、これに
よって分野の特性に合わせた類似語を得ることができ
る。
【0080】さらに、文書ごとの対応がとれている対訳
文書集合に対して、第1言語および第2言語の文書集合
から、各単語ごとの特徴ベクトルを格納した特徴ベクト
ル表と、任意の文字列から構成される任意の検索条件に
対して頻度情報が取得可能な索引とをそれぞれ作成し、
与えられた第1言語の検索条件に対して、前記第1言語
の索引を検索して頻度情報を取得し、前記頻度情報を利
用して検索条件に対応する特徴ベクトルを動的に作成
し、前記第2言語の特徴ベクトル表との照応を行って各
単語との類似度を計算する、という構成により、第1言
語の検索条件に対する類似度が高く、かつ文書の性質に
即した第2言語の訳語を、対訳辞書などの外部情報を利
用せずに求めることができ、これを利用した多言語文書
検索が実現できる。
【0081】さらに、任意の文字列に対して、分割可能
な文字列を求めることにより、新聞記事の見出しのよう
に助詞が省略された文字列や、一般に定着していない専
門語からでも、それを構成する部分文字列を抽出するこ
とができ、より再現性の高い文書検索が可能になる。
【0082】さらに、第1言語と第2言語の間での訳語
を繰り返し求めることにより、第2言語では一語で表現
される概念が、第1言語では複数の表記で表現されてい
る場合であっても、同一概念の異なる表記の類似語を求
めることができ、より再現性の高い文書検索が可能にな
る。
【図面の簡単な説明】
【図1】本発明の類似語抽出方法の構成を示すブロック
【図2】本発明の類似語抽出方法における、特徴ベクト
ルと類似語算出の一例を示す図
【図3】本発明の類似語抽出方法の処理手順を示すフロ
ーチャート
【図4】本発明の類似語抽出方法を利用した文書検索方
法の構成を示すブロック図
【図5】本発明の訳語選択方法の構成を示すブロック図
【図6】本発明の訳語選択方法における、特徴ベクトル
と類似語算出の一例を示す図
【図7】本発明の訳語選択方法の処理手順を示すフロー
チャート
【図8】本発明の訳語選択方法を利用した多言語文書検
索方法の構成を示すブロック図
【図9】本発明の部文語分割方法の構成を示すブロック
【図10】本発明の部文語分割方法の処理手順を示すフ
ローチャート
【図11】本発明の部文語分割方法の検索条件の一例を
示す図
【図12】本発明の部文語分割方法の分割文字列の一例
を示す図
【図13】本発明の部文語分割方法のベクトル演算の一
例を示す図
【図14】本発明の部文語分割方法の分割文字列、類似
度、分割可能性の一例を示す図
【図15】本発明の類似語抽出方法の構成を示すブロッ
ク図
【図16】本発明の類似語抽出方法の処理手順を示すフ
ローチャート
【図17】本発明の類似語抽出方法で抽出された類似語
の一例を示す図
【符号の説明】
101 文書集合 102 索引作成手段 103 索引 104 特徴ベクトル表作成手段 105 特徴ベクトル表 106 単語集合 107 検索条件 108 文書検索手段 109 頻度情報 110 特徴ベクトル作成手段 111 特徴ベクトル 112 類似度算出手段 113 類似語 401 文書集合 402 索引作成手段 403 索引 404 検索条件 405 検索条件変更手段 406 類似語抽出用検索条件 407 類似語抽出方法 408 類似語 409 新検索条件 410 文書検索手段 411 検索結果 501 第1言語文書集合 502、512 索引作成手段 503 第1言語索引 504 検索条件 505 文書検索手段 506 頻度情報 507 特徴ベクトル作成手段 508 特徴ベクトル 509 類似度算出手段 510 訳語 511 第2言語文書集合 513 第2言語索引 514 特徴ベクトル表作成手段 515 特徴ベクトル表 516 第2言語単語集合 801 第2言語文書集合 802 索引作成手段 803 第2言語索引 804 第1言語検索条件 805 検索条件作成手段 806 訳語選択用検索条件 807 訳語選択方法 808 訳語 809 第2言語検索条件 810 文書検索手段 811 検索結果 901 文字列分割手段 902 検索式構成手段 903 索引 904 文書検索手段 905 特徴ベクトル作成手段 906 マスク特徴ベクトル 907 特徴ベクトル演算手段 908 類似度算出手段 909 分割候補判定手段 910 分割候補文字列集合 1501、1502 訳語選択手段 1503 類似語選択手段

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 文書集合から索引を作成する段階と、任
    意の文字列から構成される検索式に対して、索引を検索
    して頻度情報を取得する段階と、検索の結果取得される
    頻度情報から特徴ベクトルを作成する段階と、文書集合
    中に含まれるすべての語に対する特徴ベクトルを算出し
    て特徴ベクトル表を作成する段階と、頻度情報から作成
    した特徴ベクトルと特徴ベクトル表の中の特徴ベクトル
    との間の類似度を算出する段階とを有し、 入力された検索条件から検索を行い、得られた頻度情報
    から特徴ベクトルを動的に作成し、作成された特徴ベク
    トルと特徴ベクトル表中のベクトルとの類似度を算出
    し、類似度の高い特徴ベクトル表中の語を類似語として
    抽出することを特徴とする類似語抽出方法。
  2. 【請求項2】 文書集合から索引を作成する段階と、任
    意の文字列から構成される検索式に対して、索引を検索
    して頻度情報を取得する段階と、検索の結果取得される
    頻度情報から特徴ベクトルを作成する段階と、任意の単
    語集合に対する特徴ベクトルを算出して特徴ベクトル表
    を作成する段階と、頻度情報から作成した特徴ベクトル
    と特徴ベクトル表の中の特徴ベクトルとの間の類似度を
    算出する段階とを有し、 入力された検索条件から検索を行い、得られた頻度情報
    から特徴ベクトルを動的に作成し、作成された特徴ベク
    トルと別途与えられた単語集合に対する特徴ベクトル表
    中のベクトルとの類似度を算出し、類似度の高い特徴ベ
    クトル表中の語を類似語として抽出することを特徴とす
    る類似語抽出方法。
  3. 【請求項3】 ユーザの入力した検索条件を拡張または
    変更する段階を有する文書検索方法であって、 前記検索条件を拡張または変更する段階において、ユー
    ザの入力した検索条件から請求項1または2に記載の類
    似語抽出方法のための検索条件を生成し、前記類似語抽
    出方法を利用して類似語を抽出し、前記抽出された類似
    語を利用して、ユーザの入力した検索条件に対する拡張
    または変更を行なうことを特徴とする文書検索方法。
  4. 【請求項4】 第1言語文書集合と第2言語文書集合と
    の間で文書ごとの対応が取られている対訳文書集合を作
    成する段階と、対応する言語ごとに文書集合から索引を
    作成する段階と、任意の文字列から構成される検索式に
    対して、索引を検索して語の頻度情報を取得する段階
    と、検索の結果取得される頻度情報から特徴ベクトルを
    作成する段階と、言語ごとに、文書集合中に含まれるす
    べての語に対する特徴ベクトルを算出して特徴ベクトル
    表を作成する段階と、頻度情報から作成した特徴ベクト
    ルと特徴ベクトル表の中の特徴ベクトルとの間の類似度
    を算出する段階とを有し、 入力された第1言語の検索条件により第1言語の索引を
    利用して検索を行い、得られた頻度情報から特徴ベクト
    ルを動的に作成し、作成された特徴ベクトルと第2言語
    の特徴ベクトル表中のベクトルとの類似度を算出し、類
    似度の高い特徴ベクトル表中の語を、第1言語の検索条
    件に対する訳語として選択することを特徴とする訳語選
    択方法。
  5. 【請求項5】 第1言語文書集合と第2言語文書集合と
    の間で文書ごとの対応が取られている対訳文書集合を作
    成する段階と、対応する言語ごとに文書集合から索引を
    作成する段階と、任意の文字列から構成される検索式に
    対して、索引を検索して語の頻度情報を取得する段階
    と、検索の結果取得される頻度情報から特徴ベクトルを
    作成する段階と、言語ごとに、任意の単語集合に対する
    特徴ベクトルを算出して特徴ベクトル表を作成する段階
    と、頻度情報から作成した特徴ベクトルと特徴ベクトル
    表の中の特徴ベクトルとの間の類似度を算出する段階と
    を有し、 入力された第1言語の検索条件により第1言語の索引を
    利用して検索を行い、得られた頻度情報から特徴ベクト
    ルを動的に作成し、作成された特徴ベクトルと別途与え
    られた第2言語の単語集合に対する特徴ベクトル表中の
    ベクトルとの類似度を算出し、類似度の高い特徴ベクト
    ル表中の語を、第1言語の検索条件に対する訳語として
    選択することを特徴とする訳語選択方法。
  6. 【請求項6】 第2言語から第1言語へ翻訳する段階を
    さらに有し、翻訳された第1言語の文書集合と、翻訳元
    である第2言語の文書集合とを対訳文書集合として利用
    することを特徴とする請求項4または請求項5に記載の
    類似語抽出方法。
  7. 【請求項7】 ユーザの入力した第1言語の検索条件か
    ら、第2言語の検索条件を自動的に作成する段階をさら
    に有し、前記検索条件を自動的に作成する段階において
    ユーザの入力した第1言語の検索条件から、請求項4、
    5または6に記載の類似語抽出方法のための検索条件を
    生成し、前記類似語抽出方法を利用して第2言語の訳語
    を選択し、前記選択された訳語を利用して第2言語の検
    索条件を作成し、第2言語の文書を検索することを特徴
    とする多言語文書の文書検索方法。
  8. 【請求項8】 索引を検索して頻度情報を取得するより
    も前段階で検索条件を規定する文字列を分割する段階
    と、特徴ベクトル作成時にマスク特徴ベクトルを作成す
    る段階と、マスク特徴ベクトルを作成した後に特徴ベク
    トル演算を行なって特徴ベクトルの必要な次元だけを取
    り出す段階と、特徴ベクトル演算の後に各々の部分文字
    列の特徴ベクトル間の類似度を算出し、分割点により分
    割された部分文字列間の類似度が高い分割点において文
    字列を分割することを特徴とする部分語分割方法。
  9. 【請求項9】 もとの文字列を部分文字列に分割した
    後、各々の文字列に対して繰り返し分割を行ない、分割
    可能な部分文字列を求める段階をさらに有することを特
    徴とする請求項8に記載の部分語分割方法。
  10. 【請求項10】 請求項8または9に記載の部分語分割
    動作を利用して、入力された検索式を構成する検索語を
    部分語に分割し、分割された部分語を利用して検索式の
    拡張または変更を行なうことを特徴とする文書検索方
    法。
  11. 【請求項11】 第1言語の任意の入力文字列に対し
    て、請求項4、5または6に記載の訳語選択動作によっ
    て、第2言語の訳語を求め、各訳語に対して、請求項
    4、5、または6に記載の訳語選択動作によって、第1
    言語の訳語を求め、その訳語から、入力文字列に対する
    類似語を選別することを特徴とする、類似語抽出方法。
  12. 【請求項12】 請求項10に記載の類似語抽出方法を
    利用して、入力された検索式を構成する検索語から類似
    語を抽出し、抽出された類似語を利用して検索式の拡張
    または変更を行なうことを特徴とする文書検索方法。
  13. 【請求項13】 文書集合から索引を作成する索引作成
    手段と、任意の文字列から構成される検索式に対し索引
    を検索して頻度情報を取得する文書検索手段と、検索の
    結果取得される頻度情報から特徴ベクトルを作成する特
    徴ベクトル作成手段と、文書集合中に含まれるすべての
    語に対する特徴ベクトルを算出して表として格納する特
    徴ベクトル表作成手段と、特徴ベクトル間の類似度を算
    出する類似度算出手段とを備え、 入力された検索条件から、前記文書検索手段を利用して
    検索を行い、得られた頻度情報から前記特徴ベクトル作
    成手段を利用して特徴ベクトルを動的に作成し、前記類
    似度算出手段が頻度情報から作成した特徴ベクトルと特
    徴ベクトル表の中の特徴ベクトルとの間の類似度を算出
    し、類似度の高い特徴ベクトル表中の語を類似語として
    抽出することを特徴とする類似語抽出装置
  14. 【請求項14】 文書集合から索引を作成する索引作成
    手段と、任意の文字列から構成される検索式に対し索引
    を検索して頻度情報を取得する文書検索手段と、検索の
    結果取得される頻度情報から特徴ベクトルを作成する特
    徴ベクトル作成手段と、任意の単語集合に対する特徴ベ
    クトルを算出して表として格納する特徴ベクトル表作成
    手段と、特徴ベクトル間の類似度を算出する類似度算出
    手段とを備え、 入力された検索条件から、前記文書検索手段を利用して
    検索を行い、得られた頻度情報から前記特徴ベクトル作
    成手段を利用して特徴ベクトルを動的に作成し、前記類
    似度算出手段が、別途与えられた単語集合に対する特徴
    ベクトル表中のベクトルとの類似度を算出し、類似度の
    高い特徴ベクトル表中の語を類似語として抽出すること
    を特徴とする類似語抽出装置。
  15. 【請求項15】 ユーザの入力した検索条件を拡張また
    は変更する検索条件変更手段を有する文書検索装置であ
    って、 前記検索条件変更手段が、ユーザの入力した検索条件か
    ら、類似語抽出のための検索条件を生成し、前記類似語
    抽出装置を利用して類似語を抽出し、前記抽出された類
    似語を利用して、ユーザの入力した検索条に対する拡張
    または変更を行うことを特徴とする文書検索装置。
  16. 【請求項16】 第1言語文書集合と第2言語文書集合
    とから構成され文書ごとの対応が取れている対訳文書集
    合と、この対訳文書集合から、言語ごとに文書集合から
    索引を作成する索引作成手段と、任意の文字列から構成
    される任意の検索式に対して、索引を検索して語の頻度
    情報を取得可能な文書検索手段と、検索の結果取得され
    る頻度情報からベクトルを作成する特徴ベクトル作成手
    段と、言語ごとに、文書集合中に含まれるすべての語に
    対する特徴ベクトルを算出して表として格納する特徴ベ
    クトル表作成手段と、特徴ベクトル間の類似度を算出す
    る類似度算出手段と、を有し、 入力された第1言語の検索条件により、前記文書検索手
    段と第1言語の索引を利用して検索を行ない、得られた
    頻度情報から前記特徴ベクトル作成手段を利用して特徴
    ベクトルを動的に作成し、前記類似度算出手段が第2言
    語の特徴ベクトル表中のベクトルとの類似度を算出し、
    類似度の高い特徴ベクトル表中の語を、第1言語の検索
    条件に対する訳語として選択することを特徴とする訳語
    選択装置。
  17. 【請求項17】 第1言語文書集合と第2言語文書集合
    とから構成され文書ごとの対応が取れている対訳文書集
    合と、この対訳文書集合から、言語ごとに文書集合から
    索引を作成する索引作成手段と、任意の文字列から構成
    される任意の検索式に対して、索引を検索して語の頻度
    情報を取得可能な文書検索手段と、検索の結果取得され
    る頻度情報からベクトルを作成する特徴ベクトル作成手
    段と、言語ごとに、任意の単語集合に対する特徴ベクト
    ルを算出して表として格納する特徴ベクトル表作成手段
    と、特徴ベクトル間の類似度を算出する類似度算出手段
    とを有し、 入力された第1言語の検索条件により、前記文書検索手
    段と第1言語の索引を利用して検索を行ない、得られた
    頻度情報から前記特徴ベクトル作成手段を利用して特徴
    ベクトルを動的に作成し、前記類似度算出手段が、別途
    与えられた第2言語の単語集合に対する特徴ベクトル表
    中のベクトルとの類似度を算出し、類似度の高い特徴ベ
    クトル表中の語を、第1言語の検索条件に対する訳語と
    して選択することを特徴とする訳語選択装置。
  18. 【請求項18】 第2言語から第1言語への翻訳が可能
    な文書翻訳手段を有し、前記文書翻訳手段により翻訳さ
    れた第1言語の文書集合と、翻訳元である第2言語の文
    書集合とを対訳文書集合として利用することを特徴とす
    る、請求項16または請求項17に記載の訳語選択装
    置。
  19. 【請求項19】 ユーザの入力した第1言語の検索条件
    から、第2言語の検索条件を自動的に作成する検索条件
    作成手段を有する多言語文書検索装置であって、 前記
    検索条件作成手段が、ユーザの入力した第1言語の検索
    条件から、請求項16乃至18のいずれかに記載の訳語
    選択動作のための検索条件を生成し、前記訳語選択方法
    を利用して第2言語の訳語を選択し、前記選択された訳
    語を利用して第2言語の検索条件を作成し、第2言語の
    文書を検索することを特徴とする、多言語文書検索装
    置。
  20. 【請求項20】 文字列を適当な方法で分割する文字列
    分割手段と、文字列から検索式を構成する検索式構成手
    段と、請求項13または14に記載の文書検索手段、特
    徴ベクトル作成手段、類似度算出手段と、特徴ベクトル
    の必要な次元だけを取り出す特徴ベクトル演算手段と、
    文字列に対して繰り返し分割を行ない、分割可能な部分
    文字列を求める分割候補判定手段とを有し、 文字列分割手段を利用して、入力文字列を一文字づつに
    分割し、検索式構成手段を利用して、検索条件を構成
    し、この検索式から請求項13または14に記載の文書
    検索手段と特徴ベクトル作成手段を利用してマスク特徴
    ベクトルを作成し、文字列分割手段を利用して部分文字
    列の組を作成し、その分割された文字列の組の各々につ
    いて、前記検索式構成手段、文書検索手段、特徴ベクト
    ル作成手段を利用して特徴ベクトルを作成し、特徴ベク
    トル演算手段を利用して、前記マスク特徴ベクトルに出
    現する次元だけを残すような演算を施した特徴ベクトル
    を作成し、請求項13または14に記載の類似度算出手
    段を利用して、各々の部分文字列の特徴ベクトル間の類
    似度を計算して類似語抽出を行ない、分割語候補判定手
    段を利用して、類似度が閾値以上になる部分文字列の組
    に含まれる部分文字列を分割語候補に追加し、繰り返し
    類似語抽出のための分割語候補を求めることを特徴とす
    る部分語分割装置。
  21. 【請求項21】 ユーザの入力した検索条件に対して、
    索引を検索して頻度情報を取得するよりも前段階で検索
    条件を規定する文字列を分割する手段と、特徴ベクトル
    作成時にマスク特徴ベクトルを作成する手段と、マスク
    特徴ベクトルを作成した後に特徴ベクトル演算を行なっ
    て特徴ベクトルの必要な次元だけを取り出す手段とを備
    え、特徴ベクトル演算の後に各々の部分文字列の特徴ベ
    クトル間の類似度を算出し、分割点により分割された部
    分文字列間の類似度が高い分割点において文字列を分割
    することを特徴とする部分語分割装置。
  22. 【請求項22】 もとの文字列を部分文字列に分割した
    後、各々の文字列に対して繰り返し分割を行ない、分割
    可能な部分文字列を求める手段をさらに有することを特
    徴とする請求項21に記載の部分語分割装置。
  23. 【請求項23】 請求項21または22に記載の部分語
    分割動作を利用して、入力された検索式を構成する検索
    語を部分語に分割する手段と、分割された部分語を利用
    して検索式の拡張または変更を行なう手段とを有するこ
    とを特徴とする文書検索装置。
JP11216617A 1999-07-30 1999-07-30 類似語抽出方法、文書検索方法及びこれらに用いる装置 Withdrawn JP2001043236A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP11216617A JP2001043236A (ja) 1999-07-30 1999-07-30 類似語抽出方法、文書検索方法及びこれらに用いる装置
CN00122279A CN1282934A (zh) 1999-07-30 2000-07-28 相似字选取和文件检索的方法和系统
EP00116441A EP1072982A3 (en) 1999-07-30 2000-07-28 Method and system for similar word extraction and document retrieval
TW089115283A TW476034B (en) 1999-07-30 2000-07-29 Method and system for similar word extraction and document retrieval
KR10-2000-0044283A KR100408637B1 (ko) 1999-07-30 2000-07-31 유사어 추출 및 문서 검색을 위한 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11216617A JP2001043236A (ja) 1999-07-30 1999-07-30 類似語抽出方法、文書検索方法及びこれらに用いる装置

Publications (1)

Publication Number Publication Date
JP2001043236A true JP2001043236A (ja) 2001-02-16

Family

ID=16691249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11216617A Withdrawn JP2001043236A (ja) 1999-07-30 1999-07-30 類似語抽出方法、文書検索方法及びこれらに用いる装置

Country Status (5)

Country Link
EP (1) EP1072982A3 (ja)
JP (1) JP2001043236A (ja)
KR (1) KR100408637B1 (ja)
CN (1) CN1282934A (ja)
TW (1) TW476034B (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP2004110633A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
KR100467104B1 (ko) * 2001-05-11 2005-01-24 김시환 정보 검색 시스템과 그 방법
JP2006251866A (ja) * 2005-03-08 2006-09-21 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2007102786A (ja) * 2005-09-30 2007-04-19 Internatl Business Mach Corp <Ibm> 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム
JP2009187268A (ja) * 2008-02-06 2009-08-20 Nippon Telegr & Teleph Corp <Ntt> Web検索装置、Web検索方法、プログラムおよび記録媒体
JP2012527701A (ja) * 2009-05-22 2012-11-08 マイクロソフト コーポレーション 構造化されていないリソースからの句対のマイニング
WO2013043146A1 (en) * 2011-09-19 2013-03-28 Cpa Global Patent Research Limited Searchable multi-language electronic patent document collection and techniques for searching the same
JP2013105210A (ja) * 2011-11-10 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 単語属性推定装置及び方法及びプログラム
KR101272254B1 (ko) * 2011-08-31 2013-06-13 주식회사 다음커뮤니케이션 검색 서비스 제공 시스템 및 그의 동일의도 검색어 생성 방법
JP2018077608A (ja) * 2016-11-08 2018-05-17 株式会社Nttドコモ 拠点推定装置
JP2019008783A (ja) * 2017-06-20 2019-01-17 Line株式会社 ソーシャルネットワークコンテンツを基盤に単語ベクトル化技法を利用して日常言語に拡張するための方法およびシステム
JP2019074982A (ja) * 2017-10-18 2019-05-16 三菱重工業株式会社 情報検索装置、検索処理方法、およびプログラム
JP2021144348A (ja) * 2020-03-10 2021-09-24 富士通株式会社 情報処理装置及び情報処理方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1429258A4 (en) * 2001-07-26 2007-08-29 Ibm DATA PROCESSING, DATA PROCESSING SYSTEM AND PROGRAM
KR100685023B1 (ko) * 2001-11-13 2007-02-20 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
US6792037B2 (en) 2002-02-28 2004-09-14 Interdigital Technology Corporation Apparatus and method of searching for known sequences
US7640232B2 (en) 2003-10-14 2009-12-29 Aol Llc Search enhancement system with information from a selected source
US7165119B2 (en) 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter
JP4428036B2 (ja) * 2003-12-02 2010-03-10 ソニー株式会社 情報処理装置および方法、プログラム、並びに、情報処理システムおよび方法
KR101126406B1 (ko) * 2008-11-27 2012-04-20 엔에이치엔(주) 유사어 결정 방법 및 시스템
CA2769222A1 (en) * 2009-08-21 2011-02-24 Samsung Electronics Co., Ltd. Method, system and apparatus for providing contents
WO2011021909A2 (en) 2009-08-21 2011-02-24 Samsung Electronics Co., Ltd. Method and apparatus for providing contents via network, method and apparatus for receiving contents via network, and method and apparatus for backing up data via network, backup data providing device, and backup system
EP2423830A1 (de) * 2010-08-25 2012-02-29 Omikron Data Quality GmbH Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
JP5697256B2 (ja) * 2011-11-24 2015-04-08 楽天株式会社 検索装置、検索方法、検索プログラム及び記録媒体
EP2693346A1 (en) * 2012-07-30 2014-02-05 ExB Asset Management GmbH Resource efficient document search
US10789366B2 (en) * 2013-06-24 2020-09-29 Nippon Telegraph And Telephone Corporation Security information management system and security information management method
US20170206202A1 (en) * 2014-07-23 2017-07-20 Hewlett Packard Enterprise Development Lp Proximity of data terms based on walsh-hadamard transforms
FR3040808B1 (fr) 2015-09-07 2022-07-15 Proxem Procede d'etablissement automatique de requetes inter-langues pour moteur de recherche
KR101753768B1 (ko) * 2015-10-01 2017-07-04 한국외국어대학교 연구산학협력단 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
US10783268B2 (en) 2015-11-10 2020-09-22 Hewlett Packard Enterprise Development Lp Data allocation based on secure information retrieval
CN105868236A (zh) * 2015-12-09 2016-08-17 乐视网信息技术(北京)股份有限公司 一种同义词数据挖掘方法和系统
CN106294639B (zh) * 2016-08-01 2020-04-21 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
US11080301B2 (en) 2016-09-28 2021-08-03 Hewlett Packard Enterprise Development Lp Storage allocation based on secure data comparisons via multiple intermediaries
CN109165331A (zh) * 2018-08-20 2019-01-08 南京师范大学 一种英文地名的索引建立方法及其查询方法和装置
CN116431837B (zh) * 2023-06-13 2023-08-22 杭州欧若数网科技有限公司 基于大型语言模型和图网络模型的文档检索方法和装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100467104B1 (ko) * 2001-05-11 2005-01-24 김시환 정보 검색 시스템과 그 방법
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP2004110633A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
JP2006251866A (ja) * 2005-03-08 2006-09-21 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP4622589B2 (ja) * 2005-03-08 2011-02-02 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
JP2007102786A (ja) * 2005-09-30 2007-04-19 Internatl Business Mach Corp <Ibm> 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム
US8600997B2 (en) 2005-09-30 2013-12-03 International Business Machines Corporation Method and framework to support indexing and searching taxonomies in large scale full text indexes
JP2009187268A (ja) * 2008-02-06 2009-08-20 Nippon Telegr & Teleph Corp <Ntt> Web検索装置、Web検索方法、プログラムおよび記録媒体
JP2012527701A (ja) * 2009-05-22 2012-11-08 マイクロソフト コーポレーション 構造化されていないリソースからの句対のマイニング
KR101272254B1 (ko) * 2011-08-31 2013-06-13 주식회사 다음커뮤니케이션 검색 서비스 제공 시스템 및 그의 동일의도 검색어 생성 방법
WO2013043146A1 (en) * 2011-09-19 2013-03-28 Cpa Global Patent Research Limited Searchable multi-language electronic patent document collection and techniques for searching the same
JP2013105210A (ja) * 2011-11-10 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 単語属性推定装置及び方法及びプログラム
JP2018077608A (ja) * 2016-11-08 2018-05-17 株式会社Nttドコモ 拠点推定装置
JP2019008783A (ja) * 2017-06-20 2019-01-17 Line株式会社 ソーシャルネットワークコンテンツを基盤に単語ベクトル化技法を利用して日常言語に拡張するための方法およびシステム
JP7194515B2 (ja) 2017-06-20 2022-12-22 Line株式会社 ソーシャルネットワークコンテンツを基盤に単語ベクトル化技法を利用して日常言語に拡張するための方法およびシステム
JP2019074982A (ja) * 2017-10-18 2019-05-16 三菱重工業株式会社 情報検索装置、検索処理方法、およびプログラム
JP7016237B2 (ja) 2017-10-18 2022-02-04 三菱重工業株式会社 情報検索装置、検索処理方法、およびプログラム
JP2021144348A (ja) * 2020-03-10 2021-09-24 富士通株式会社 情報処理装置及び情報処理方法
JP7388256B2 (ja) 2020-03-10 2023-11-29 富士通株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
TW476034B (en) 2002-02-11
EP1072982A2 (en) 2001-01-31
KR100408637B1 (ko) 2003-12-06
KR20010067045A (ko) 2001-07-12
EP1072982A3 (en) 2004-05-26
CN1282934A (zh) 2001-02-07

Similar Documents

Publication Publication Date Title
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
CN100511215C (zh) 多语种翻译存储器和翻译方法
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2742115B2 (ja) 類似文書検索装置
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPS6211932A (ja) 情報検索方法
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
JP2011118689A (ja) 検索方法及びシステム
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
JPH10312382A (ja) 類似用例翻訳システム
JPH1145274A (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
Daelemans et al. Part-of-speech tagging for Dutch with MBT, a memory-based tagger generator
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP2002132789A (ja) 文書検索方法
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
JP2002259445A (ja) 対応カテゴリ検索システムおよび方法
JPH0561902A (ja) 機械翻訳システム
JPH0827803B2 (ja) テキストベース検索方法
JP2006344011A (ja) 多言語文書検索装置
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
Chien et al. Incremental extraction of domain-specific terms from online text resources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060517

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090209