JP2002245062A - 文書検索装置、文書検索方法、プログラムおよび記録媒体 - Google Patents

文書検索装置、文書検索方法、プログラムおよび記録媒体

Info

Publication number
JP2002245062A
JP2002245062A JP2001037761A JP2001037761A JP2002245062A JP 2002245062 A JP2002245062 A JP 2002245062A JP 2001037761 A JP2001037761 A JP 2001037761A JP 2001037761 A JP2001037761 A JP 2001037761A JP 2002245062 A JP2002245062 A JP 2002245062A
Authority
JP
Japan
Prior art keywords
document
word
search key
search
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001037761A
Other languages
English (en)
Inventor
Naoko Sato
奈穂子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001037761A priority Critical patent/JP2002245062A/ja
Publication of JP2002245062A publication Critical patent/JP2002245062A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文書中から複合語として意味を持ち、且つ、
文書を特徴づける表現である複合語の構成語を抽出し
て、検索キーに用いることによって、文書検索の精度を
向上させる文書検索装置を提供する。 【解決手段】 ある文書を検索キー文書として、文書記
憶手段200に保持された複数の検索対象文書からこの
検索キー文書と類似する文書を検索する文書検索装置3
00において、前記検索キー文書から単語と複合語を抽
出するテキスト解析手段120と、テキスト解析手段1
20で抽出された複合語の構成単語毎に単語連接確度を
求め、この単語連接確度が閾値以上である構成単語の並
びを新たな複合語として分割する単語連接確度算出手段
130とを備え、単語連接確度算手段130で分割され
た新たな複合語を検索キーとして文書記憶手段200を
検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書データベース
に対して言語解析技術を用いて文書を検索する文書検索
装置、文書検索方法、プログラムおよび記録媒体に関
し、特に、言語解析技術を用いた文書処理システム全般
に応用して好適なものである。
【0002】
【従来の技術】大量の電子化文書データが流通するよう
になり、これらの文書の簡便な利用や管理のためにさま
ざまな文書処理技術が提案されている。その一例とし
て、指定された文書に関連する文書の自動検索技術が挙
げられる。これは、大量の電子化文書群を自動分類する
際の重要な技術であり、一般的には、指定された文書に
含まれている語句と、検索対象文書に含まれている語句
とを比較し、その類似性、出現頻度、出現場所などの共
通点に基づき、関連性の高い文書を抽出する仕組みにな
っている。このような文書検索では、指定された文書を
特徴づける語句の抽出が、文書検索精度の向上に大きな
影響を及ぼす。従来、語句の抽出には文書中の単語の品
詞情報や字種情報や出現頻度が用いられてきたが、そう
して抽出された単語が必ずしもその文書を特徴づけてい
るとは限らない。文書の内容をより端的に表現している
語句として複合語を抽出する方法も提案されており、例
えば、特開平11−259487号公報では、複合語の
構成語最大結合数を指定する手段を設け、抽出される単
語数の減少を抑制しつつ、文書を特徴づける複合語をも
れなく抽出する方法を提案している。
【0003】
【発明が解決しようとする課題】しかしながら、例えば
「筆文字宛名印刷機能」といった複合語が全体で文書を
特徴づける表現をしていても、「筆文字宛名」、「文字
宛名印刷」、「文字宛名」といった複合語の構成語が検
索キーとして意味のある語句とは限らず、文書を特徴づ
ける表現であるとも限らないという問題が残る。また、
特開平11−328195号公報では、複合語の構成語
間のつながりの強さを数値化したつながり情報を用いて
複合語を抽出する手法を提案しているが、つながりの強
さをどのように数値化するかを示唆したものではない。
本発明は、上述の問題を解決するためのものであり、文
書中から複合語として意味を持ち、且つ、文書を特徴づ
ける表現である複合語の構成語を抽出して、検索キーに
用いることによって、文書検索精度の向上をはかること
ができる文書検索装置、文書検索方法、プログラムおよ
び記録媒体を提供することを目的とする。
【0004】
【課題を解決するための手段】上記の問題を解決するた
めに、請求項1記載の発明は、ある文書を検索キー文書
として、文書記憶手段に保持された複数の検索対象文書
からこの検索キー文書と類似する文書を検索する文書検
索装置において、前記検索キー文書から単語と複合語を
抽出するテキスト解析手段と、前記テキスト解析手段で
抽出された複合語の構成単語毎に単語連接確度を求め、
この単語連接確度が閾値以上である構成単語の並びを新
たな複合語として分割する単語連接確度算出手段とを備
え、前記単語連接確度算手段で分割された新たな複合語
を検索キーとして前記文書記憶手段を検索することを特
徴とする。また、請求項2記載の発明は、ある文書を検
索キー文書として、文書記憶手段に保持された複数の検
索対象文書からこの検索キー文書と類似する文書を検索
する文書検索装置において、前記検索キー文書から単語
と複合語を抽出するテキスト解析手段と、前記テキスト
解析手段で抽出された複合語の構成単語毎に単語連接確
度を求め、この単語連接確度が閾値以上である構成単語
の並びを新たな複合語として分割する単語連接確度算出
手段と、前記テキスト解析手段で抽出された単語と前記
単語連接確度算出手段で抽出された複合語に対して検索
キー抽出規則を適合し、その残りに重み付けを行って検
索キーを抽出する検索キー抽出手段とを備え、前記検索
キー抽出手段で抽出された検索キーを用いて前記文書記
憶手段を検索することを特徴とする。また、請求項3記
載の発明は、請求項1または2に記載の文書検索装置に
おいて、前記単語連接確度算出手段は、前記検索キー文
書の単語バイグラム統計を算出し、その算出された単語
バイグラム統計結果から単語連接確度を求めるようにし
たことを特徴とする。また、請求項4記載の発明は、請
求項2に記載の文書検索装置において、前記検索キー抽
出手段で検索キー候補に対して重み付けを行う際、前記
検索キー文書中のその検索キー候補が単語の時には出現
頻度に基づいて算出し、その検索キー候補が複合語の時
には、複合語そのものだけでなく複合語中の構成語の出
現頻度および構成語同士の連接確度を加味して重み付け
を行うことを特徴とする。
【0005】また、請求項5記載の発明は、ある文書を
検索キー文書として、文書記憶手段に保持された複数の
検索対象文書からこの検索キー文書と類似する文書を検
索する文書検索方法において、前記検索キー文書から単
語と複合語を抽出し、この抽出された複合語の構成単語
毎に単語連接確度を求め、この単語連接確度が閾値以上
である構成単語の並びを新たな複合語として分割された
新たな複合語を検索キーとして前記文書記憶手段を検索
することを特徴とする。また、請求項6記載の発明は、
ある文書を検索キー文書として、文書記憶手段に保持さ
れた複数の検索対象文書からこの検索キー文書と類似す
る文書を検索する文書検索方法において、前記検索キー
文書から単語と複合語を抽出し、この抽出された複合語
の構成単語毎に単語連接確度を求め、この単語連接確度
が閾値以上である構成単語の並びを新たな複合語として
分割し、前記検索キー文書から抽出された単語と前記新
たな複合語に対して検索キー抽出規則を適合し、その残
りに重み付けを行って抽出された検索キーを用いて前記
文書記憶手段を検索することを特徴とする。また、請求
項7記載の発明は、請求項5または6に記載の文書検索
方法において、前記検索キー文書の単語バイグラム統計
を算出し、その算出された単語バイグラム統計結果から
単語連接確度を求めるようにしたことを特徴とする。ま
た、請求項8記載の発明は、請求項6に記載の文書検索
方法において、検索キー候補に対して重み付けを行う
際、前記検索キー文書中のその検索キー候補が単語の時
には出現頻度に基づいて算出し、その検索キー候補が複
合語の時には、複合語そのものだけでなく複合語中の構
成語の出現頻度および構成語同士の連接確度を加味して
重み付けを行うことを特徴とする。
【0006】また、請求項9記載の発明は、ある文書を
検索キー文書として、文書記憶手段に保持された複数の
検索対象文書からこの検索キー文書と類似する文書を検
索させるためにコンピュータを、前記検索キー文書から
単語と複合語を抽出するテキスト解析手段と、前記テキ
スト解析手段で抽出された複合語の構成単語毎に単語連
接確度を求め、この単語連接確度が閾値以上である構成
単語の並びを新たな複合語として分割する単語連接確度
算出手段とを備え、前記単語連接確度算手段で分割され
た新たな複合語を検索キーとして前記文書記憶手段を検
索するように機能させる。また、請求項10記載の発明
は、ある文書を検索キー文書として、文書記憶手段に保
持された複数の検索対象文書からこの検索キー文書と類
似する文書を検索させるためにコンピュータを、前記検
索キー文書から単語と複合語を抽出するテキスト解析手
段と、前記テキスト解析手段で抽出された複合語の構成
単語毎に単語連接確度を求め、この単語連接確度が閾値
以上である構成単語の並びを新たな複合語として分割す
る単語連接確度算出手段と、前記テキスト解析手段で抽
出された単語と前記単語連接確度算出手段で抽出された
複合語に対して検索キー抽出規則を適合し、その残りに
重み付けを行って検索キーを抽出する検索キー抽出手段
とを備え、前記検索キー抽出手段で抽出された検索キー
を用いて前記文書記憶手段を検索するように機能させ
る。
【0007】また、請求項11記載の発明は、ある文書
を検索キー文書として、文書記憶手段に保持された複数
の検索対象文書からこの検索キー文書と類似する文書を
検索する文書検索装置として機能させるためのプログラ
ムを記録したコンピュータ読み取り可能な記録媒体であ
って、前記検索キー文書から単語と複合語を抽出するテ
キスト解析手段と、前記テキスト解析手段で抽出された
複合語の構成単語毎に単語連接確度を求め、この単語連
接確度が閾値以上である構成単語の並びを新たな複合語
として分割する単語連接確度算出手段とを備え、前記単
語連接確度算手段で分割された新たな複合語を検索キー
として前記文書記憶手段を検索する機能を実現するため
のプログラムを記録した。また、請求項12記載の発明
は、ある文書を検索キー文書として、文書記憶手段に保
持された複数の検索対象文書からこの検索キー文書と類
似する文書を検索する文書検索装置として機能させるた
めのプログラムを記録したコンピュータ読み取り可能な
記録媒体であって、前記検索キー文書から単語と複合語
を抽出するテキスト解析手段と、前記テキスト解析手段
で抽出された複合語の構成単語毎に単語連接確度を求
め、この単語連接確度が閾値以上である構成単語の並び
を新たな複合語として分割する単語連接確度算出手段
と、前記テキスト解析手段で抽出された単語と前記単語
連接確度算出手段で抽出された複合語に対して検索キー
抽出規則を適合し、その残りに重み付けを行って検索キ
ーを抽出する検索キー抽出手段とを備え、前記検索キー
抽出手段で抽出された検索キーを用いて前記文書記憶手
段を検索する機能を実現するためのプログラムを記録し
た。
【0008】
【発明の実施の形態】以下に、図面を用いて本発明の実
施の形態の構成および動作を詳細に述べる。 (1)実施の形態の構成 図1は、本発明の文書検索装置の実施の形態の機能構成
例を示すブロック図である。文書検索装置300は、制
御手段100、入力手段110、テキスト解析手段12
0、単語連接確度算出部130、検索キー抽出手段14
0、検索処理手段150、出力手段160、単語辞書1
70、単語連接確度記憶手段180、検索キー抽出規則
記憶手段190、文書記憶手段200とから構成されて
いる。制御手段100は、以下に示す各手段、即ち、検
索の基となる文書の入力、検索の指示、検索の実行から
結果の出力までを制御する。入力手段110は、検索対
象となる複数の文書が保持されている文書記憶手段19
0に対して、検索の基となる文書(複数の文書であって
もよい)を指定する。また、検索処理や出力の際に必要
となる指示を入力する。検索の基となる文書(群)が入
力されると、テキスト解析手段120は、単語に関する
表記、品詞等を記憶している単語辞書170を用いて、
検索の基となる文書(群)を特徴付ける検索キーを抽出
するために、この文書(群)に含まれている単語および
複合語を抽出する。この形態素解析処理自体は、既知の
さまざまな手法で実施可能である。
【0009】単語連接確度算出手段130は、このテキ
スト解析手段120で抽出された複合語に対して、この
複合語を構成する単語の単語バイグラムを算出し、これ
をもとに単語連接確度を算出し、この単語連接確度を単
語連接確度記憶手段180へ記録させると共に、構成単
語の単語連接確度が予め与えられた閾値より大きいもの
の並びを新たな複合語として分割する。この新たな複合
語が検索キーの候補となる。複合語は、複数の単語で構
成されており、長ければ長いほど、意味が限定されやす
く、検索時のごみを減少させる効果があるが、検索キー
そのものを減少させてしまう、カバー率が下がる、など
の欠点もある。しかしながら、構成単語各々を検索キー
にすると、文書の内容とは違ったニュアンスで使われる
可能性のある語も検索キーになってしまう懸念もある。
例えば、政治分野の記事に出現する「酒屋出店規制廃止
延期」という複合語の「酒屋」が検索キーになると、実
際の検索時には、流通分野の記事が引かれてくる可能性
がある。そこで、単語バイグラムに基づく単語の連接確
度を用いて、複合語を文書内において意味のある単位で
分割して、検索キーにすることで、上記懸念を軽減させ
る。このために、単語連接確度算出手段130は、テキ
スト解析手段120で複合語を取り出した場合には、そ
の複合語に対して連続した2単語から構成される構成語
の単語バイグラム統計を計算し、この単語バイグラム統
計から複合語に対する単語連接確率を求め、この確率を
文書記憶手段200に記憶された文書に適合するように
修正して、単語連接確度を計算する(図4参照)。この
単語バイグラムは、例えば、論文「大規模日本語テキス
トのnグラム統計の作り方と語句の自動抽出」(情報処
理学会研究報告1993-NL-96,pp1-8)にある公知の方法で
文字単位を単語単位に置き換えて計算する。
【0010】次に、複合語の先頭2単語をバッファにと
り、予め単語バイグラムに基づき算出されたその2単語
の連接確度と、予め設定しておく連接閾値との比較を行
い、連接確度が連接閾値以上だったら次単語をバッファ
にとって、2番目の単語との連接確度を比較する。連接
閾値以下だったら、バッファ中の単語の並びを新たな複
合語とする。例えば、図4を参照して、複合語「酒屋出
店規制廃止延期」のうちから、意味のある検索キー候補
として取り出す方法を説明する。今、単語連接確度の連
接閾値を5とすると、「酒屋」と「出店」の連接確度が
6なので、連接させたまま、次の「出店」と「規制」も
連接確度も8なので、連接させたまま、次の「規制」と
「廃止」も8で連接させたままだが、次の「廃止」と
「延期」の連接確度は1なので、連接させずに「酒屋出
店規制廃止」が検索キー候補となる。検索キー抽出手段
140は、テキスト解析手段120から抽出された単語
および単語連接確度算出手段130で抽出された新たな
複合語に対し、検索キー抽出規則記憶手段190に記憶
された検索キー抽出規則を適用し、規則に一致したもの
を検索キー候補とする。
【0011】この抽出規則は、単語の付帯情報(品詞や
字種など)を条件として、検索キー候補になりうるかど
うかを決定する。この検索キー候補に対して、重み付け
し、その中から検索キーを抽出する。このために、検索
キー候補の語句が検索の基となる文書内に出現する頻度
をカウントし、その頻度情報(図2および図3参照)や
語句(単語および複合語)の品詞情報等を用いて検索キ
ー候補へ重み付けを行う。また、検索キー候補が複合語
のときには、その複合語の構成語が出現する頻度情報や
連接確度等を用いて検索キー候補へ重み付けを行う。例
えば、品詞が名詞の時には、形容動詞より重みを増した
り、頻度が高いほど重みを増すというような重み情報を
単語や複合語に対してテーブルとして用意しておき、こ
れを使って重みの計算を行う。また、複合語の時には、
構成語の頻度情報と連接確度を、例えば、単純和を計算
して、それを重みとする。この連接確度による重みは、
連接閾値を超えた単語連接(例えば、「酒屋出店」、
「出店規制」、「規制廃止」の各単語連接)に対してあ
る一定の値を加算するようにするとよい。
【0012】この重み付けられた検索キー候補から、予
め与えられた重み閾値以上のものを抽出して、検索キー
とする。例えば、出現頻度や連接確度をそのまま重みに
流用し、重みをその和で換算すると、「規制改革委員
会」の場合、複合語そのものとしての頻度は1である
が、「規制」、「改革」、「委員」の頻度がそれぞれ1
2、10、2であるから、その重みは10を超える。こ
こで重み閾値を10とすると、図2および図4の例では
以下の語句が検索キーとして決定される。「政府」、
「規制改革」、「酒屋出店規制廃止」、「酒屋」、「延
期」、「出店規制」、「規制」、「規制改革委員会」、
「改革」、「規制緩和」、「改革委員」、「委員会」検
索処理手段150は、検索キー抽出手段140で抽出し
た検索キーを用いて検索対象の文書記憶手段200を従
来から知られた手法で検索する。出力手段160は、検
索処理手段150で検索された結果を類似度やカテゴリ
分類して整理してディスプレイ等の表示装置へ表示する
ことによって、検索結果をユーザへ提示する。
【0013】(2)実施の形態の動作 図5は、本実施の形態の文書検索装置の動作を説明する
フローチャートである。検索の基となる文書(群)をキ
ーボードやファイルから入力する(ステップS10
0)。検索の基となる文書(群)を特徴付ける検索キー
を抽出するために、単語辞書170を用いて、この文書
(群)に含まれている単語および複合語を抽出する(ス
テップS110)。この抽出された複合語に対して、連
続した2単語から構成される構成語の単語バイグラム統
計を計算し、この単語バイグラム統計から複合語に対す
る単語連接確率を求め、この確率を文書記憶手段200
に記憶された文書に適合するように修正して、単語連接
確度を計算する。この単語連接確度は単語連接確度記憶
手段180へ記録される(ステップS120)。次に、
複合語の先頭2単語をバッファにとり、予め単語バイグ
ラムに基づき算出されたその2単語の連接確度と、予め
設定しておく連接閾値との比較を行い、連接確度が連接
閾値以上だったら次単語をバッファにとって、2番目の
単語との連接確度を比較する。連接閾値以下だったら、
バッファ中の単語の並びを新たな複合語とする(ステッ
プS130)。
【0014】形態素解析で抽出された単語および抽出さ
れた新たな複合語に対し、検索キー抽出規則記憶手段1
90に記憶された単語の付帯情報(品詞や字種など)を
条件として、検索キー候補になりうるかどうかを決定す
る検索キー抽出規則を適用し、規則に一致したものを検
索キー候補とする(ステップS140)。検索キー候補
の語句(単語および複合語)が検索の基となる文書内に
出現する頻度をカウントする(ステップS150)。こ
の頻度情報や語句の品詞情報等を用いて検索キー候補へ
重み付けを行う。また、検索キー候補が複合語のときに
は、その複合語の構成語が出現する頻度情報や連接確度
等を用いて検索キー候補へ重み付け(例えば、出現頻度
や連接確度の和を重みとする)を行う(ステップS16
0)。この重み付けられた検索キー候補から、予め与え
られた重み閾値以上のものを抽出して、検索キーとする
(ステップS170)。このようにして抽出した検索キ
ーを用いて検索対象の文書記憶手段200を検索する
(ステップS180)。この検索された結果を類似度や
カテゴリ分類して整理してディスプレイ等の表示装置へ
表示することによって、検索結果をユーザへ提示する
(ステップS190)。
【0015】<コンピュータによる実施の形態>本発明
の文書検索装置300は、図6に示されるような汎用的
なコンピュータ500によっても実現することができ
る。即ち、入力装置1は、キーボード、マウス、タッチ
パネル、スキャナ等により構成され、検索の基となる文
書(群)や各種の指示情報の入力に使用される。出力装
置2は、検索結果や途中経過等の種々の出力情報や入力
装置1からの入力された情報などを出力させるディスプ
レイやプリンタで構成される。CPU(Central
Processing Unit;中央処理ユニッ
ト)3は、種々のプログラムを動作させる。メモリ4
は、プログラム自身を保持し、またそのプログラムがC
PU3によって実行されるときに一時的に作成される情
報(例えば、検索キー候補を求めるときのバッファ)等
を保持する。記憶装置5は、単語辞書170、検索キー
抽出規則記憶手段170、文書記憶手段190等のデー
タ、プログラムやプログラム実行時の一時的な情報等を
保持する。
【0016】媒体駆動装置6は、プログラムや単語辞書
等のデータ等を記憶した記録媒体を装着してそれらを読
み込み、メモリ4または記憶装置5へ格納するのに用い
られる。また、直接データの入出力やプログラム実行す
るのに使ってもよい。ネットワーク接続装置7は、コン
ピュータをネットワーク9へ接続するためのインタフェ
ースである。バス8は、上記各部を接続する。ネットワ
ーク9は、コンピュータと他のコンピュータとを結合す
るための伝送路であって、一般には、ケーブルで実現さ
れ、通信プロトコルにはTCP/IPが使われる。但
し、伝送路としてはケーブルだけではなく、それらの間
の通信プロトコルが一致するものであれば無線、有線お
よび放送波のいずれでもよく、例えば、LAN(Loc
al Area Network)、WAN(Wide
Area Network)、インターネット、アナロ
グ電話網、デジタル電話網(ISDN:Integra
l Service Digital Networ
k)、PHS(パーソナル ハンディ システム)、携
帯電話網、衛星通信網などを用いることができる。
【0017】上述した実施の形態の文書検索装置300
を構成する各機能(図1参照)をそれぞれプログラム化
し、あらかじめCD−ROM等の記録媒体に書き込んで
おき、このCD−ROMをCD−ROMドライブのよう
な媒体駆動装置6を搭載したコンピュータ500に装着
して、これらのプログラムをコンピュータ500のメモ
リ4あるいは記憶装置5に格納し、それを実行すること
によって、本発明の目的を達成することができる。尚、
この記録媒体としては半導体媒体(例えば、ROM、I
Cメモリカード等)、光媒体(例えば、DVD、MO、
MD、CD−R等)、磁気媒体(例えば、磁気テープ、
フレキシブルディスク等)のいずれであってもよい。上
述した本発明の実施の形態の機能を実現するプログラム
がROM等のような半導体の記録媒体である場合には、
媒体駆動装置6からではなく、直接、メモリ4へロード
して実行される。また、ロードしたプログラムを実行す
ることにより上述した実施の形態の機能が実現されるだ
けでなく、そのプログラムの指示に基づき、オペレーテ
ィングシステム等が実際の処理の一部または全部を行
い、その処理によって上述した実施の形態の機能が実現
される場合も含まれる。
【0018】また、上述した実施の形態を構成する各機
能をそれぞれプログラム化し、そのプログラムをサーバ
ーコンピュータ400の磁気ディスク等の記憶装置5に
格納しておき、ネットワーク9で接続されたユーザのコ
ンピュータ500からダウンロード等の形式で頒布する
ことも可能である。さらに、上述した実施の形態の機能
を実現するプログラムを放送波によって配布することで
提供するようにしてもよい。このような構成にすると、
次のような効果が達成できる。・単語連接確度とその閾
値を用いて検索の基となる文書の内容に即した複合語内
の尤もらしい構成語を検索キーとして抽出することが可
能になり、検索精度の向上に効果がある。・検索の基と
なる文書中の単語バイグラム統計を複合語にのみ実施す
ることで、その文書の内容に即した単語連接確度を得る
ことができるとともに、単語バイグラムの計算コスト、
単語連接確度のサイズが低減される。・複合語の尤もら
しい検索キーを選定するときに、先頭から2単語ずつの
単語連接確度を予め設定した閾値と比較しするという簡
単な手続きとしたために、複合語の検索キーの増減を簡
単に操作できる。・検索キーの重み付けに、複合語の場
合に出現頻度だけでなく、複合語の構成語の出現頻度、
連接確度を加味するため、より尤もらしい検索キーを抽
出することができる。
【0019】
【発明の効果】以上説明したように、本発明によれば、
文書中から複合語として意味を持ち、且つ、文書を特徴
づける表現である複合語の構成語を抽出して、検索キー
に用いることによって、文書検索精度の向上をはかるこ
とができる。
【図面の簡単な説明】
【図1】実施の形態の機能構成を示すブロック図であ
る。
【図2】単語の頻度情報の例を示す図である。
【図3】複合語の頻度情報の例を示す図である。
【図4】複合語の単語接続確度の例を示す図である。
【図5】実施の形態の動作を説明するためのフローチャ
ートである。
【図6】実施の形態を実現するためのコンピュータのハ
ードウェアブロック図である。
【符号の説明】
1 …… 入力装置 2 …… 出力装置 3 …… CPU 4 …… メモリ 5 …… 記憶装置 6 …… 媒体駆動装置 7 …… ネットワーク接続装置 8 …… バス 9 …… ネットワーク 100…… 制御部 110…… 入力手段 120…… テキスト解析手段 130…… 単語連接確度算出手段 140…… 検索キー抽出手段 150…… 検索処理手段 160…… 出力手段 170…… 単語辞書 180…… 単語連接確度記憶手段 190…… 検索キー抽出規則記憶手段 200…… 文書記憶手段 300…… 文書検索装置 400…… サーバー 500…… コンピュータ

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 ある文書を検索キー文書として、文書記
    憶手段に保持された複数の検索対象文書からこの検索キ
    ー文書と類似する文書を検索する文書検索装置におい
    て、前記検索キー文書から単語と複合語を抽出するテキ
    スト解析手段と、前記テキスト解析手段で抽出された複
    合語の構成単語毎に単語連接確度を求め、この単語連接
    確度が閾値以上である構成単語の並びを新たな複合語と
    して分割する単語連接確度算出手段とを備え、前記単語
    連接確度算手段で分割された新たな複合語を検索キーと
    して前記文書記憶手段を検索することを特徴とする文書
    検索装置。
  2. 【請求項2】 ある文書を検索キー文書として、文書記
    憶手段に保持された複数の検索対象文書からこの検索キ
    ー文書と類似する文書を検索する文書検索装置におい
    て、前記検索キー文書から単語と複合語を抽出するテキ
    スト解析手段と、前記テキスト解析手段で抽出された複
    合語の構成単語毎に単語連接確度を求め、この単語連接
    確度が閾値以上である構成単語の並びを新たな複合語と
    して分割する単語連接確度算出手段と、前記テキスト解
    析手段で抽出された単語と前記単語連接確度算出手段で
    抽出された複合語に対して検索キー抽出規則を適合し、
    その残りに重み付けを行って検索キーを抽出する検索キ
    ー抽出手段とを備え、前記検索キー抽出手段で抽出され
    た検索キーを用いて前記文書記憶手段を検索することを
    特徴とする文書検索装置。
  3. 【請求項3】 請求項1または2に記載の文書検索装置
    において、前記単語連接確度算出手段は、前記検索キー
    文書の単語バイグラム統計を算出し、その算出された単
    語バイグラム統計結果から単語連接確度を求めるように
    したことを特徴とする文書検索装置。
  4. 【請求項4】 請求項2に記載の文書検索装置におい
    て、前記検索キー抽出手段で検索キー候補に対して重み
    付けを行う際、前記検索キー文書中のその検索キー候補
    が単語の時には出現頻度に基づいて算出し、その検索キ
    ー候補が複合語の時には、複合語そのものだけでなく複
    合語中の構成語の出現頻度および構成語同士の連接確度
    を加味して重み付けを行うことを特徴とする文書検索装
    置。
  5. 【請求項5】 ある文書を検索キー文書として、文書記
    憶手段に保持された複数の検索対象文書からこの検索キ
    ー文書と類似する文書を検索する文書検索方法におい
    て、前記検索キー文書から単語と複合語を抽出し、この
    抽出された複合語の構成単語毎に単語連接確度を求め、
    この単語連接確度が閾値以上である構成単語の並びを新
    たな複合語として分割された新たな複合語を検索キーと
    して前記文書記憶手段を検索することを特徴とする文書
    検索方法。
  6. 【請求項6】 ある文書を検索キー文書として、文書記
    憶手段に保持された複数の検索対象文書からこの検索キ
    ー文書と類似する文書を検索する文書検索方法におい
    て、前記検索キー文書から単語と複合語を抽出し、この
    抽出された複合語の構成単語毎に単語連接確度を求め、
    この単語連接確度が閾値以上である構成単語の並びを新
    たな複合語として分割し、前記検索キー文書から抽出さ
    れた単語と前記新たな複合語に対して検索キー抽出規則
    を適合し、その残りに重み付けを行って抽出された検索
    キーを用いて前記文書記憶手段を検索することを特徴と
    する文書検索方法。
  7. 【請求項7】 請求項5または6に記載の文書検索方法
    において、前記検索キー文書の単語バイグラム統計を算
    出し、その算出された単語バイグラム統計結果から単語
    連接確度を求めるようにしたことを特徴とする文書検索
    方法。
  8. 【請求項8】 請求項6に記載の文書検索方法におい
    て、検索キー候補に対して重み付けを行う際、前記検索
    キー文書中のその検索キー候補が単語の時には出現頻度
    に基づいて算出し、その検索キー候補が複合語の時に
    は、複合語そのものだけでなく複合語中の構成語の出現
    頻度および構成語同士の連接確度を加味して重み付けを
    行うことを特徴とする文書検索方法。
  9. 【請求項9】 ある文書を検索キー文書として、文書記
    憶手段に保持された複数の検索対象文書からこの検索キ
    ー文書と類似する文書を検索させるためにコンピュータ
    を、前記検索キー文書から単語と複合語を抽出するテキ
    スト解析手段と、前記テキスト解析手段で抽出された複
    合語の構成単語毎に単語連接確度を求め、この単語連接
    確度が閾値以上である構成単語の並びを新たな複合語と
    して分割する単語連接確度算出手段とを備え、前記単語
    連接確度算手段で分割された新たな複合語を検索キーと
    して前記文書記憶手段を検索するように機能させるプロ
    グラム。
  10. 【請求項10】 ある文書を検索キー文書として、文書
    記憶手段に保持された複数の検索対象文書からこの検索
    キー文書と類似する文書を検索させるためにコンピュー
    タを、前記検索キー文書から単語と複合語を抽出するテ
    キスト解析手段と、前記テキスト解析手段で抽出された
    複合語の構成単語毎に単語連接確度を求め、この単語連
    接確度が閾値以上である構成単語の並びを新たな複合語
    として分割する単語連接確度算出手段と、前記テキスト
    解析手段で抽出された単語と前記単語連接確度算出手段
    で抽出された複合語に対して検索キー抽出規則を適合
    し、その残りに重み付けを行って検索キーを抽出する検
    索キー抽出手段とを備え、前記検索キー抽出手段で抽出
    された検索キーを用いて前記文書記憶手段を検索するよ
    うに機能させるプログラム。
  11. 【請求項11】 ある文書を検索キー文書として、文書
    記憶手段に保持された複数の検索対象文書からこの検索
    キー文書と類似する文書を検索する文書検索装置として
    機能させるためのプログラムを記録したコンピュータ読
    み取り可能な記録媒体であって、前記検索キー文書から
    単語と複合語を抽出するテキスト解析手段と、前記テキ
    スト解析手段で抽出された複合語の構成単語毎に単語連
    接確度を求め、この単語連接確度が閾値以上である構成
    単語の並びを新たな複合語として分割する単語連接確度
    算出手段とを備え、前記単語連接確度算手段で分割され
    た新たな複合語を検索キーとして前記文書記憶手段を検
    索する機能を実現するためのプログラムを記録したコン
    ピュータ読み取り可能な記録媒体。
  12. 【請求項12】 ある文書を検索キー文書として、文書
    記憶手段に保持された複数の検索対象文書からこの検索
    キー文書と類似する文書を検索する文書検索装置として
    機能させるためのプログラムを記録したコンピュータ読
    み取り可能な記録媒体であって、前記検索キー文書から
    単語と複合語を抽出するテキスト解析手段と、前記テキ
    スト解析手段で抽出された複合語の構成単語毎に単語連
    接確度を求め、この単語連接確度が閾値以上である構成
    単語の並びを新たな複合語として分割する単語連接確度
    算出手段と、前記テキスト解析手段で抽出された単語と
    前記単語連接確度算出手段で抽出された複合語に対して
    検索キー抽出規則を適合し、その残りに重み付けを行っ
    て検索キーを抽出する検索キー抽出手段とを備え、前記
    検索キー抽出手段で抽出された検索キーを用いて前記文
    書記憶手段を検索する機能を実現するためのプログラム
    を記録したコンピュータ読み取り可能な記録媒体。
JP2001037761A 2001-02-14 2001-02-14 文書検索装置、文書検索方法、プログラムおよび記録媒体 Pending JP2002245062A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001037761A JP2002245062A (ja) 2001-02-14 2001-02-14 文書検索装置、文書検索方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001037761A JP2002245062A (ja) 2001-02-14 2001-02-14 文書検索装置、文書検索方法、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2002245062A true JP2002245062A (ja) 2002-08-30

Family

ID=18900841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001037761A Pending JP2002245062A (ja) 2001-02-14 2001-02-14 文書検索装置、文書検索方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2002245062A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234688A (ja) * 2004-02-17 2005-09-02 Ricoh Co Ltd 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JP2005293582A (ja) * 2004-03-31 2005-10-20 Oce Technol Bv 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
US8208765B2 (en) 2007-07-23 2012-06-26 Sharp Kabushiki Kaisha Search and retrieval of documents indexed by optical character recognition
US8750616B2 (en) 2007-07-23 2014-06-10 Sharp Kabushiki Kaisha Character image extracting apparatus and character image extracting method
CN111737523A (zh) * 2020-04-22 2020-10-02 聚好看科技股份有限公司 一种视频标签、搜索内容的生成方法及服务器

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234688A (ja) * 2004-02-17 2005-09-02 Ricoh Co Ltd 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JP4574186B2 (ja) * 2004-02-17 2010-11-04 株式会社リコー 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JP2005293582A (ja) * 2004-03-31 2005-10-20 Oce Technol Bv 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
US8208765B2 (en) 2007-07-23 2012-06-26 Sharp Kabushiki Kaisha Search and retrieval of documents indexed by optical character recognition
US8750616B2 (en) 2007-07-23 2014-06-10 Sharp Kabushiki Kaisha Character image extracting apparatus and character image extracting method
CN111737523A (zh) * 2020-04-22 2020-10-02 聚好看科技股份有限公司 一种视频标签、搜索内容的生成方法及服务器
CN111737523B (zh) * 2020-04-22 2023-11-14 聚好看科技股份有限公司 一种视频标签、搜索内容的生成方法及服务器

Similar Documents

Publication Publication Date Title
JP3272288B2 (ja) 機械翻訳装置および機械翻訳方法
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
CN110232112B (zh) 文章中关键词提取方法及装置
US20020016798A1 (en) Text information analysis apparatus and method
US9208140B2 (en) Rule based apparatus for modifying word annotations
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20090300003A1 (en) Apparatus and method for supporting keyword input
JP4226862B2 (ja) 文書検索装置
JP2002245062A (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
KR20050064574A (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
US20040054677A1 (en) Method for processing text in a computer and a computer
JP4024137B2 (ja) 数量表現検索装置
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP5123350B2 (ja) テストケース作成システム、方法およびプログラム
JP2010266970A (ja) 情報検索装置、情報検索方法、辞書作成装置、およびプログラム
JPH0619968A (ja) 専門用語自動抽出装置
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JP2007241635A (ja) 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム
JPH06124305A (ja) 文書検索方法
JPH1145236A (ja) 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000222432A (ja) 文書検索装置、文書検索方法及び文書検索プログラムを記録した記録媒体
JPH0561902A (ja) 機械翻訳システム