JP2002304418A - 検索装置、検索方法および検索プログラム - Google Patents

検索装置、検索方法および検索プログラム

Info

Publication number
JP2002304418A
JP2002304418A JP2001108307A JP2001108307A JP2002304418A JP 2002304418 A JP2002304418 A JP 2002304418A JP 2001108307 A JP2001108307 A JP 2001108307A JP 2001108307 A JP2001108307 A JP 2001108307A JP 2002304418 A JP2002304418 A JP 2002304418A
Authority
JP
Japan
Prior art keywords
search
word
contribution
degree
question sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001108307A
Other languages
English (en)
Inventor
Isao Nanba
功 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001108307A priority Critical patent/JP2002304418A/ja
Priority to US09/971,959 priority patent/US6931398B2/en
Publication of JP2002304418A publication Critical patent/JP2002304418A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Abstract

(57)【要約】 【課題】 どのような単語が検索で重視されたかをユー
ザーに通知するができる検索装置、検索方法および検索
プログラムを提供すること。 【解決手段】 検索のための質問文を入力する質問文入
力手段と、検索対象のデータが格納されたデータベース
を検索し、上記質問文入力手段によって入力された質問
文に類似するデータを抽出する検索実行手段と、上記検
索実行手段によって抽出された検索結果に対して、上記
検索実行手段による抽出に貢献した単語に関する貢献の
度合を演算する単語貢献度演算手段と、上記単語貢献度
演算手段によって演算された貢献度を対応する単語とと
もに出力する単語貢献度出力手段とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語で記述さ
れた検索要求に対して検索を行なったり、あるいは入力
された単語列からなる質問に対して検索を行なったりし
た検索結果を、文書類の類似度順に順位をつけてユーザ
ーに提示する類似文書検索装置に関する。
【0002】
【従来の技術】従来、類似文書検索装置は、ユーザーが
入力した検索要求に対して最も類似度が高いと判断され
る文書から順に順位を付け、その検索結果を提示してい
る。
【0003】類似文書検索に関する技術は、例えば、M
anaging Gigabytes,Compres
sing and Indexing Documen
tsand Images,141ページ乃至148ペ
ージに開示されている。
【0004】文書の類似度は、一般には検索要求単語の
検索対象文書中での重要度(idf)とそれぞれの文書
中での重要度(tf)をかけることにより求められる。
【0005】
【発明が解決しようとする課題】しかしながら、通常ユ
ーザーには、検索結果中での単語の重要度は明らかにさ
れることはないし、また類似度検索式はユーザーには公
開もされないし、その作用がユーザーには理解し難いも
のである。
【0006】そのため、検索要求に対して予想と異なっ
た文書が上位に上がってきた場合には、ユーザーは自分
で類似文書検索装置の動きを検索結果から予測して単語
を置き換えて検索するか、質問文(検索要求)を作成し
直して再度検索する以外に方法はないという問題があっ
た。
【0007】本発明は、上記問題点に鑑みてなされたも
ので、どのような単語が検索で重視されたかをユーザー
に通知するができ、意図と違った形の類似検索の結果が
返ってきても、単語に対する重みを容易に修正すること
が可能となる検索装置、検索方法および検索プログラム
を提供することを目的とする。
【0008】
【課題を解決するための手段】従来の類似文書検索装置
で上述のような問題があるのは、なぜそのような結果が
返ってくるのかユーザーには直感的に理解し難いからで
ある。これは検索がうまくいっている場合には問題はな
い。しかし、類似文書検索装置がユーザーの思いもよら
ない結果を返した場合にはユーザーとしてはどのような
対応をとればよいかが明確ではない。
【0009】以下の文書は、TREC(Text Retrieval Con
ference)からの質問文である。Identify documents th
at discuss the current status of hybridautomobilee
ngines, (i.e., cars fueled by something other than
gasolineonly). A relevant documentmay include r
esearch on non-gasoline powered engines orprototyp
es that may befueled by natural gas, methanol, alc
ohol; cost tothe consumer; health benefitsderived;
and shortcomings in horsepower andpassenger comfo
rt.この質問文は整理された形でサーチャーに届くよう
な検索要求の形をとっているが、この文書をそのまま検
索要求として、自然言語を入力とする類似文書検索装置
に投入すると、「fuel」か「car 」を主題とした文書が
上位に並び、「hybrid fueled car 」に関する結果は上
位には並ばない。この場合に検索結果を良く見れば、
「hybrid」という単語の類似文書検索装置内部での重要
度が低いことと、「car」、「fuel」という単語がある
とそれらが中心となった文書が上位にくるために、望ん
だ結果が得られないことがわかる。しかしながらこのよ
うなことを一般ユーザーが判断することは容易ではな
い。
【0010】また、このような場合に、「hybrid」にユ
ーザー側で重みをおけば適切な検索結果を得られる。し
かし、細かい数値で単語の重みを指定するにせよ、現在
重みが置かれている単語「fuel」、「car」とバランス
した重みにするための計算方法、指定方法が存在しない
ため、容易に重み付けを行なうことができない。
【0011】本発明は、上記課題を解決するため、下記
のような構成を採用した。 (1)検索結果全体の傾向を表わす形で類似文書検索装
置側が判定した単語の効き(貢献度)を階調表示するこ
とにより、どのような単語が検索で重視されたかをユー
ザーに通知する。 (2)指定された単語の重み付けを変更し、検索結果に
対して適切な貢献度が得られるように修正するインター
フェイス並びに内部的な計算機能を実現する。これによ
りユーザーは、意図と違った形の類似検索の結果が返っ
てきても、単語に対する重みを容易に修正することが可
能となる。
【0012】すなわち、本発明の一態様によれば、本発
明の検索装置は、検索のための質問文を入力する質問文
入力手段と、検索対象のデータが格納されたデータベー
スを検索し、上記質問文入力手段によって入力された質
問文に類似するデータを抽出する検索実行手段と、上記
検索実行手段によって抽出された検索結果に対して、上
記検索実行手段による抽出に貢献した単語に関する貢献
の度合を演算する単語貢献度演算手段と、上記単語貢献
度演算手段によって演算された貢献度を対応する単語と
ともに出力する単語貢献度出力手段とを備えたことを特
徴とする。
【0013】また、本発明の検索装置は、上記単語貢献
度出力手段が、上記貢献度に対応した表示形態で上記対
応する単語を出力することが望ましい。また、本発明の
検索装置は、上記検索実行手段が、上記質問文入力手段
によって入力された質問文を単語に分割し、上記分割し
た単語毎に上記データベースを検索して類似するデータ
を抽出することが望ましい。
【0014】また、本発明の検索装置は、上記単語貢献
度演算手段が、上記検索実行手段によって抽出された検
索結果のうち、上記類似の度合が上位である集団と上記
類似の度合が下位である集団とを取得する上位集団下位
集団取得手段と、上記分割した単語の上記上位集団に含
まれる割合と上記下位集団に含まれる割合との差を求
め、上記差を上記分割した単語の貢献度とする貢献度計
算手段とを備えたことが望ましい。
【0015】また、本発明の一態様によれば、本発明の
検索装置は、検索により質問単語に類似するデータを抽
出し、上記抽出された検索結果に対して、上記抽出に貢
献した単語に関する貢献の度合(貢献度)を対応する単
語とともに画面上に表示する検索装置であって、上記画
面上に表示された単語を指定する単語指定手段と、上記
単語指定手段によって指定された単語に対して、上記検
索のための重みを付与する重み付け手段とを備えたこと
を特徴とする。
【0016】
【発明の実施の形態】以下、本発明の実施の形態を、図
面を参照しながら詳細に説明する。図1は、本発明を適
用した検索装置の機能構成図である。
【0017】図1において、検索装置1は、質問文入力
手段2、検索実行手段4、単語貢献度演算手段5、単語
指定手段9、重み付け手段10、出力手段13を備え、
検索により質問単語に類似するデータを抽出し、上記抽
出された検索結果に対して、上記抽出に貢献した単語に
関する貢献の度合(貢献度)を対応する単語とともに画
面上に表示する。
【0018】そして、検索実行手段4は、再検索実行手
段11を備え、単語貢献度演算手段5は、上位集団下位
集団取得手段7と貢献度計算手段8とを備え、出力手段
13は、単語貢献度出力手段6と検索結果出力手段12
とを備える。
【0019】上記質問文入力手段2は、検索のための質
問文を入力する。上記検索実行手段4は、検索対象のデ
ータが格納されたデータベース3を検索し、上記質問文
入力手段2によって入力された質問文に類似するデータ
を抽出する。
【0020】また、上記検索実行手段4は、上記質問文
入力手段2によって入力された質問文を単語に分割し、
上記分割した単語毎に上記データベース3を検索して類
似するデータを抽出する。
【0021】上記単語貢献度演算手段5は、上記検索実
行手段4によって抽出された検索結果に対して、上記検
索実行手段4による抽出に貢献した単語に関する貢献の
度合を演算する。
【0022】上記単語貢献度出力手段6は、上記単語貢
献度演算手段5によって演算された貢献度を対応する単
語とともに、CRTディスプレイ、液晶ディスプレイ、
プラズマディスプレイ等の表示装置やレーザービームプ
リンタ、インクジェットプリンタ等の印刷装置等へ出力
する。出力は、貢献度に対応した表示形態、貢献度に対
応したフォント、貢献度に対応した文字サイズ、貢献度
に対応した色等で行なう。
【0023】上記上位集団下位集団取得手段7は、上記
検索実行手段4によって抽出された検索結果のうち、上
記類似の度合が上位である集団と上記類似の度合が下位
である集団とを取得する。
【0024】上記貢献度計算手段8は、上記分割した単
語の上記上位集団に含まれる割合と上記下位集団に含ま
れる割合との差を求め、上記差を上記分割した単語の貢
献度とする。
【0025】上記単語指定手段9は、上記画面上に表示
された単語を指定する。重み付け手段10は、上記単語
指定手段9によって指定された単語に対して、上記検索
のための重みを付与する。
【0026】また、上記重み付け手段10は、上記検索
結果のデータが最上位になるように重みを付与する。ま
た、上記重み付け手段10は、上記検索結果のうち所定
のデータに対して、順に、上記検索結果のデータが最上
位になるように重みを付与し、各データに対する重みの
平均値を上記単語の重み値とする。
【0027】上記再検索実行手段11は、検索対象のデ
ータが格納されたデータベース3を検索し、上記重み付
け手段10によって重みが付与された単語に類似するデ
ータを抽出する。
【0028】なお、検索手段1は、上記データベース3
を備えるようにしてもよい。図2は、本発明の原理説明
図である。図2において、質問文入力部21は、ユーザ
ーの入力した質問文を受理する。
【0029】検索実行部22は、ユーザーの入力した質
問文に基づき検索を実行する。単語貢献度計算部23
は、検索結果に対して質問文中の単語(複数)の効き目を
計算する。
【0030】単語貢献度表示部24は、検索要求中の単
語に対する貢献度を表示する。単語重み修正要求部25
は、ユーザーが単語の重みの修正要求を受け付ける。修
正単語重み計算部26は、ユーザーにより指定された単
語の効きが高くなるように単語重みを計算し、単語に重
みを付加する。
【0031】図3は、検索結果中の単語の貢献度を表示
するまでの処理の流れである。ステップS1において、
ユーザーからの検索要求を受理(入力)する。ステップ
S2において、ステップS1入力された検索要求に対し
て、あるいは適宜、検索要求を単語に分割して、類似検
索を実行し、関連度の高い文書順に結果を得る。
【0032】ステップS3において、ステップS2にお
ける検索による検索結果の上位N件の文書を取得する。
これは最も検索要求に合致していると検索装置が判断し
た文書とみなせる。これらN件の文書の集団をAとす
る。ここで、上位N件とは、1位からN位までとは限ら
ず、例えば、1位ずつスキップしたN件分であってもよ
い。
【0033】ステップS4において、検索結果のM番目
にランクされた文書よりP件の文書を取得する。これら
は検索結果として引けてきたが、検索結果の中ではさほ
ど重要度が高くなかった文書とみなせる。これらP件の
文書の集団をBとする。ここで、P件とは、M位から
(M+P−1)位までのP件とは限らず、例えば、1位
ずつスキップしたP件分であってもよい。また、Mは、
Nより大きくても小さくてもよい。
【0034】ステップS5において、検索要求より1単
語取り出す。ステップS6において、処理対象の単語が
最後の単語か否かを判定する。最後の単語であれば処理
はステップS9に移る。それ以外の場合には、処理はス
テップS7に移る。
【0035】ステップS7において、処理対象の単語が
AとBとに含まれる割合をそれぞれ計算する。この貢献
度の式としては、Term selection value(Okapi syste
m), Term selection value(Boughamformula), Relevan
ce feedbackformula(Rocchio)などを利用することが考
えられる。
【0036】なお、Term selection valueについては、
NIST(NationalInstitute of Standards and Techn
ology)発行の「The Eighth Text Retrieval Conferenc
e(TREC-8)」の151ページ乃至161ページに詳細が
記載されている。
【0037】次に、ステップS8において、ステップS
7の結果を貢献度とみなして単語に付与する。そののち
ステップS5に戻る。上記ステップS5乃至ステップS
8はループ処理であり、検索要求中からそれぞれの単語
を取り出し、それらに対して、貢献度を計算する。
【0038】そして、ステップS9において、単語の貢
献度の最大値(Max)と最小値(Min)を求める。
ステップS10において、貢献度を階調表示するため
に、MinとMaxとの間を一定の階調に分ける。階調
の設定は等分割などの方法が考えられる。
【0039】ステップS11において、階調に合わせて
表示のためのフォントを設定する。ステップS12にお
いて、単語ごとにその貢献度に応じた対応したフォント
で検索結果に対する単語の貢献度を表示する。
【0040】図4は、検索結果中の単語の貢献度をユー
ザーが変更し、その変更内容を反映するように単語に重
みを付ける処理の流れを示すフローチャートである。ス
テップS11において、貢献度を変更する単語をユーザ
ーが指定する。
【0041】ステップS12において、類似検索を実行
する。ステップS13において、k=1とし、ステップ
S14において、L=nとする。ここでnは、上位n件
分のnである。
【0042】上記ステップS13およびステップS14
は、kがLとなるまで、検索結果よりk番目の順位とな
った文書を取り出し、単語に補正の重みを付ける計算を
行なう。
【0043】ステップS15において、現在の対象文書
が最後であるか否か(K=Lか否か)を判定する。最後
までいっているのであれば、処理は終了する。それ以外
の場合には処理はステップS16に進む。
【0044】ステップS16において、処理対象として
k番目の文書をとる。ステップS17において、k番目
の文書に貢献度を変更したい単語が含まれているかどう
か確かめる。
【0045】含まれていなければ処理はステップS22
へ進み、それ以外の場合にはステップS18へ移る。ス
テップS18において、現在k番目に位置する文書の順
位が1位になるには、候補単語にどの程度重みをつけれ
ばよいか計算する。
【0046】ステップS19において、既に単語に対し
て重みが設定されているかどうかにより処理が分かれ
る。もし重みが設定されていないのであれば、重みにk
番目の文書の処理結果を設定する。それ以外の場合に
は、既に処理した結果と平均をとる。
【0047】ステップS10において、重みとして、k
番目の文書に求めた単語の重みを設定する。ステップS
11において、重みとして、k番目の文書に求めた単語
の重みと以前の重みの平均をとる。
【0048】いずれの例でも修正して求めた重みには過
度の強さを持たせないため、上位の文書から求めた重み
ほど利きが強くなるようにすることが必要である。下位
の文書から上位の文書に上げるために求めた重みの影響
が大きくならないようにするためには、求めた重みに1
/log(現在の処理対象文書の順位)などをかけて、
補正することが考えられる。
【0049】上記ステップS19乃至ステップS21
は、平均を取る処理である。ステップS22において、
次の文書を処理するためにkをひとつ進める。そののち
処理はステップS16に戻る。
【0050】上記ステップS15乃至ステップS22
は、ループであり、上位n件の文書を1件ずつとり、指
定された単語の貢献度が上がるように単語に補整の重み
をつける処理を行なう。
【0051】以下の実施の形態においては、自然言語で
記述された検索要求で英語文書に対して検索を行ない、
検索結果に対する単語の貢献度をフォント表示し、ユー
ザーに対して検索装置の単語の重みを4階調のフォント
の大きさとして示している。
【0052】図5は、検索要求の例を示す図であり、検
索したいものを規定した文書である。文書自体はTRE
C(Text REtrieval Conferen
ce)の質問文セットの385番より取っている。
【0053】上記質問文は、「Hybrid car 」に対する
検索要求そのものと検索されるべき文書の詳細をあわせ
て記述したものである。図6は、貢献度の計算式とパラ
メーターの設定値を示す図である。
【0054】貢献度の計算として、関連度が高そうな文
書の集合に上位10件(図3中のA)、関連度が低そう
な文書の集合(図3中のB)に上位800件からの20
0文書を想定している。この場合には、検索結果として
1000件以上が想定されているが、検索結果が100
0件以下であれば、取得された結果で最後から数えて2
割をBとするといった処理が考えられる。
【0055】貢献度の計算式(割合判定式)としては、
Term Selection Value(Boughamformula)を用いている
が、計算式には任意のものを用いることが可能である。
図7は、貢献度の計算結果を示す図である。
【0056】図7において、「fuel」が貢献度7.2で
最も高く、「hybrid」は検索要求中での貢献度が低く
(0.6)、意図した結果とずれた文書がとれてきたで
あろうことがわかる。
【0057】図8は、貢献度を4階調のフォント表示と
した図である。最高点と最低点の間を等分に4つに分
け、8ポイントづつフォントサイズを変えていき、単語
を貢献度順にグループ化したものである。これにより検
索結果では、「Fuel」、「methanol」、「cars」が支配
的であることが見て取れる。
【0058】図8に示した表示例では等分割したが、人
目で理解できるように貢献度の高い3単語を最初のグル
ープとし、それ以外を等分割するといった方法も考えら
れる。
【0059】図9は、単語貢献度への変更要求の例を示
す図である。貢献度を変更して、望ましい結果を取ろう
とするユーザーの試みをであり、入力インターフェイス
に対する動作を表わしている。
【0060】上位の単語の内、「methanol」は関係が薄
そうなので削除し、「Fuel」の貢献度を下げる。またキ
ーワードである「hybrid」の貢献度を1位になるように
設定する。
【0061】図10は、再計算対象となる類似検索で上
位にきた文書中に各単語がどのように含まれ、どのよう
な得点となっているかを示す図である。図10におい
て、文書に対する得点は各単語の得点を加算したもので
ある。横の数字は各文書が何番目にランクされたかを示
している。例えば、1番目にランクされた文書には、
「Cars」の得点が「5」で、「hybrid」の得点が「0」
等となっている。
【0062】図11は、再計算の処理を示す図である。
現在8位(番目)にある「hybrid」を含む文書を1位
(番目)に持ってくるには、「hybrid」の点に「9」を
かければよいので、これを重みとする。ただし、すべて
の順位の文書にこの重みを直接用いると、総合点が低い
文書でさえ、1単語の重みだけで順位を押し上げること
になるため、順位が下がるにつれ重みの反映を弱くする
ためにここでは log(文書の順位)をかけている。
【0063】「fuel」の場合はこれを逆に行っており、
1位の文書を10位に下げるための重みを逆に計算して
いる。ここでは最低点を1としており、この値まで下げ
るために「fuel」にかける1以下の重みを算出してい
る。
【0064】図12は、重みの補正後の検索結果に対す
る貢献度を示す図である。「hybrid」の得点が5.3と
なり、他の検索単語とバランスしながら貢献度で1位に
きているのがわかる。
【0065】図13は、重み変更後の表示結果を示す図
である。重みの補正により上位にきた「hybrid」の表示
サイズが大きくなっているのが分かる。
【0066】上述のように、本発明の実施の形態を、図
面を参照しながら説明してきたが、本発明が適用される
検索装置は、その機能が実行されるのであれば、上述の
実施の形態に限定されることなく、単体の装置であって
も、複数の装置からなるシステムあるいは統合装置であ
っても、LAN、WAN等のネットワークを介して処理
が行なわれるシステムであってもよいことは言うまでも
ない。
【0067】また、図14に示しように、バス140に
接続されたCPU141、ROMやRAMのメモリ14
2、入力装置143、出力装置144、外部記録装置1
45、媒体駆動装置147、可搬記録媒体146、ネッ
トワーク接続装置148で構成されるシステムでも実現
できる。すなわち、前述してきた実施の形態のシステム
を実現するソフトェアのプログラムコードを記録したR
OMやRAMのメモリ142、外部記録装置145、可
搬記録媒体146を、検索装置に供給し、その検索装置
のコンピュータがプログラムコードを読み出し実行する
ことによっても、達成されることは言うまでもない。
【0068】この場合、可搬記録媒体146等から読み
出されたプログラムコード自体が本発明の新規な機能を
実現することになり、そのプログラムコードを記録した
可搬記録媒体146等は本発明を構成することになる。
【0069】プログラムコードを供給するための可搬記
録媒体146としては、例えば、フロッピー(登録商
標)ディスク、ハードディスク、光ディスク、光磁気デ
ィスク、CD−ROM、CD−R、DVD−ROM、D
VD−RAM、磁気テープ、不揮発性のメモリーカー
ド、ROMカード、電子メールやパソコン通信等のネッ
トワーク接続装置148(言い換えれば、通信回線)を
介して記録した種々の記録媒体などを用いることができ
る。
【0070】また、図15に示すように、コンピュータ
150がメモリ151上に読み出したプログラムコード
を実行することによって、前述した実施の形態の機能が
実現される他、そのプログラムコードの指示に基づき、
コンピュータ150上で稼動しているOSなどが実際の
処理の一部または全部を行ない、その処理によっても前
述した実施の形態の機能が実現される。
【0071】さらに、可搬型記録媒体152から読み出
されたプログラムコードやプログラム(データ)提供者
から提供されたプログラム(データ)153が、コンピ
ュータ150に挿入された機能拡張ボードやコンピュー
タ150に接続された機能拡張ユニットに備わるメモリ
151に書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行な
い、その処理によっても前述した実施の形態の機能が実
現され得る。
【0072】すなわち、本発明は、以上に述べた実施の
形態に限定されるものではなく、本発明の要旨を逸脱し
ない範囲内で種々の構成または形状を取ることができ
る。ここで、上述した実施の形態の特徴を列挙すると、
以下の通りである。 (付記1) 検索のための質問文を入力する質問文入力
手段と、検索対象のデータが格納されたデータベースを
検索し、前記質問文入力手段によって入力された質問文
に類似するデータを抽出する検索実行手段と、前記検索
実行手段によって抽出された検索結果に対して、前記検
索実行手段による抽出に貢献した単語に関する貢献の度
合を演算する単語貢献度演算手段と、前記単語貢献度演
算手段によって演算された貢献度を対応する単語ととも
に出力する単語貢献度出力手段とを備えたことを特徴と
する検索装置。 (付記2) 前記単語貢献度出力手段は、前記貢献度に
対応した表示形態で前記対応する単語を出力することを
特徴とする付記1に記載の検索装置。 (付記3) 前記単語貢献度出力手段は、前記貢献度に
対応したフォントで前記対応する単語を出力することを
特徴とする付記1に記載の検索装置。 (付記4) 前記単語貢献度出力手段は、前記貢献度に
対応した文字サイズで前記対応する単語を出力すること
を特徴とする付記1または3に記載の検索装置。 (付記5) 前記単語貢献度出力手段は、前記貢献度に
対応した色で前記対応する単語を出力することを特徴と
する付記1、3または4に記載の検索装置。 (付記6) 前記単語貢献度出力手段は、表示装置であ
ることを特徴とする付記1乃至5の何れか1項に記載の
検索装置。 (付記7) 前記検索実行手段は、前記質問文入力手段
によって入力された質問文を単語に分割し、前記分割し
た単語毎に前記データベースを検索して類似するデータ
を抽出することを特徴とする付記1乃至6の何れか1項
に記載の検索装置。 (付記8) 前記単語貢献度演算手段は、前記検索実行
手段によって抽出された検索結果のうち、前記類似の度
合が上位である集団と前記類似の度合が下位である集団
とを取得する上位集団下位集団取得手段と、前記分割し
た単語の前記上位集団に含まれる割合と前記下位集団に
含まれる割合との差を求め、前記差を前記分割した単語
の貢献度とする貢献度計算手段と、を備えたことを特徴
とする付記7に記載の検索装置。 (付記9) 検索により質問単語に類似するデータを抽
出し、前記抽出された検索結果に対して、前記抽出に貢
献した単語に関する貢献の度合(貢献度)を対応する単
語とともに画面上に表示する検索装置において、前記画
面上に表示された単語を指定する単語指定手段と、前記
単語指定手段によって指定された単語に対して、前記検
索のための重みを付与する重み付け手段とを備えたこと
を特徴とする検索装置。 (付記10) 検索のための質問文を入力する質問文入
力手段と、前記質問文入力手段によって入力された質問
文を単語に分割し、前記分割した単語毎に検索対象のデ
ータが格納されたデータベースを検索し、前記質問文入
力手段によって入力された質問文に類似するデータを抽
出する検索実行手段と、前記検索実行手段によって抽出
された検索結果に対して、前記検索実行手段による抽出
に貢献した単語に関する貢献の度合を演算する単語貢献
度演算手段と、前記単語貢献度演算手段によって演算さ
れた貢献度を対応する単語とともに画面上に表示する単
語貢献度出力手段と、前記画面上に表示された単語を指
定する単語指定手段と、前記単語指定手段によって指定
された単語に対して、前記検索のための重みを付与する
重み付け手段とを備えたことを特徴とする検索装置。 (付記11) 前記重み付け手段は、前記検索結果のデ
ータが最上位になるように重みを付与することを特徴と
する付記9または10に記載の検索装置。 (付記12) 検索対象のデータが格納されたデータベ
ースを検索し、前記重み付け手段によって重みが付与さ
れた単語に類似するデータを抽出する再検索実行手段を
備えたことを特徴とする付記9乃至11の何れか1項に
記載の検索装置。 (付記13) 検索対象のデータが格納されたデータベ
ースを検索し、前記重み付け手段によって重みが付与さ
れた単語に類似するデータを抽出する再検索実行手段を
備え、前記重み付け手段は、前記検索結果のうち所定の
データに対して、順に、前記検索結果のデータが最上位
になるように重みを付与し、各データに対する重みの平
均値を前記単語の重み値とすることを特徴とする付記9
または10に記載の検索装置。 (付記14) 検索のための質問文を入力し、検索対象
のデータが格納されたデータベースを検索し、前記入力
された質問文に類似するデータを抽出し、前記抽出され
た検索結果に対して、前記抽出に貢献した単語に関する
貢献の度合を演算し、前記演算された貢献度を対応する
単語とともに出力することを特徴とする検索方法。
(6) (付記15) 前記出力は、前記貢献度に対応した表示
形態で前記対応する単語を出力することを特徴とする付
記14に記載の検索方法。 (付記16) 前記出力は、前記貢献度に対応したフォ
ントで前記対応する単語を出力することを特徴とする付
記14に記載の検索方法。 (付記17) 前記出力は、表示装置への出力であるこ
とを特徴とする付記15または16に記載の検索方法。 (付記18) 前記入力された質問文を単語に分割し、
前記分割した単語毎に前記データベースを検索して類似
するデータを抽出することを特徴とする付記14乃至1
7の何れか1項に記載の検索装置。 (付記19) 前記演算は、前記抽出された検索結果の
うち、前記類似の度合が上位である集団と前記類似の度
合が下位である集団とを取得し、前記分割した単語の前
記上位集団に含まれる割合と前記下位集団に含まれる割
合との差を求め、前記差を前記分割した単語の貢献度と
することを特徴とする付記18に記載の検索装置。 (付記20) 検索により質問単語に類似するデータを
抽出し、前記抽出された検索結果に対して、前記抽出に
貢献した単語に関する貢献の度合(貢献度)を対応する
単語とともに画面上に表示する検索方法において、前記
画面上に表示された単語を指定し、前記指定された単語
に対して、前記検索のための重みを付与することを特徴
とする検索方法。 (付記21) 検索のための質問文を入力し、前記入力
された質問文を単語に分割し、前記分割した単語毎に検
索対象のデータが格納されたデータベースを検索し、前
記入力された質問文に類似するデータを抽出し、前記抽
出された検索結果に対して、前記抽出に貢献した単語に
関する貢献の度合を演算し、前記演算された貢献度を対
応する単語とともに画面上に表示し、前記画面上に表示
された単語を指定し、前記指定された単語に対して、前
記検索のための重みを付与することを特徴とする検索方
法。 (付記22) 前記重み付けは、前記検索結果のデータ
が最上位になるように重みを付与することを特徴とする
付記20または21に記載の検索方法。 (付記23) 検索対象のデータが格納されたデータベ
ースを検索し、前記重みが付与された単語に類似するデ
ータを抽出することを特徴とする付記20乃至22の何
れか1項に記載の検索方法。 (付記24) 検索対象のデータが格納されたデータベ
ースを検索し、前記重みが付与された単語に類似するデ
ータを抽出し、前記重み付けは、前記検索結果のうち所
定のデータに対して、順に、前記検索結果のデータが最
上位になるように重みを付与し、各データに対する重み
の平均値を前記単語の重み値とすることを特徴とする付
記20または21に記載の検索方法。 (付記25) コンピュータに、検索のための質問文を
入力する機能、検索対象のデータが格納されたデータベ
ースを検索する機能、前記入力された質問文に類似する
データを抽出する機能、前記抽出された検索結果に対し
て、前記抽出に貢献した単語に関する貢献の度合を演算
する機能、前記演算された貢献度を対応する単語ととも
に出力する機能、を実現させるための検索プログラム。 (付記26) 検索により質問単語に類似するデータを
抽出し、前記抽出された検索結果に対して、前記抽出に
貢献した単語に関する貢献の度合(貢献度)を対応する
単語とともに画面上に表示するコンピュータに、前記画
面上に表示された単語を指定する機能、前記指定された
単語に対して、前記検索のための重みを付与する機能、
を実現させるための検索プログラム。 (付記27) コンピュータに、検索のための質問文を
入力する機能、前記入力された質問文を単語に分割する
機能、前記分割した単語毎に検索対象のデータが格納さ
れたデータベースを検索する機能、前記入力された質問
文に類似するデータを抽出する機能、前記抽出された検
索結果に対して、前記抽出に貢献した単語に関する貢献
の度合を演算する機能、前記演算された貢献度を対応す
る単語とともに画面上に表示する機能、前記画面上に表
示された単語を指定する機能、前記指定された単語に対
して、前記検索のための重みを付与する機能、を実現さ
せるための検索プログラム。
【0073】
【発明の効果】以上説明してきたように、本発明によれ
ば、検索要求中の単語の検索結果に対する貢献度の直感
的な表示、ユーザーによる貢献度の容易な修正を実現で
き、検索動作を制御することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した検索装置の機能構成図であ
る。
【図2】本発明の原理説明図である。
【図3】検索結果中の単語の貢献度を表示するまでの処
理の流れである。
【図4】検索結果中の単語の貢献度をユーザーが変更
し、その変更内容を反映するように単語に重みを付ける
処理の流れを示すフローチャートである。
【図5】検索要求の例を示す図であり、検索したいもの
を規定した文書である。
【図6】貢献度の計算式とパラメーターの設定値を示す
図である。
【図7】貢献度の計算結果を示す図である。
【図8】貢献度を4階調のフォント表示とした図であ
る。
【図9】単語貢献度への変更要求の例を示す図である。
【図10】再計算対象となる類似検索で上位にきた文書
中に各単語がどのように含まれ、どのような得点となっ
ているかを示す図である。
【図11】再計算の処理を示す図である。
【図12】重みの補正後の検索結果に対する貢献度を示
す図である。
【図13】重み変更後の表示結果を示す図である。
【図14】検索装置の構成図である。
【図15】本発明におけるプログラムのコンピュータへ
のローディングを説明する図である。
【符号の説明】
1 検索装置 2 質問文入力手段 3 データベース 4 検索実行手段 5 単語貢献度演算手段 6 単語貢献度出力手段 7 上位集団下位集団取得手段 8 貢献度計算手段 9 単語指定手段 10 重み付け手段 11 再検索実行手段 12 検索結果出力手段 13 出力手段 21 質問文入力部 22 検索実行部 23 単語貢献度計算部 24 単語貢献度表示部 25 単語重み修正要求入力部 26 修正単語重み計算部 140 バス 141 CPU 142 メモリ 143 入力装置 144 出力装置 145 外部記録装置 146 可搬記録媒体 147 媒体駆動装置 148 ネットワーク接続装置 150 コンピュータ 151 メモリ(RAM、ハードディスク) 152 可搬型記録媒体(CD−ROM、FLOPPY
(登録商標)) 153 プログラム(データ)

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 検索のための質問文を入力する質問文入
    力手段と、 検索対象のデータが格納されたデータベースを検索し、
    前記質問文入力手段によって入力された質問文に類似す
    るデータを抽出する検索実行手段と、 前記検索実行手段によって抽出された検索結果に対し
    て、前記検索実行手段による抽出に貢献した単語に関す
    る貢献の度合を演算する単語貢献度演算手段と、 前記単語貢献度演算手段によって演算された貢献度を対
    応する単語とともに出力する単語貢献度出力手段とを備
    えたことを特徴とする検索装置。
  2. 【請求項2】 前記単語貢献度出力手段は、前記貢献度
    に対応した表示形態で前記対応する単語を出力すること
    を特徴とする請求項1に記載の検索装置。
  3. 【請求項3】 前記検索実行手段は、前記質問文入力手
    段によって入力された質問文を単語に分割し、前記分割
    した単語毎に前記データベースを検索して類似するデー
    タを抽出することを特徴とする請求項1乃至2の何れか
    1項に記載の検索装置。
  4. 【請求項4】 前記単語貢献度演算手段は、 前記検索実行手段によって抽出された検索結果のうち、
    前記類似の度合が上位である集団と前記類似の度合が下
    位である集団とを取得する上位集団下位集団取得手段
    と、 前記分割した単語の前記上位集団に含まれる割合と前記
    下位集団に含まれる割合との差を求め、前記差を前記分
    割した単語の貢献度とする貢献度計算手段と、 を備えたことを特徴とする請求項3に記載の検索装置。
  5. 【請求項5】 検索により質問単語に類似するデータを
    抽出し、前記抽出された検索結果に対して、前記抽出に
    貢献した単語に関する貢献の度合(貢献度)を対応する
    単語とともに画面上に表示する検索装置において、 前記画面上に表示された単語を指定する単語指定手段
    と、 前記単語指定手段によって指定された単語に対して、前
    記検索のための重みを付与する重み付け手段とを備えた
    ことを特徴とする検索装置。
  6. 【請求項6】 検索のための質問文を入力し、 検索対象のデータが格納されたデータベースを検索し、 前記入力された質問文に類似するデータを抽出し、 前記抽出された検索結果に対して、前記抽出に貢献した
    単語に関する貢献の度合を演算し、 前記演算された貢献度を対応する単語とともに出力する
    ことを特徴とする検索方法。
  7. 【請求項7】 検索のための質問文を入力し、 前記入力された質問文を単語に分割し、 前記分割した単語毎に検索対象のデータが格納されたデ
    ータベースを検索し、 前記入力された質問文に類似するデータを抽出し、 前記抽出された検索結果に対して、前記抽出に貢献した
    単語に関する貢献の度合を演算し、 前記演算された貢献度を対応する単語とともに画面上に
    表示し、 前記画面上に表示された単語を指定し、 前記指定された単語に対して、前記検索のための重みを
    付与することを特徴とする検索方法。
  8. 【請求項8】 コンピュータに、 検索のための質問文を入力する機能、 検索対象のデータが格納されたデータベースを検索する
    機能、 前記入力された質問文に類似するデータを抽出する機
    能、 前記抽出された検索結果に対して、前記抽出に貢献した
    単語に関する貢献の度合を演算する機能、 前記演算された貢献度を対応する単語とともに出力する
    機能、 を実現させるための検索プログラム。
  9. 【請求項9】 検索により質問単語に類似するデータを
    抽出し、前記抽出された検索結果に対して、前記抽出に
    貢献した単語に関する貢献の度合(貢献度)を対応する
    単語とともに画面上に表示するコンピュータに、 前記画面上に表示された単語を指定する機能、 前記指定された単語に対して、前記検索のための重みを
    付与する機能、 を実現させるための検索プログラム。
JP2001108307A 2001-04-06 2001-04-06 検索装置、検索方法および検索プログラム Withdrawn JP2002304418A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001108307A JP2002304418A (ja) 2001-04-06 2001-04-06 検索装置、検索方法および検索プログラム
US09/971,959 US6931398B2 (en) 2001-04-06 2001-10-09 Retrieval apparatus, retrieval method and retrieval program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001108307A JP2002304418A (ja) 2001-04-06 2001-04-06 検索装置、検索方法および検索プログラム

Publications (1)

Publication Number Publication Date
JP2002304418A true JP2002304418A (ja) 2002-10-18

Family

ID=18960472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001108307A Withdrawn JP2002304418A (ja) 2001-04-06 2001-04-06 検索装置、検索方法および検索プログラム

Country Status (2)

Country Link
US (1) US6931398B2 (ja)
JP (1) JP2002304418A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160130207A (ko) * 2016-11-02 2016-11-10 에스케이플래닛 주식회사 연관 관계를 이용하여 코드 기반의 가격비교 정보를 제공하는 시스템 및 방법

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3931214B2 (ja) * 2001-12-17 2007-06-13 日本アイ・ビー・エム株式会社 データ解析装置およびプログラム
JP2008059099A (ja) * 2006-08-29 2008-03-13 Access Co Ltd 情報表示装置、情報表示プログラム、および情報表示システム
KR100843325B1 (ko) * 2007-02-07 2008-07-03 삼성전자주식회사 휴대 단말기의 텍스트 표시방법
US8380731B2 (en) * 2007-12-13 2013-02-19 The Boeing Company Methods and apparatus using sets of semantically similar words for text classification
US20130204614A1 (en) * 2010-10-06 2013-08-08 Nec Corporation Request acquisition support system in system development, request acquisition support method and recording medium
US8407208B2 (en) * 2011-02-02 2013-03-26 Nanorep Technologies Ltd Method for matching queries with answer items in a knowledge base
US20140250376A1 (en) * 2013-03-04 2014-09-04 Microsoft Corporation Summarizing and navigating data using counting grids
CN108345644A (zh) * 2018-01-15 2018-07-31 阿里巴巴集团控股有限公司 一种数据处理的方法及装置
CN109117474B (zh) * 2018-06-25 2022-05-03 广州多益网络股份有限公司 语句相似度的计算方法、装置及存储介质
CN109766527B (zh) * 2019-01-16 2023-02-14 武汉瓯越网视有限公司 一种文本相似度的计算方法以及相关设备
JP7003325B2 (ja) * 2019-03-27 2022-01-20 三菱電機株式会社 車両制御用演算装置、車両制御装置、及び、車両制御用演算方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3152868B2 (ja) * 1994-11-16 2001-04-03 富士通株式会社 検索装置および辞書/テキスト検索方法
US5873076A (en) * 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
JP3606401B2 (ja) * 1995-11-30 2005-01-05 富士通株式会社 文書検索装置および方法
US6101488A (en) * 1996-09-04 2000-08-08 Fujitsu Limited Intelligent information program generation and retrieval system
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JP3674377B2 (ja) * 1999-03-26 2005-07-20 富士通株式会社 情報検索処理装置および方法。
US6529889B1 (en) * 1999-07-27 2003-03-04 Acappella Software, Inc. System and method of knowledge architecture

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160130207A (ko) * 2016-11-02 2016-11-10 에스케이플래닛 주식회사 연관 관계를 이용하여 코드 기반의 가격비교 정보를 제공하는 시스템 및 방법
KR102103238B1 (ko) * 2016-11-02 2020-05-29 십일번가 주식회사 연관 관계를 이용하여 코드 기반의 가격비교 정보를 제공하는 시스템 및 방법

Also Published As

Publication number Publication date
US20020147716A1 (en) 2002-10-10
US6931398B2 (en) 2005-08-16

Similar Documents

Publication Publication Date Title
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
US7506254B2 (en) Predictive conversion of user input
JP3691844B2 (ja) 文書処理方法
JP4251652B2 (ja) 検索装置、検索プログラムおよび検索方法
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JP2002304418A (ja) 検索装置、検索方法および検索プログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JPH1145267A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145290A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH0773197A (ja) 異表記語辞書作成支援装置
JPH1145261A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10289245A (ja) 画像処理装置及びその制御方法
KR102215580B1 (ko) 스타일 속성에 기반하여 문서에 대한 중요 키워드를 선정하는 전자 장치 및 그 동작 방법
JP2002297635A (ja) 要約文作成システム及びその方法
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JP4739006B2 (ja) 画像出力装置、画像出力方法、および画像出力プログラム
JP2785692B2 (ja) 辞書検索表示装置
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JPH0683812A (ja) 文書入力装置のかな漢字変換装置
JP2002073656A (ja) 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP3498635B2 (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JPH1145266A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10143530A (ja) 文書検索システムおよび文書検索方法
JP2001051992A (ja) 日本語統計データ作成装置および方法、並びにディクテーションシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070608

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090310