JP2017068757A - 文献表示方法及び文献表示装置 - Google Patents

文献表示方法及び文献表示装置 Download PDF

Info

Publication number
JP2017068757A
JP2017068757A JP2015196175A JP2015196175A JP2017068757A JP 2017068757 A JP2017068757 A JP 2017068757A JP 2015196175 A JP2015196175 A JP 2015196175A JP 2015196175 A JP2015196175 A JP 2015196175A JP 2017068757 A JP2017068757 A JP 2017068757A
Authority
JP
Japan
Prior art keywords
word
query
document
unit
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015196175A
Other languages
English (en)
Inventor
英樹 小島
Hideki Kojima
英樹 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015196175A priority Critical patent/JP2017068757A/ja
Publication of JP2017068757A publication Critical patent/JP2017068757A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】要約の指定箇所に対応する本文の関連箇所を検索する精度を向上させること。【解決手段】文献表示装置10は、検索対象となる文書内の単語を指定する処理と、指定された単語が属する文を特定する処理と、指定された単語と、文の形態素解析の結果に含まれる単語との組合せを抽出する処理と、単語ごとに出現頻度及び逆文書頻度から定まる指標を算出する処理と、単語の組合せごとに各単語の指標の統計値を算出する処理と、単語の組合せのうち統計値が最大である単語の組合せを選択する処理とを実行する。【選択図】図1

Description

本発明は、文献表示方法及び文献表示装置に関する。
論文、白書や特許出願で提出される明細書などの各種の文献が公開されている。この文献には、当該文献の本文に対し、その要約が作成される場合がある。かかる要約は、一側面として、閲覧者が文献の概略を理解する上で役立てられる。
このような文献の存在とは別に、電子文書を検索する技術の一例として、文書情報管理システムが提案されている。この文書情報管理システムでは、単語のクリック操作でリンクの張られていない単語をキーワードとして検索を実行し、ハイパーテキストのボタンと同様のクリックされた単語から検索対象のページへ飛ぶことができるようにされる。
特開2006−79366号公報 特開2002−197104号公報 特開2012−3381号公報 国際公開第2006/112507号
ところで、上記の文献は、一例として、その内容が難解であったり、その文字や文章の量が膨大であったりする側面がある。このような側面から、要約で指定された箇所に対応する本文の関連箇所を検索する機能が有用であると考えられる。
しかしながら、上記の技術を援用したとしても、要約の指定箇所に対応する本文の関連箇所を検索する精度に限界がある。
すなわち、上記の文献情報管理システムでは、クリック操作がなされた単語がキーワードに用いられるので、1つのキーワードが出現する箇所を検索するのが限界である。このように上記の文献情報管理システムで得られる検索結果は、あくまで1つのキーワードが出現する箇所であって必ずしもクリック操作がなされた単語に関する話題が記述された関連箇所であるとは限らない。したがって、上記の文献情報管理システムでは、要約の指定箇所に対応する本文の関連箇所を検索する精度に自ずから限界がある。
1つの側面では、本発明は、要約の指定箇所に対応する本文の関連箇所を検索する精度を向上させることができる文献表示方法及び文献表示装置を提供することを目的とする。
一態様では、コンピュータが、検索対象となる文書内の単語を指定する処理と、指定された単語が属する文を特定する処理と、指定された単語と、前記文の形態素解析の結果に含まれる単語との組合せを抽出する処理と、単語ごとに出現頻度及び逆文書頻度から定まる指標を算出する処理と、単語の組合せごとに各単語の指標の統計値を算出する処理と、前記単語の組合せのうち前記統計値が最大である単語の組合せを選択する処理とを実行する。
要約の指定箇所に対応する本文の関連箇所を検索する精度を向上させることができる。
図1は、実施例1に係る文献表示装置の機能的構成を示すブロック図である。 図2は、要約の一例を示す図である。 図3は、本文の一例を示す図である。 図4は、クエリ候補の検索精度の一例を示す図である。 図5は、クエリ候補の検索精度の一例を示す図である。 図6は、実施例1に係る文献表示処理の手順を示すフローチャートである。 図7は、実施例1に係る検索精度算出処理の手順を示すフローチャートである。 図8は、実施例1に係るクエリ伸縮処理の手順を示すフローチャートである。 図9は、応用例を示す図である。 図10は、応用例を示す図である。 図11は、実施例1及び実施例2に係る文献表示プログラムを実行するコンピュータのハードウェア構成例を示す図である。
以下に添付図面を参照して本願に係る文献表示方法及び文献表示装置について説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
[文献表示装置10の構成]
図1は、実施例1に係る文献表示装置の機能的構成を示すブロック図である。図1に示す文献表示装置10は、論文、白書や特許出願で提出される明細書などの各種の文献を表示する文献表示処理を実行するものである。かかる文献表示処理の一環として、文献表示装置10は、文献の要約で指定された箇所に対応する本文の関連箇所を検索する本文検索処理を実現することにより、文献の読解を支援する。
一実施形態として、文献表示装置10は、上記の文献表示処理がパッケージソフトウェアやオンラインソフトウェアとして提供される文献表示プログラムを所望のコンピュータにインストールさせることによって実装できる。かかる文献表示プログラムは、一例として、文献閲覧の専用ソフトとして実装されることとしてもよいし、検索エンジン、ブラウザやワープロソフトなどのアプリケーションプログラムにアドオンされるプログラムとして実装されることとしてもかまわない。例えば、パーソナルコンピュータを始めとする据置き型の端末装置を始め、スマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末のみならず、タブレット端末やスレート端末を含む携帯端末装置全般に上記の脈波検出プログラムをインストールさせる。これによって、据置き型の端末装置や携帯端末装置などの情報処理装置を文献表示装置10として機能させることができる。なお、ここでは、あくまで一例として、上記の文献表示処理がスタンドアローンで実行される場合を例示するが、後述するように、上記の文献表示処理はクライアントサーバシステムで実行されることとしてもかまわない。
図1に示すように、文献表示装置10は、入力部10aと、表示部10bと、文献記憶部11と、表示制御部12と、指定部13と、文特定部14と、形態素解析部15とを有する。さらに、文献表示装置10は、候補抽出部16と、第1算出部17aと、第2算出部17bと、クエリ選択部18aと、クエリ伸縮部18bと、検索部19とを有する。なお、文献表示装置10は、図1に示した機能部以外にも既知の情報処理装置が有する各種の機能部、例えば音声出力デバイスや撮像デバイスなどの機能部を有することとしてもかまわない。
入力部10aは、各種の情報に対する指示入力、例えば表示部10bのスクリーン上における位置の指定などを受け付ける入力デバイスである。
一実施形態として、文献表示装置10が据置き型の端末装置として実装される場合、入力部10aには、キーボードやマウスなどを採用できる。かかるマウスは、後述の表示部10bと協働することによってポインティングデバイスとして機能する。ここでは、一例として、マウスによってポインティングデバイス機能が実現される場合を例示したが、タッチパッドなどの他の入力デバイスによりポインティングデバイス機能が実現されることとしてもかまわない。他の実施形態として、文献表示装置10が携帯端末装置として実装される場合、入力部10aを表示部10bと一体化することによりタッチパネルとして実装することもできる。
表示部10bは、各種の情報、例えば文献の要約や本文などを表示する表示デバイスである。
一実施形態として、表示部10bには、発光により表示を実現する液晶ディスプレイや有機EL(electroluminescence)ディスプレイなどを採用することもできる。また、表示部10bにも、投影により表示を実現するプロジェクタを採用することもできる。
文献記憶部11は、文献に関するデータを記憶する記憶部である。ここで言う「文献」とは、論文、白書や特許出願で提出される明細書などの文書を指し、例えば、文献に関する詳細な内容が記述された「本文」および本文の概略が記述された「要約」が含まれる。
一実施形態として、文献記憶部11には、本文および要約を含む文献に関する文書ファイルが記憶される。これら本文および要約は、1つの文書ファイルであってもよいし、各々が個別の文書ファイルであってもかまわない。このうち、本文は、本文が所定の単位、例えば行、段落や章で分割されることにより複数の領域へ区切られる。以下では、一例として、本文が段落単位に分割される場合を想定して説明を行う。このように本文が区切られた各段落には、一例として、コンピュータが変数jで識別するインデックスが段落の並び順に付与される。これによって、上記の本文検索処理の実行結果として本文の関連箇所を出力する文章の粒度を段落単位に調節できる。なお、上記の文書ファイルは、任意の形式であってよく、特定の形式に限定されない。例えば、文書ファイルは、テキストファイルを始め、リッチテキストファイル、ワープロソフトにより作成されたファイル、XML(eXtensible Markup Language)やHTML(Hyper Text Markup Language)などのマークアップ言語で記述されたファイル、PDF(Portable Document Format)ファイルなどの任意のファイルであってよい。
なお、図1には、文献表示装置10が文献記憶部11を有する機能的構成を例示したが、これは上記の文書ファイルが文献表示装置10上でスタティックに記憶されるという限定を意味する訳ではない。すなわち、文献表示装置10は、必ずしも上記の文書ファイルをスタティックに記憶せずともかまわない。例えば、ネットワーク上の文書ファイル、あるいはリムーバブルメディア等に保存された文書ファイルが閲覧される場合には、文書ファイルを一時的に記憶することとすればよい。
表示制御部12は、表示部10bに対する表示制御を行う処理部である。
一実施形態として、表示制御部12は、表示部10bに文献のタイトル等が一覧表示されたメニュー画面等が表示された状態で文献の指定が行われた場合、文献記憶部11に記憶された文献のうち当該指定が行われた文献の要約またはその一部を含む文献の要約画面を表示部10bに表示させる。また、表示制御部12は、文献の要約画面上で指定された箇所に対応する本文の関連箇所が上記の本文検索処理により検索された場合、当該本文の関連箇所の検索結果を含む検索結果画面を表示部10bに表示させる。
指定部13は、文献の要約画面上で位置の指定を受け付ける処理部である。
一実施形態として、指定部13は、表示部10bに表示された文献の要約画面上で入力部10aを介して所定の操作、例えば左クリックやダブルクリックを受け付けた場合、当該操作を受け付けた時点で上記の要約画面上にマウスポインタが存在する位置を取得する。ここでは、一例として、マウスにより位置の指定が行われる場合を例示するが、タッチパネル等の表示入力部として実装される場合、タップやダブルタップ等の操作が受け付けられた位置を取得することにより、位置を指定させることができる。なお、ここでは、1点で位置を指定させる例を説明したが、位置の指定方法はこれに限定されない。例えば、入力部10aを介してドラッグ&ドロップなどを受け付けることにより、ドラッグ操作が行われた位置及びドロップ操作が行われた位置により定まる範囲を指定させることもできる。
文特定部14は、要約のうち指定位置に対応する文を特定する処理部である。
一実施形態として、文特定部14は、指定部13により位置の指定が受け付けられた場合、表示部10bに表示された要約画面に含まれる要約の文字列のうち当該指定が受け付けられた位置に対応する文字を判別する。例えば、文特定部14は、指定位置が要約の文字列のうちいずれかの文字の表示位置と重なる場合、当該文字を指定位置に対応付ける。また、指定位置が要約の文字列のうちいずれかの文字の表示位置と重ならない場合、要約の文字列のうち指定位置から距離が最短である文字を指定位置に対応付ける。その後、文特定部14は、当該指定位置に対応付けられた文字が属する一文を特定する。例えば、文特定部14は、当該文字を起点に要約の文字列を前方へ走査しながら区切り文字、例えば句点、行頭文字または改行などを探索することにより、文頭の文字位置を抽出する。これと共に、文特定部14は、当該指定位置に対応付けられた文字を起点に要約の文字列を後方へ走査しながら区切り文字を探索することにより、文末の文字位置を抽出する。これら文頭及び文末の文字位置が抽出されることにより、指定位置に対応する文が特定されることになる。
形態素解析部15は、形態素解析を実行する処理部である。
一実施形態として、形態素解析部15は、文特定部14により特定された文に形態素解析を実行する。これによって、ユーザの指定位置に対応する文が自立語または付属語の形態素列に分割される。なお、ここでは、文特定部14により1文が特定される度に、形態素解析が実行される場合を例示したが、文献記憶部11に記憶された各文献の本文に形態素解析を予め実行しておき、その結果が記憶された記憶部を参照させることとしてもかまわない。
候補抽出部16は、検索エンジンに出力するクエリの候補を抽出する処理部である。以下では、検索エンジンに出力するクエリの候補ことを「クエリ候補」と記載する場合がある。
一実施形態として、候補抽出部16は、指定部13により位置の指定が受け付けられた文字を含む単語と、形態素解析部15により解析された文が含む形態素のうち自立語とを組み合わせることにより、クエリ候補を抽出する。以下では、指定部13により位置の指定が受け付けられた文字を含む単語のことを「指定単語」と記載する場合がある。例えば、候補抽出部16は、指定単語の後方を探索しながら、指定単語に後続する自立語をそれまでに探索された自立語の組合せへ順次追加する。このとき、指定単語および指定単語に後続する各自立語には、一例として、コンピュータが変数iで識別するインデックスが自立語の並び順に付与される。なお、自立語に活用がある場合には、語幹にインデックスが付与される。このように、自立語が新たに追加される度に、候補抽出部16は、新たに追加された自立語と、それまでに探索された自立語との組合せをクエリ候補として抽出する。その後、候補抽出部16は、各クエリ候補にコンピュータが変数Kで識別するインデックスをクエリ候補の抽出順に付与する。このように指定単語の後方が探索される場合、「指定単語」、「指定単語+1つ後の自立語」、「指定単語+1つ後の自立語+2つ後の自立語」、・・・、「指定単語+1つ後の自立語+2つ後の自立語+・・・+n個後の自立語」といった要領でクエリ候補が抽出される。なお、ここでは、一例として、指定単語の後方が探索される場合を例示したが、指定単語の前方を探索することとしてもよく、指定単語の前方及び後方の両方を探索することとしてもかまわない。
第1算出部17aは、自立語のtf−idfを算出する処理部である。ここで言う「tf−idf」のうちtfは、「Term Frequency」の略称であり、いわゆる単語の出現頻度を指す一方で、idfは、「Inverse Document Frequency」の略称であり、いわゆる逆文書頻度を指す。
一実施形態として、第1算出部17aは、文特定部14により特定された文に含まれる自立語のうち、候補抽出部16によりクエリ候補として抽出された自立語ごとに当該自立語のtf−idfを算出する。具体的には、第1算出部17aは、i番目の自立語のj番目の段落における出現回数を、j番目の段落における全ての自立語の出現回数の和で除算する計算を行うことにより、i番目の自立語のj番目の段落における出現頻度を算出する。これと共に、第1算出部17aは、本文内の段落の総数がi番目の自立語を含む段落の数で除算された除算値の対数を取る計算を行うことにより、i番目の自立語の逆文書頻度を算出する。そして、第1算出部17aは、i番目の自立語のj番目の段落における出現頻度とi番目の自立語の逆文書頻度とを乗算することにより、i番目の自立語のj番目の本文におけるtf−idfを算出する。以下では、i番目の自立語のj番目の本文におけるtf−idfのことを「TFIDF(i,j)」と記載する場合がある。さらに、第1算出部17aは、全ての段落にわたって自立語iに関するtf−idfの計算を繰り返し実行する。これによって、1つの自立語iにつき本文内の段落の総数に対応する個数のtf−idfが算出される。その後、第1算出部17aは、全ての自立語にわたって当該自立語の各段落におけるtf−idfを算出する。
第2算出部17bは、クエリ候補ごとに当該クエリ候補の検索精度の評価値を算出する処理部である。
一実施形態として、第2算出部17bは、下記の式(1)に示すクエリ精度関数にしたがってクエリ候補の検索精度の評価値を算出する。ここで、クエリ精度関数は、クエリ候補の検索精度を評価する関数である。このように、クエリ候補に含まれる自立語のtf−idfの平均値がクエリ精度関数で用いられるのは、単純にtf−idfの和をとるだけでは、クエリ候補に含まれる自立語の数が多くなるほど関数の値が単調増加する結果、各クエリ候補の間で比較が困難になるからである。このことから、クエリ候補に含まれる自立語のtf−idfの和をクエリ候補に含まれる自立語の個数Nで割って平均を求める。かかるクエリ精度関数によれば、クエリ候補に含まれる自立語の数が増加したとしても関数の値が必ずしも増加するとは限らず、1つの段落に頻出する自立語が追加された場合には関数の値が高くなるが、その段落での頻度が低い自立語が追加されると関数の値が低下する。それ故、検索精度が低下する原因となる自立語がクエリ候補に追加された時点で関数の値が減少するようにクエリ精度関数を構築できる。したがって、関数の値が最高であるクエリ候補と、検索精度が最も高いクエリ候補とが一致する可能性を高めることができる。
Figure 2017068757
クエリ選択部18aは、クエリ候補の中から検索精度の評価値が最高であるクエリ候補を選択する処理部である。
一実施形態として、クエリ選択部18aは、候補抽出部16により抽出されたクエリ候補のうち第2算出部17bにより算出された検索精度の評価値が最高であるクエリ候補を選択する。以下では、クエリ精度関数にしたがって求められた検索精度の評価値が最高であるクエリのことを「最高クエリ」と記載する場合がある。かかる最高クエリを検索エンジンに出力する場合、クエリ選択部18aは、一例として、最高クエリに含まれる自立語の組合せを検索エンジンに出力することができる。この他、クエリ選択部18aは、最高クエリに含まれる自立語と共に各自立語の間に存在する付属語も含む形態素列を検索エンジンへ出力することもできる。このように付属語を含めるのは、自立語に隣接する助詞や助動詞によってキーワードとする自立語の機能や役割を限定し、もって形態素列における自立語の用法と類似する用法で自立語が用いられる段落を検索させるためである。
ここで、検索エンジンには、クエリ選択部18aにより選択された最高クエリだけを出力することもできるが、ユーザに複数の選択肢を提示する観点から、後述のクエリ伸縮部18bにより最高クエリが伸縮されたクエリを新たに加えて検索エンジンへ出力する場合を想定して以下の説明を行う。
クエリ伸縮部18bは、クエリの長さを伸縮する処理部である。
一側面として、クエリ伸縮部18bは、最高クエリに含まれる自立語のうち先頭の自立語sまたは末尾の自立語eの少なくともいずれか一方よりも前方または後方に存在する自立語を所定数Nにわたって追加することにより、最高クエリの始端または終端を伸張する。
例えば、最高クエリの始端を前方へ伸張する場合、クエリ伸縮部18bは、クエリ選択部18aにより選択された最高クエリに含まれる先頭の自立語sの前方を探索しながら、先頭の自立語sに先行する自立語を順次追加する。このとき、クエリ伸縮部18bは、自立語が新たに追加される度に、新たに追加される自立語により前方へ伸張された前方伸張クエリを、検索エンジンに出力するクエリとして抽出する。このように先頭の自立語sの前方が探索される場合、所定数Nの自立語が追加されるまで、「先頭の1つ前の自立語+先頭の自立語s・・・+末尾の自立語e」、「先頭の2つ前の自立語+先頭の1つ前の自立語+先頭の自立語s・・・+末尾の自立語e」、・・・、「先頭のN個前の自立語・・・+先頭の2つ前の自立語+先頭の1つ前の自立語+先頭の自立語s・・・+末尾の自立語e」といった要領で最高クエリの始端が前方へ伸張される。このように最高クエリの始端が前方へ伸張された前方伸張クエリが最高クエリと共に検索エンジンへ出力される。
また、最高クエリの終端を後方へ伸張する場合、クエリ伸縮部18bは、最高クエリに含まれる末尾の自立語eの後方を探索しながら、末尾の自立語eに後続する自立語を順次追加する。このとき、クエリ伸縮部18bは、自立語が新たに追加される度に、新たに追加される自立語により後方へ伸張された後方伸張クエリを、検索エンジンに出力するクエリとして抽出する。このように末尾の自立語eの後方が探索される場合、所定数Nの自立語が追加されるまで、「先頭の自立語s・・・+末尾の自立語e+末尾の1つ後の自立語」、「先頭の自立語s・・・+末尾の自立語e+末尾の1つ後の自立語+末尾の2つ後の自立語」、・・・、「先頭の自立語s・・・+末尾の自立語e+末尾の1つ後の自立語+末尾の2つ後の自立語・・・+末尾のN個後の自立語」といった要領で最高クエリの終端が後方へ伸張される。このように最高クエリの終端が後方へ伸張された後方伸張クエリが最高クエリと共に検索エンジンへ出力される。
他の側面として、クエリ伸縮部18bは、最高クエリに含まれる先頭の自立語sまたは末尾の自立語eの少なくともいずれか一方から後方または前方に向けて自立語を所定数Nにわたって削減することにより、最高クエリの始端または終端を収縮させる。
例えば、最高クエリの先頭の自立語sから後方へ向けて最高クエリを収縮させる場合、クエリ伸縮部18bは、最高クエリに含まれる先頭の自立語sからその後方を探索しながら、先頭の自立語s、さらには、先頭の自立語sに後続する自立語を順次削除する。このとき、クエリ伸縮部18bは、自立語が削除される度に、新たに削除される自立語により後方へ収縮された後方収縮クエリを、検索エンジンに出力するクエリとして抽出する。このように最高クエリの先頭の自立語sから順に自立語が末尾の自立語eへ向けて削除される場合、所定数Nの自立語が削除されるまで、「先頭の1つ後の自立語・・・+末尾の自立語e」、「先頭の2つ後の自立語・・・+末尾の自立語e」、・・・、「先頭のN−1個後の自立語・・・+末尾の自立語e」といった要領で最高クエリが後方へ収縮される。このように最高クエリが後方へ収縮された後方収縮クエリが最高クエリと共に検索エンジンへ出力される。
また、最高クエリの末尾の自立語eから前方へ向けて最高クエリを収縮させる場合、クエリ伸縮部18bは、最高クエリに含まれる末尾の自立語eからその前方を探索しながら、末尾の自立語e、さらには、末尾の自立語eに後続する自立語を順次削除する。このとき、クエリ伸縮部18bは、自立語が削除される度に、新たに削除される自立語により後方へ収縮された後方収縮クエリを、検索エンジンに出力するクエリとして抽出する。このように最高クエリの末尾の自立語eから順に自立語が先頭の自立語sへ向けて削除される場合、所定数Nの自立語が削除されるまで、「先頭の自立語s・・・+末尾の1つ前の自立語」、「先頭の自立語s・・・+末尾の2つ前の自立語」、・・・、「先頭の自立語s・・・+末尾のN−1個前の自立語」といった要領で最高クエリが後方へ収縮される。このように最高クエリが前方へ収縮された前方収縮クエリが最高クエリと共に検索エンジンへ出力される。
このようにして得られた伸張クエリ及び収縮クエリは、最高クエリと共に表示部10bへ表示される。その後、最高クエリ、伸張クエリ及び収縮クエリのうち入力部10aを介して選択されたクエリが検索エンジンへ出力される。
検索部19は、検索エンジンに出力されるクエリにしたがって本文の関連箇所を検索する処理部である。
一実施形態として、検索部19は、検索エンジンを実行することにより実装される。かかる検索エンジンは、ロボット型、ディレクトリ型あるいはメタ検索エンジンなどの如何なるタイプのものであってもかまわない。例えば、検索部19は、指定部13により位置の指定が受け付けられた要約に対応する本文の段落のうち、入力部10aを介して選択された最高クエリ、伸張クエリまたは収縮クエリに対応する段落を検索する。このとき、検索部19は、最高クエリ、伸張クエリまたは収縮クエリを用いて、本文に含まれる文字列の全文検索を行うこととしてもよいし、本文から生成された転置インデックス等を検索することもできる。その後、検索部19により検索された段落もしくは当該段落と共にその周辺の段落を含む本文画面が表示制御部12により表示部10bへ表示される。
なお、上記の表示制御部12、指定部13、文特定部14、形態素解析部15、候補抽出部16、第1算出部17a、第2算出部17b、クエリ選択部18a、クエリ伸縮部18b及び検索部19などの処理部は、次のようにして実装できる。例えば、中央処理装置、いわゆるCPU(Central Processing Unit)などに、上記の各処理部と同様の機能を発揮するプロセスをメモリ上に展開して実行させることにより実現できる。これらの機能部は、必ずしも中央処理装置で実行されずともよく、MPU(Micro Processing Unit)に実行させることとしてもよい。また、上記の各機能部は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
また、文献記憶部11や上記の各処理部がワークエリアとして参照する主記憶装置には、一例として、各種の半導体メモリ素子、例えばRAM(Random Access Memory)やフラッシュメモリを採用できる。また、上記の各処理部が参照する記憶装置は、必ずしも主記憶装置でなくともよく、補助記憶装置であってもかまわない。この場合、HDD(Hard Disk Drive)、光ディスクやSSD(Solid State Drive)などを採用できる。
[具体例]
図2〜図5を用いて、上記の本文検索処理の具体例について説明する。図2は、要約の一例を示す図である。図2の上段には、「音声合成」に関する論文の要約の一部が抜粋して示されており、図2の中段には、指定部13により指定が受け付けられた位置が星印で示されている。さらに、図2の下段には、文特定部14により特定された文が下線で示されると共に、説明の便宜上、指定単語が強調斜体で示されている。
図2の上段で示される通り、要約には、「・・・音声合成には韻律という概念が重要な役割を果たす。本論文では、韻律の生成にコーパスベース方式を採用しているが、波形の処理には・・・」といった文章が含まれる。
このような要約の表示の下、閲覧者が要約に記載されているコーパスベースに対応する本文の関連箇所を検索する意図で、図2の中段に星印で示す位置を指定する状況を仮定する。この場合、図2の下段に下線で示す通り、当該星印が重なる文字「律」を含む1文が文特定部14により特定される。このとき、指定単語「韻律」には、i=1がインデックスとして付与され、以降、生成にはi=2、コーパスベースにはi=3、方式にはi=4、採用にはi=5、波形にはi=6がインデックスとして付与される。その後、指定単語「韻律」の後方を探索しながら、指定単語「韻律」に後続する自立語がそれまでに探索された自立語の組合せへ順次追加される。この例で言えば、「韻律」、「韻律+生成」、「韻律+生成+コーパスベース」、「韻律+生成+コーパスベース+方式」、「韻律+生成+コーパスベース+方式+採用」、「韻律+生成+コーパスベース+方式+採用+波形」、・・・となどといったクエリ候補が抽出される。
図3は、本文の一例を示す図である。図3には、「音声合成」に関する論文の本文に含まれる段落のうち3つの段落が抜粋して示されている。図3に示す3つの段落には、いずれも指定単語「韻律」が含まれるが、上から1番目に示す段落には、韻律に関する話題が記述されており、上から3番目に示す段落には、波形処理に関する話題が記述されている。これら上から1番目の段落及び上から3番目の段落が検索される場合、コーパスベースに対応する本文の関連箇所を閲覧したいという閲覧者の意図とは異なる段落が検索される事態に陥る。
例えば、上記の背景技術で説明した文献情報管理システムを用いる場合、指定単語「韻律」を用いて、本文の関連箇所が検索される。このように1つの形態素だけをキーワードに用いる場合、図3に示す本文の中から、指定単語「韻律」の出現回数が最も多い段落、本例では図3の上から1番目の段落が検索されることになる。
そうであるからと言って、指定単語「韻律」を含む1文をクエリとすればよい訳でもない。すなわち、指定単語「韻律」を含む1文をクエリとする場合、図2の下段に下線で示す通り、「本論文では、韻律の生成にコーパスベース方式を採用しているが、波形の処理には・・・」といった1文がクエリとされる。この1文は、句点「。」により区切られた文であり、実質的には、読点「、」の前後にコーパスベースの話題と波形処理の話題との2つの話題が含まれている。この場合、韻律、コーパスベース、波形や処理などの全ての単語が含まれる段落、本例では図3の上から3番目の段落が検索されることになる。
このように、指定単語「韻律」だけをクエリとする場合、並びに、指定単語「韻律」を含む1文をクエリとする場合のいずれも、コーパスベースに関する話題が記述された段落、本例では図3の上から2番目の段落を検索することはできない。
これらのことから、本実施例では、指定単語「韻律」の後方を探索しながら、指定単語「韻律」に後続する自立語をそれまでに探索された自立語の組合せへ順次追加することにより、複数のクエリ候補を生成する。言い換えれば、必ずしもクエリを指定単語「韻律」単独で固定したり、クエリを指定単語「韻律」を含む1文で固定したりといったクエリの生成は行わない。
本例の場合、「韻律」、「韻律+生成」、「韻律+生成+コーパスベース」、「韻律+生成+コーパスベース+方式」、「韻律+生成+コーパスベース+方式+採用」、「韻律+生成+コーパスベース+方式+採用+波形」、・・・となどといったクエリ候補が抽出される。
そして、本実施例では、各クエリ候補の生成に用いられた自立語ごとにtf−idfを算出した上でクエリ候補ごとに当該クエリ候補に含まれる自立語のtf−idfの平均値を算出することにより、各クエリ候補の検索精度を評価する。
つまり、「韻律」の各段落におけるtf−idf、「生成」の各段落におけるtf−idf、「コーパスベース」の各段落におけるtf−idf、「方式」の各段落におけるtf−idf、「採用」の各段落におけるtf−idf、「波形」の各段落におけるtf−idf、といった要領で、各自立語のtf−idfが算出される。その上で、各クエリ候補「韻律」、「韻律+生成」、「韻律+生成+コーパスベース」、「韻律+生成+コーパスベース+方式」、「韻律+生成+コーパスベース+方式+採用」、「韻律+生成+コーパスベース+方式+採用+波形」、・・・となどといったクエリ候補ごとに、上記の式(1)に示すクエリ精度関数にしたがって検索精度が算出される。
図4は、クエリ候補の検索精度の一例を示す図である。図4に示すグラフの縦軸は、クエリ精度関数にしたがって算出された検索精度を指し、グラフの横軸は、クエリ候補が含む自立語の個数を指す。図4に示すように、クエリ候補に含まれる自立語の数が増加するほどクエリ精度関数により求まる精度関数の評価値は増加するが、自立語の数が5つでピークを取り、その後、自立語の数が増加しても検索精度の評価値は減少している。このことから、検索精度の評価値が最高となるクエリ候補、すなわち「韻律+生成+コーパスベース+方式+採用」の5つの自立語を含むクエリ候補が上記の最高クエリとして選択される。
このような最高クエリによれば、自立語の組合せ「韻律+生成+コーパスベース+方式+採用」もしくは形態素列「韻律の生成にコーパスベース方式を採用」をクエリとし、文献の本文に含まれる段落を検索できる。このため、検索に用いられるクエリが指定単語「韻律」の単独と決定されることにより、指定単語「韻律」の出現回数が最多である段落、すなわち図3に示す上から1番目の段落が検索されることを抑制できる。また、検索に用いられるクエリが指定単語「韻律」を含む1文の全文と決定されることにより、読点「、」で区切られた後に出現する単語、すなわち実質的に異なる文章中の単語「波形」がクエリに含まれることを抑制できる結果、図3に示す上から3番目の段落が検索されることも抑制できる。この結果、閲覧者の意図通り、図3に示す上から2番目の段落を検索できるクエリを検索エンジンへ出力できる。
さらに、上記の最高クエリの導出により次のような効果を得ることもできる。すなわち、本例では、閲覧者が要約に記載されているコーパスベースに対応する本文の関連箇所を検索する意図であるにもかかわらず、意図通りの操作、すなわち「コーパスベース」を指定単語とする操作ができていない。このように必ずしも意図通りの単語を照準にして操作が行われていない場合でも、意図通りの検索結果を得ることができる。
また、ここでは、最高クエリだけを検索エンジンに出力する例を説明したが、図5に示す通り、閲覧者に複数の選択肢を提示することもできる。図5は、クエリ候補の検索精度の一例を示す図である。図5に示すグラフの縦軸は、クエリ精度関数にしたがって算出された検索精度を指し、グラフの横軸は、クエリ候補が含む自立語の個数を指す。図5に示すように、最高クエリから前後の所定数の自立語を増減させた自立語または自立語の組合せを最高クエリと共に表示部10bに表示させる。
例えば、上記の最高クエリと共に、伸張クエリ及び収縮クエリを提示することもできる。本例で言えば、一例として、伸張及び収縮を行う単語の数Nを1としたとき、前方伸張クエリとして「論文+韻律+生成+コーパスベース+方式+採用」を出力すると共に後方伸張クエリとして「韻律+生成+コーパスベース+方式+採用+波形」を出力し、後方収縮クエリとして「生成+コーパスベース+方式+採用」を出力すると共に前方収縮クエリとして「韻律+生成+コーパスベース+方式」を出力することもできる。これら前方伸張クエリ、後方伸張クエリ、後方収縮クエリ及び前方収縮クエリは、4種類の全てを出力することとしてもよいし、少なくともいずれか1つを出力することができる。なお、ここでは、表示部10bに最高クエリ、伸張クエリ及び収縮クエリを表示させた上で3種類のクエリの中から検索に用いるクエリを選択させる場合を例示したが、最高クエリ、伸張クエリ及び収縮クエリの3種類のクエリごとに本文の関連箇所を検索し、その検索結果の一覧を表示部10bに表示させることとしてもよい。
[処理の流れ]
次に、本実施例に係る文献表示装置10の処理の流れについて説明する。ここでは、文献表示装置10が実行する(1)全体処理を説明した後に、そのサブフローである(2)検索精度算出処理、(3)クエリ伸縮処理を説明することとする。
(1)全体処理
図6は、実施例1に係る文献表示処理の手順を示すフローチャートである。この処理は、あくまで一例として、表示部10bに文献のタイトル等が一覧表示されたメニュー画面が表示された状態で文献の指定が行われることにより、当該指定が行われた文献の要約またはその一部を含む文献の要約画面が表示部10bに呼び出された場合に起動する。
図6に示すように、文献の要約画面が表示部10bに表示されると(ステップS101)、指定部13は、表示部10bに表示された文献の要約画面上で入力部10aを介して位置の指定を受け付ける(ステップS102)。
続いて、文特定部14は、表示部10bに表示された要約画面に含まれる要約の文字列のうちステップS102で指定が受け付けられた位置に存在する文字が属する一文を特定する(ステップS103)。そして、形態素解析部15は、ステップS103で特定された文に形態素解析を実行する(ステップS104)。
その後、候補抽出部16は、ステップS102で位置の指定が受け付けられた文字を含む単語と、ステップS104で解析された文が含む形態素のうち自立語とを組み合わせることにより、クエリ候補を抽出する(ステップS105)。
そして、第1算出部17aは、ステップS103で特定された文に含まれる自立語のうちステップS105で抽出されたクエリ候補に含まれる自立語ごとに当該自立語の各段落におけるtf−idfを算出する(ステップS106)。
その上で、第2算出部17bは、ステップS106で算出された各自立語のtf−idfの算出結果を上記の式(1)に示すクエリ精度関数へクエリ候補ごとに代入することにより、クエリ候補ごとに当該クエリ候補の検索精度を算出する(ステップS107)。
続いて、クエリ選択部18aは、ステップS105で抽出されたクエリ候補のうちステップS107で算出された検索精度が最高であるクエリ候補を最高クエリとして選択する(ステップS108)。
そして、クエリ伸縮部18bは、ステップS108で選択された最高クエリの始端または終端を伸縮することにより、伸張クエリ及び収縮クエリを生成する(ステップS109)。
その後、表示制御部12は、ステップS108でクエリ候補の中から選択された最高クエリと共に、ステップS109のクエリ伸縮処理で得られた伸張クエリ及び収縮クエリを表示部10bに表示させた上で、3種類のクエリの中から検索に用いるクエリの選択を受け付ける(ステップS110)。
そして、検索部19は、ステップS102で位置の指定が受け付けられた要約に対応する本文の段落のうち、ステップS110で選択された最高クエリ、伸張クエリまたは収縮クエリに対応する段落を検索する(ステップS111)。
その後、表示制御部12は、ステップS111で検索された本文の関連箇所の検索結果を含む検索結果画面を表示部10bに表示させ(ステップS112)、処理を終了する。
(2)検索精度算出処理
図7は、実施例1に係る検索精度算出処理の手順を示すフローチャートである。この処理は、図6に示すステップS107に示す処理に対応し、ステップS106で各自立語のtf−idfが算出された場合に起動する。なお、このフローチャートでは、1つのクエリ候補Kに関する検索精度算出処理が抜粋して示されているが、全てのクエリ候補の検索精度の評価値が算出されるまで図7に示す検索精度算出処理が繰り返し実行される。
図7に示すように、第2算出部17bは、上記の式(1)に示すクエリ精度関数により算出されるクエリ候補Kの検索精度の評価値が格納されるレジスタQの値を「0」に初期化する(ステップS201)。
その後、第2算出部17bは、本文に含まれる段落のループ変数jのカウンタの値を「1」に初期化し、ループ変数jのカウンタの値で識別される段落に対し、下記のステップS202〜下記のステップS206までの処理を実行する。
すなわち、第2算出部17bは、クエリ候補Kの自立語iのtf−idfの和が格納されるレジスタSUMの値を「0」に初期化すると共に、tf−idfの和が算出される自立語の個数がカウントされるカウンタNの値を「0」に初期化する(ステップS202)。
その後、第2算出部17bは、クエリ候補Kに含まれる自立語のループ変数iのカウンタの値を「1」に初期化し、ループ変数iのカウンタの値で識別される自立語に対し、下記のステップS203の処理を実行する。
ステップS203において、第2算出部17bは、レジスタSUMに保持される値に、i番目の自立語のj番目の本文におけるtf−idf、すなわち「TFIDF(i,j)」の値を加算する。これと共に、第2算出部17bは、tf−idfの和が算出される自立語の個数のカウンタNの値を1つインクリメントする。
その後、第2算出部17bは、下記のステップS203の処理が実行された場合にループ変数iのカウンタの値を1つインクリメントし、ループ変数iのカウンタの値がクエリ候補Kに含まれる自立語の総数nと同数になるまで、上記のステップS203の処理を繰り返し実行する。
そして、ループ変数iのカウンタの値がクエリ候補Kに含まれる自立語の総数nと同数である場合、第2算出部17bは、ステップS204の処理を実行する。すなわち、第2算出部17bは、クエリ候補Kに含まれる全ての自立語iの段落jのtf−idfの和が保持されたレジスタSUMの値を、クエリ候補Kに含まれる自立語の総数が保持されたカウンタNの値で除算する。これによって、レジスタSUMには、クエリ候補Kの段落jに関する検索精度の評価値が保持されることになる。
その上で、第2算出部17bは、ステップS204の除算、すなわちtf−idfの平均化が実行されたレジスタSUMの値が、レジスタQに保持された値よりも大きいか否かを判定する(ステップS205)。
ここで、レジスタSUMの値がレジスタQに保持された値よりも大きい場合(ステップS205Yes)、ループ変数jで識別される段落の方がループ変数jよりも小さいループ変数で識別される段落に比べて、ステップS204で算出される検索精度の評価値が大きいことが判明する。この場合、第2算出部17bは、上記の式(1)のクエリ精度関数における「max()」の規定にしたがってレジスタQの値をレジスタSUMの値へ更新する(ステップS206)。
一方、レジスタSUMの値がレジスタQに保持された値以下である場合(ステップS205No)、ループ変数jで識別される段落の方がループ変数jよりも小さいループ変数で識別される段落に比べて、ステップS204で算出される検索精度の評価値が同じまたは小さいことが判明する。この場合、ステップS206の処理は実行されず、レジスタQの値は更新されない。
その後、第2算出部17bは、上記のステップS206の処理が実行された場合、あるいは上記のステップS205の処理の分岐でNoへ進む場合にループ変数jのカウンタの値を1つインクリメントし、ループ変数jのカウンタの値が本文内の段落の総数Mと同数になるまで、上記のステップS202〜上記のステップS206までの処理を繰り返し実行する。
これによって、レジスタQには、クエリ候補Kに含まれる各自立語のtf−idfの和の平均値が段落ごとに算出された上で、各段落のうち最大値を持つ段落に関する各自立語のtf−idfの和の平均値が保持されることになる。
そして、ループ変数jのカウンタの値が本文内の段落の総数Mと同数である場合、第2算出部17bは、レジスタQに保持された値をクエリ候補Kの検索精度の評価値としてクエリ選択部18aへ出力し(ステップS207)、処理を終了する。
以上のステップS201〜ステップS207の処理が全てのクエリ候補の検索精度の評価値が算出されるまで繰り返し実行されることにより、各クエリ候補の検索精度の評価値が得られる。
(3)クエリ伸縮処理
図8は、実施例1に係るクエリ伸縮処理の手順を示すフローチャートである。この処理は、図6に示したステップS109に対応する処理であり、ステップS108で最高クエリが選択された場合に起動される。このフローチャートでは、最高クエリの始端を前方へ拡張する前方拡張処理を実行することにより前方拡張クエリを生成する場合を例示したが、後方拡張クエリ、前方収縮クエリまたは後方収縮クエリを生成する場合も同様の処理で実現できる。
図8に示すように、クエリ伸縮部18bは、最高クエリの始端を前方へ拡張する自立語の個数を格納するレジスタNに所定値、例えば0以上の任意の整数を設定し、クエリの始端となる自立語のポインタを格納するレジスタsに最高クエリの先頭の自立語を設定すると共に、クエリの終端となる自立語のポインタを格納するレジスタeに最高クエリの末尾の自立語を設定する(ステップS301)。
その後、クエリ伸縮部18bは、クエリ選択部18a及びクエリ伸縮部18bによりこれまでに生成されたクエリ数をカウントするカウンタIに最高クエリの分を含む初期値「1」を設定する(ステップS302)。
続いて、クエリ伸縮部18bは、レジスタsに保持されたポインタに対応する自立語が文特定部14により特定された1文の最初の自立語であるか否かを判定する(ステップS303)。このとき、レジスタsに保持されたポインタに対応する自立語が文特定部14により特定された1文の最初の自立語である場合(ステップS303Yes)、クエリの始端を前方へ拡張する余地がないことが判明する。この場合、クエリ伸縮部18bは、処理を終了する。
一方、レジスタsに保持されたポインタに対応する自立語が文特定部14により特定された1文の最初の自立語でない場合(ステップS303No)、クエリの始端を前方へ拡張する余地があることが判明する。この場合、クエリ伸縮部18bは、レジスタsに保持されたポインタを当該ポインタが示す自立語の1つ前の自立語へ更新すると共に、更新後のレジスタs及びレジスタeの各ポインタにより定まる自立語の組合せまたは各自立語の間に付属語をさらに含む形態素列を前方拡張クエリJとして追加する(ステップS304)。
そして、クエリ伸縮部18bは、ステップS304で追加された前方拡張クエリJを上記の出力クエリに追加すると共に、カウンタIの値を1つインクリメントする(ステップS305)。
その後、クエリ伸縮部18bは、カウンタIの値がレジスタNの値以下であるか否かを判定する(ステップS306)。このとき、カウンタIの値がレジスタNの値以下である場合(ステップS306Yes)、最高クエリの始端がカウンタNに設定された個数にわたって前方へ拡張されていないことが判明する。この場合、クエリ伸縮部18bは、上記のステップS303の処理へ戻り、ステップS303の分岐でNoに進むことを条件にステップS304及びステップS305の処理を繰り返し実行する。
また、カウンタIの値がレジスタNの値を超える場合(ステップS306No)、最高クエリの始端がカウンタNに設定された個数にわたって前方へ拡張されたことが判明する。この場合、クエリ伸縮部18bは、このまま処理を終了する。
[効果の一側面]
上述してきたように、本実施例に係る文献表示装置10は、要約で指定された単語が属する文に含まれる単語の組合せごとに各単語のtf−idfの統計値を算出し、これがピークをとる単語の組合せを本文の関連箇所の検索に用いる。したがって、本実施例によれば、要約の指定箇所に対応する本文の関連箇所を検索する精度を向上させることができる。
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
[クエリ候補]
上記の実施例1では、指定単語に後続する自立語または指定単語に先行する自立語を順次追加することによりクエリ候補を抽出する場合を例示したが、抽出方法はこれに限定されない。すなわち、文特定部14により特定された文に含まれる自立語もしくは自立語の組合せであれば、自立語の個数は不問であり、かつクエリ候補に如何なる自立語を含めることとしてもかまわない。例えば、指定単語と組み合わせる単語は指定単語と位置が近い単語の順でなくもともよく、また、クエリ候補には必ずしも指定単語が含まれておらずともよく、また、指定単語及びその2つ後の自立語の組合せといったように、指定単語の1つ後の自立語を飛ばしてクエリ候補を抽出することもできる。
[クエリ精度関数]
上記の実施例1では、クエリ候補ごとに各自立語のtf−idfの平均値を算出する場合を例示したが、必ずしも平均値に限定さない。例えば、平均値以外の統計値、例えば最頻値や中央値などを用いることとしてもかまわない。
[応用例1]
上記の実施例1では、クエリ候補のうち最高クエリが選択される場合を例示したが、最高クエリ以外にも所定の条件を満たすクエリ候補を抽出することもできる。例えば、文献表示装置10は、候補抽出部16により上記の実施例1に示す例に限定されずに抽出されたクエリ候補を第2算出部17bにより算出された検索精度の評価値が高い順にソートする。その上で、クエリ選択部18aは、検索精度の評価値が高い順にソートされたクエリ候補のうち上位の所定数に含まれるクエリ候補も選択することができる。
図9は、応用例を示す図である。図9に示すグラフの縦軸は、クエリ精度関数にしたがって算出される検索精度の評価値を指し、グラフの横軸は、クエリ候補が含む自立語の個数を指す。図9に示すように、クエリ選択部18aは、一例として、検索精度の評価値が1位である最高クエリ以外にも、検索精度の評価値が上位3つに含まれるクエリ候補も選択することができる。このように複数のクエリ候補を検索に用いるクエリとして選択することにより、表示部10bや検索エンジンへ出力されるクエリの選択肢を増やすことができる結果、閲覧者が意図するクエリが含まれる可能性を高めることができる。
[応用例2]
上記の応用例1では、検索精度の評価値が上位の所定数に含まれるクエリ候補が選択される場合を例示したが、これ以外の方法でも複数のクエリ候補を選択することもできる。例えば、文献表示装置10は、候補抽出部16により上記の実施例1に示す例に限定されずに抽出されたクエリ候補のうち第2算出部17bにより算出された検索精度の評価値が所定の閾値以上であるクエリ候補を選択することもできる。
図10は、応用例を示す図である。図10に示すグラフの縦軸は、クエリ精度関数にしたがって算出される検索精度の評価値を指し、グラフの横軸は、クエリ候補が含む自立語の個数を指す。図10に示すように、クエリ選択部18aは、検索精度の評価値が閾値以上であるクエリ候補、図示の例では4つのクエリ候補を選択することができる。このように複数のクエリ候補を検索に用いるクエリとして選択することにより、表示部10bや検索エンジンへ出力されるクエリの選択肢を増やすことができる結果、閲覧者が意図するクエリが含まれる可能性を高めることができる。
かかる閾値は、固定値とすることもできるが、最高クエリに基づいて設定することもできる。例えば、最高クエリが持つ検索精度の評価値に所定の係数α(0<α<1)、例えば0.7や0.8などを乗算することにより、上記の閾値を動的に設定することもできる。
[適用場面]
上記の実施例1では、要約の指定箇所から本文の関連箇所が検索される場合を例示したが、適用場面は必ずしも論文、白書や特許出願で提出される明細書などの各種の文献に限定されない。例えば、上記の文献以外であっても、各種の文書ファイルに含まれる箇所から同一または異なる文書ファイル内の関連箇所を検索する場合に、上記の文献表示装置10を適用できる。
[他の実装例]
例えば、文献表示装置10が上記の文献表示プログラムを外部のリソースに依存せずに単独で実行するスタンドアローンで実装される場合を例示したが、他の実装形態を採用することもできる。例えば、要約、本文またはこれらの両方の表示を行うクライアント端末に対し、上記の文献表示処理に対応する文献表示サービスを提供するサーバ装置を設けることによってクライアントサーバシステムとして構築することもできる。例えば、サーバ装置は、上記の文献表示サービスを提供するWebサーバとして実装することとしてもよいし、アウトソーシングによって上記の文献表示サービスを提供するクラウドとして実装することとしてもかまわない。
この場合、一例として、図1に示した処理部のうち、一部の処理部をクライアント端末に実装し、残りの処理部をサーバへ実装させることができる。例えば、計算量が他の処理部に比べて大きくなる第1算出部17a及び第2算出部17bなどの処理部をサーバ装置に実装すると共に、残りの処理部をクライアント端末に実装することにより、計算量の低減を図ることもできる。また、クライアント端末により表示される文献に関する文書ファイルは、必ずしもクライアント端末上でスタティックに記憶されるものとは限らず、サーバ装置により提供される場合もある。この場合、クライアント端末には、必ずしも文献記憶部11は備えられずともかまわない。さらに、サーバ装置により文献に関する文書ファイルが記憶される場合、第1算出部17a及び第2算出部17bに加え、検索部19をさらにサーバ装置に備えさせることとしてもかまわない。
また、一例として、クライアント端末を入力部10a、表示部10b及び入出力に準じる機能部だけを有するシンクライアント端末とし、シンクライアントシステムとして構築することもできる。この場合には、各種のリソース、例えば文献の文書ファイルもサーバにより保持されると共に、その表示用ソフトもサーバ装置で仮想マシンとして実装されることになる。この場合、図1に示した処理部のうち指定部13以外の処理部はサーバ装置に実装することとすればよい。
[文献表示プログラム]
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図11を用いて、上記の実施例と同様の機能を有する文献表示プログラムを実行するコンピュータの一例について説明する。
図11は、実施例1及び実施例2に係る文献表示プログラムを実行するコンピュータのハードウェア構成例を示す図である。図11に示すように、コンピュータ100は、操作部110aと、スピーカ110bと、カメラ110cと、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180とを有する。これら110〜180の各部はバス140を介して接続される。
HDD170には、図11に示すように、上記の実施例1で示した各処理部と同様の機能を発揮する文献表示プログラム170aが記憶される。この文献表示プログラム170aは、図1に示した処理部の各構成要素と同様、統合又は分離してもかまわない。すなわち、HDD170には、必ずしも上記の実施例1で示した全てのデータが格納されずともよく、処理に用いるデータがHDD170に格納されればよい。
このような環境の下、CPU150は、HDD170から文献表示プログラム170aを読み出した上でRAM180へ展開する。この結果、文献表示プログラム170aは、図11に示すように、文献表示プロセス180aとして機能する。この文献表示プロセス180aは、RAM180が有する記憶領域のうち文献表示プロセス180aに割り当てられた領域にHDD170から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、文献表示プロセス180aが実行する処理の一例として、図6〜図8に示す処理などが含まれる。なお、CPU150では、必ずしも上記の実施例1で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。
なお、上記の文献表示プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に文献表示プログラム170aを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から文献表示プログラム170aを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに文献表示プログラム170aを記憶させておき、コンピュータ100がこれらから各プログラムを取得して実行するようにしてもよい。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータが、
検索対象となる文書内の単語を指定する処理と、
指定された単語が属する文を特定する処理と、
指定された単語と、前記文の形態素解析の結果に含まれる単語との組合せを抽出する処理と、
単語ごとに出現頻度及び逆文書頻度から定まる指標を算出する処理と、
単語の組合せごとに各単語の指標の統計値を算出する処理と、
前記単語の組合せのうち前記統計値が最大である単語の組合せを選択する処理と
を実行することを特徴とする文献表示方法。
(付記2)前記抽出する処理は、前記文に含まれる単語のうち前記指定された単語との位置が近い単語から順に、当該単語を前記指定された単語へ追加することにより、前記単語の組合せを抽出することを特徴とする付記1に記載の文献表示方法。
(付記3)前記抽出する処理は、前記文に含まれる単語のうち前記指定された単語に先行する単語または前記指定された単語に後続する単語を前記指定された単語との位置が近い単語から順に、当該単語を前記指定された単語へ追加する処理を繰り返すことにより、複数の単語の組合せを抽出することを特徴とする付記2に記載の文献表示方法。
(付記4)前記コンピュータが、
前記統計値が最大である単語の組合せの先頭または末尾を前記指定された単語よりも前方または後方へ伸張することにより、伸張後の単語を先頭または末尾とする単語の組合せをさらに生成する処理をさらに実行することを特徴とする付記1、2または3に記載の文献表示方法。
(付記5)前記コンピュータが、
前記統計値が最大である単語の組合せの先頭または末尾を前記指定された単語よりも後方または前方へ収縮することにより、収縮後の単語を先頭または末尾とする単語の組合せをさらに生成する処理をさらに実行することを特徴とする付記1、2または3に記載の文献表示方法。
(付記6)前記選択する処理は、前記単語の組合せのうち前記統計値が上位の所定数に含まれる単語の組合せを選択することを特徴とする付記1〜5のいずれか1つに記載の文献表示方法。
(付記7)前記選択する処理は、前記単語の組合せのうち前記統計値が所定の閾値以上である単語の組合せを選択することを特徴とする付記1〜5のいずれか1つに記載の文献表示方法。
(付記8)前記指標は、tf−idfであることを特徴とする付記1〜7のいずれか1つに記載の文献表示方法。
(付記9)コンピュータに、
検索対象となる文書内の単語を指定する処理と、
指定された単語が属する文を特定する処理と、
指定された単語と、前記文の形態素解析の結果に含まれる単語との組合せを抽出する処理と、
単語ごとに出現頻度及び逆文書頻度から定まる指標を算出する処理と、
単語の組合せごとに各単語の指標の統計値を算出する処理と、
前記単語の組合せのうち前記統計値が最大である単語の組合せを選択する処理と
をコンピュータに実行させる文献表示プログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記10)検索対象となる文書内の単語を指定する指定部と、
指定された単語が属する文を特定する文特定部と、
指定された単語と、前記文の形態素解析の結果に含まれる単語との組合せを抽出する抽出部と、
単語ごとに出現頻度及び逆文書頻度から定まる指標を算出する第1算出部と、
単語の組合せごとに各単語の指標の統計値を算出する第2算出部と、
前記単語の組合せのうち前記統計値が最大である単語の組合せを選択する選択部と
を有することを特徴とする文献表示装置。
10 文献表示装置
10a 入力部
10b 表示部
11 文献記憶部
12 表示制御部
13 指定部
14 文特定部
15 形態素解析部
16 候補抽出部
17a 第1算出部
17b 第2算出部
18a クエリ選択部
18b クエリ伸縮部
19 検索部

Claims (6)

  1. コンピュータが、
    検索対象となる文書内の単語を指定する処理と、
    指定された単語が属する文を特定する処理と、
    指定された単語と、前記文の形態素解析の結果に含まれる単語との組合せを抽出する処理と、
    単語ごとに出現頻度及び逆文書頻度から定まる指標を算出する処理と、
    単語の組合せごとに各単語の指標の統計値を算出する処理と、
    前記単語の組合せのうち前記統計値が最大である単語の組合せを選択する処理と
    を実行することを特徴とする文献表示方法。
  2. 前記抽出する処理は、前記文に含まれる単語のうち前記指定された単語との位置が近い単語から順に、当該単語を前記指定された単語へ追加することにより、前記単語の組合せを抽出することを特徴とする請求項1に記載の文献表示方法。
  3. 前記抽出する処理は、前記文に含まれる単語のうち前記指定された単語に先行する単語または前記指定された単語に後続する単語を前記指定された単語との位置が近い単語から順に、当該単語を前記指定された単語へ追加する処理を繰り返すことにより、複数の単語の組合せを抽出することを特徴とする請求項2に記載の文献表示方法。
  4. 前記コンピュータが、
    前記統計値が最大である単語の組合せの先頭または末尾を前記指定された単語よりも前方または後方へ伸張することにより、伸張後の単語を先頭または末尾とする単語の組合せをさらに生成する処理をさらに実行することを特徴とする請求項1、2または3に記載の文献表示方法。
  5. 前記コンピュータが、
    前記統計値が最大である単語の組合せの先頭または末尾を前記指定された単語よりも後方または前方へ収縮することにより、収縮後の単語を先頭または末尾とする単語の組合せをさらに生成する処理をさらに実行することを特徴とする請求項1、2または3に記載の文献表示方法。
  6. 検索対象となる文書内の単語を指定する指定部と、
    指定された単語が属する文を特定する文特定部と、
    指定された単語と、前記文の形態素解析の結果に含まれる単語との組合せを抽出する抽出部と、
    単語ごとに出現頻度及び逆文書頻度から定まる指標を算出する第1算出部と、
    単語の組合せごとに各単語の指標の統計値を算出する第2算出部と、
    前記単語の組合せのうち前記統計値が最大である単語の組合せを選択する選択部と
    を有することを特徴とする文献表示装置。
JP2015196175A 2015-10-01 2015-10-01 文献表示方法及び文献表示装置 Pending JP2017068757A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015196175A JP2017068757A (ja) 2015-10-01 2015-10-01 文献表示方法及び文献表示装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015196175A JP2017068757A (ja) 2015-10-01 2015-10-01 文献表示方法及び文献表示装置

Publications (1)

Publication Number Publication Date
JP2017068757A true JP2017068757A (ja) 2017-04-06

Family

ID=58492570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015196175A Pending JP2017068757A (ja) 2015-10-01 2015-10-01 文献表示方法及び文献表示装置

Country Status (1)

Country Link
JP (1) JP2017068757A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220060699A (ko) * 2020-11-05 2022-05-12 한국과학기술정보연구원 논문의 요약과 본문 매칭에 기반한 학술 정보 제공 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220060699A (ko) * 2020-11-05 2022-05-12 한국과학기술정보연구원 논문의 요약과 본문 매칭에 기반한 학술 정보 제공 방법 및 장치
KR102546895B1 (ko) * 2020-11-05 2023-06-23 한국과학기술정보연구원 논문의 요약과 본문 매칭에 기반한 학술 정보 제공 방법 및 장치

Similar Documents

Publication Publication Date Title
US10140368B2 (en) Method and apparatus for generating a recommendation page
JP5798814B2 (ja) リアルタイム人気キーワードに対する代表フレーズを提供する方法およびシステム
JP6461980B2 (ja) 検索結果におけるコヒーレントな質問回答
JP4251652B2 (ja) 検索装置、検索プログラムおよび検索方法
US20110316796A1 (en) Information Search Apparatus and Information Search Method
JP6122499B2 (ja) 特徴に基づく候補選択
KR101126406B1 (ko) 유사어 결정 방법 및 시스템
US8782049B2 (en) Keyword presenting device
US20110022609A1 (en) System and Method for Generating Search Terms
US11526259B2 (en) Method and apparatus for determining extended reading content, device and storage medium
EP3084636A1 (en) Identifying semantically-meaningful text selections
JP5345987B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
US9378248B2 (en) Retrieval apparatus, retrieval method, and computer-readable recording medium
JP2017068757A (ja) 文献表示方法及び文献表示装置
JP6488399B2 (ja) 情報提示システム、及び情報提示方法
KR101113787B1 (ko) 텍스트 색인 장치 및 방법
KR102215580B1 (ko) 스타일 속성에 기반하여 문서에 대한 중요 키워드를 선정하는 전자 장치 및 그 동작 방법
JP6079207B2 (ja) キーワード提示プログラム、キーワード提示方法及びキーワード提示装置
JP6676699B2 (ja) 予約語及び属性言語間の関連度を用いた情報提供方法及び装置
JP2010146061A (ja) 例文表示装置、例文表示方法および例文表示プログラム
JP2012113756A (ja) 情報処理装置及び情報処理方法
US7860704B2 (en) Lexicon-based content correlation and navigation
JP4274490B2 (ja) 検索装置、検索プログラムおよび検索方法
US7734635B2 (en) Indexed views
US20200301981A1 (en) Information processing device and non-transitory computer readable medium