JP7413776B2 - 情報処理装置、及びコンピュータプログラム - Google Patents

情報処理装置、及びコンピュータプログラム Download PDF

Info

Publication number
JP7413776B2
JP7413776B2 JP2019237800A JP2019237800A JP7413776B2 JP 7413776 B2 JP7413776 B2 JP 7413776B2 JP 2019237800 A JP2019237800 A JP 2019237800A JP 2019237800 A JP2019237800 A JP 2019237800A JP 7413776 B2 JP7413776 B2 JP 7413776B2
Authority
JP
Japan
Prior art keywords
search
user
information
words
search results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019237800A
Other languages
English (en)
Other versions
JP2021105917A (ja
Inventor
雄司 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019237800A priority Critical patent/JP7413776B2/ja
Priority to CN202010465144.XA priority patent/CN113051284A/zh
Priority to US16/885,287 priority patent/US20210200812A1/en
Publication of JP2021105917A publication Critical patent/JP2021105917A/ja
Application granted granted Critical
Publication of JP7413776B2 publication Critical patent/JP7413776B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • G06F16/90328Query formulation using system suggestions using search space presentation or visualization, e.g. category or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、及びコンピュータプログラムに関する。
例えば、特許文献1には、検索のための質問文を入力する質問文入力手段と、検索対象のデータが格納されたデータベースを検索し、前記質問文入力手段によって入力された質問文に類似するデータを抽出する検索実行手段と、前記検索実行手段によって抽出された検索結果に対して、前記検索実行手段による抽出に貢献した単語に関する貢献の度合を演算する単語貢献度演算手段と、前記単語貢献度演算手段によって演算された貢献度を対応する単語とともに出力する単語貢献度出力手段とを備えたことを特徴とする検索装置が開示されている。
特開2002-304418号公報
ユーザが自然文を用いて検索を行う際に、ユーザが重要と考えている語句を含んだ情報が、検索結果の上位に出てくるとは限らない。検索結果を絞り込むために、多数の語句の中から重要と考える語句以外の語句を削除するのは手間である。
本発明は、上記の点に鑑みてなされたものであり、ユーザが重要と考える語句を動的に抽出することで、そのような語句を抽出しない場合と比べて、ユーザによる再検索の効率を向上させることができる、情報処理装置及びコンピュータプログラムを提供する。
本発明の第1態様に係る情報処理装置は、プロセッサを備え、前記プロセッサは、ユーザにより入力された自然文から情報の検索に用いる語句を抽出し、抽出した前記語句を用いて情報を検索し、前記ユーザによる、検索結果の閲覧に係る操作に応じ、前記検索結果を提示した範囲の前記情報における前記語句の登場回数に基づいて、前記語句の中から検索語句を動的に選択し、選択した前記検索語句を提示する処理を実行する。
本発明の第2態様に係る情報処理装置は、第1態様に係る情報処理装置であって、前記プロセッサは、前記検索結果を提示した範囲の前記情報において各前記語句の優先順位を算出し、前記登場回数及び前記優先順位に基づいて前記検索語句を動的に選択する。
本発明の第3態様に係る情報処理装置は、第2態様に係る情報処理装置であって、前記プロセッサは、前記ユーザによる情報の閲覧件数及び前記検索結果の提示件数に基づいて前記優先順位を算出する。
本発明の第4態様に係る情報処理装置は、第3態様に係る情報処理装置であって、前記プロセッサは、前記ユーザによる情報の閲覧件数及び前記検索結果の提示件数を用いて、各前記語句が含まれる情報を選択する確率を算出し、前記確率に基づいて各前記語句の前記優先順位を算出する。
本発明の第5態様に係る情報処理装置は、第2態様に係る情報処理装置であって、前記検索結果の閲覧に係る操作は、前記ユーザによる、前記検索結果の選択に係る操作であり、前記プロセッサは、前記ユーザによる、前記検索結果の選択に係る操作に応じて各前記語句の優先順位を算出する。
本発明の第6態様に係る情報処理装置は、第5態様に係る情報処理装置であって、前記プロセッサは、前記ユーザによる、前記検索結果の選択に係る操作に応じて前記検索語句を動的に選択する、請求項5に記載の情報処理装置。
本発明の第7態様に係る情報処理装置は、第1態様に係る情報処理装置であって、前記検索結果の閲覧に係る操作は、前記ユーザによる、前記検索結果の表示画面に対する操作であり、前記プロセッサは、前記ユーザによる前記検索結果の表示画面に対する操作に応じて、前記語句の登場回数を算出する。
本発明の第8態様に係る情報処理装置は、第7態様に係る情報処理装置であって、前記ユーザによる検索結果の表示画面に対する操作は、画面のスクロール操作である。
本発明の第9態様に係る情報処理装置は、第1態様に係る情報処理装置であって、前記プロセッサは、前記ユーザによる、提示した前記検索語句に対する操作に応じ、前記検索語句が情報の検索に寄与する重みを変化させる。
本発明の第10態様に係る情報処理装置は、第9態様に係る情報処理装置であって、前記プロセッサは、提示した前記検索語句の選択に係る操作に応じ、選択された前記検索語句が情報の検索に寄与する重みを重くする。
本発明の第11態様に係る情報処理装置は、第1態様~第10態様のいずれかに係る情報処理装置であって、前記プロセッサは、他の検索結果への登場頻度に基づいて前記検索語句を選択する。
本発明の第12態様に係る情報処理装置は、第11態様に係る情報処理装置であって、前記プロセッサは、他の検索結果への登場頻度が所定の閾値より低い語句を前記検索語句として選択する。
本発明の第13態様に係るコンピュータプログラムは、コンピュータに、ユーザにより入力された自然文から情報の検索に用いる語句を抽出し、抽出した前記語句を用いて情報を検索し、前記ユーザによる、検索結果の閲覧に係る操作に応じ、前記検索結果を提示した範囲の前記情報における前記語句の登場回数に基づいて、前記語句の中から検索語句を動的に選択し、選択した前記検索語句を提示する処理を実行させる。
本発明の第1態様によれば、検索結果を提示した範囲の情報における語句の登場回数に基づいて、語句の中から検索語句を動的に選択し、選択した検索語句を提示することで、ユーザが重要と考える語句を動的に抽出し、提示することができる。
本発明の第2態様によれば、登場回数に加えて優先順位に基づいて、語句の中から検索語句を動的に選択し、選択した検索語句を提示することで、ユーザが重要と考える語句を動的に抽出し、提示することができる。
本発明の第3態様によれば、ユーザによる情報の閲覧件数を用いて優先順位を算出することで、ユーザが閲覧した情報に含まれていた語句を重要と考える語句として抽出することができる。
本発明の第4態様によれば、ユーザによる情報の閲覧件数を用いて、語句が含まれる情報をユーザが選択する確率を算出することで、ユーザが閲覧した情報に含まれていた語句を重要と考える語句として抽出することができる。
本発明の第5態様によれば、ユーザによる検索結果の選択に係る操作に応じて優先順位を動的に算出することができる。
本発明の第6態様によれば、ユーザによる検索結果の選択に係る操作に応じて優先順位を算出することで、ユーザが閲覧した情報に含まれていた語句を動的に抽出することができる。
本発明の第7態様によれば、ユーザによる検索結果の表示画面に対する操作に応じて、ユーザが閲覧した情報に含まれていた語句を動的に抽出することができる。
本発明の第8態様によれば、ユーザによる検索結果の表示画面に対するスクロール操作に応じて、ユーザが閲覧した情報に含まれていた語句を動的に抽出することができる。
本発明の第9態様によれば、提示した語句に対するユーザの操作に応じて検索結果を変化させることができる。
本発明の第10態様によれば、提示した語句に対するユーザの操作に応じて検索に寄与する重みを変化させることで検索結果を変化させることができる。
本発明の第11態様によれば、他の検索結果への登場頻度に基づいてユーザが重要と考える語句として抽出することができる。
本発明の第12態様によれば、他の検索結果への登場頻度が低いものをユーザが重要と考える語句として抽出することができる。
本発明の第13態様によれば、検索結果を提示した範囲の情報における語句の登場回数に基づいて、語句の中から検索語句を動的に選択し、選択した検索語句を提示することで、ユーザが重要と考える語句を動的に抽出し、提示することができる。
本発明によれば、ユーザの検索結果に対する操作に応じてユーザが重要と考える語句を動的に抽出することで、そのような語句を抽出しない場合と比べて、ユーザによる再検索の効率を向上させることができる。
本実施形態に係る情報検索システムの概略構成を示す図である。 検索サーバのハードウェア構成を示すブロック図である。 検索サーバの機能構成の例を示すブロック図である。 検索サーバによる情報検索処理の流れを示すフローチャートである。 抽出した語句のそれぞれの検索結果への登場回数、及びユーザが選択したコンテンツの数の測定結果の例を示す図である。 語句とIDF値との関係の例を示す図である。 抽出された検索語句と、各検索語句の自然文への登場回数との関係例を示す図である。 検索結果の提示件数の例を示す図である。 抽出した語句のそれぞれの検索結果への登場回数、及びユーザが選択したコンテンツの数の測定結果の例を示す図である。 検索処理毎のユーザ端末への表示件数、及びユーザが開いたコンテンツの例を示す図である。 検索語句のユーザ端末への提示例を示す図である。
以下、本開示の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一または等価な構成要素および部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
図1は、本実施形態に係る情報検索システムの概略構成を示す図である。図1に示した情報検索システムは、情報処理装置としての検索サーバ10、及びユーザ端末20を含んで構成される。検索サーバ10、及びユーザ端末20は、インターネット、又はイントラネット等の通信回線30によって相互に接続されている。通信回線30は、有線回線であっても無線回線であってもよく、また、特定のユーザだけが利用する専用回線であっても、不特定多数のユーザで同じ回線が共有される公衆回線であってもよい。
検索サーバ10は、ユーザ端末20からの情報の検索の要求に応じて、情報を検索して、検索の結果をユーザ端末20に返す装置である。検索サーバ10が検索する情報の対象は、例えば、画像データ、文字データ、文書データ、音声データ及び動画データ等の様々な電子データである。検索サーバ10による検索の対象となるデータは、検索サーバ10の内部に格納されていてもよく、検索サーバ10の外部の装置に格納されていてもよい。以下の説明では、検索サーバ10が検索する情報の対象を「コンテンツ」とも称する。コンテンツは、例えば、インターネット、又はイントラネットでの閲覧が可能な情報である。
ユーザ端末20は、情報検索システムのユーザが使用する端末であって、デスクトップ型コンピュータ、ノートパソコン、タブレット又はスマートフォン等のいかなる端末であってもよい。ユーザ端末20は、通信回線30を通じて検索サーバ10と通信可能に構成される装置である。ユーザ端末20は、マウス、キーボード及びマイク等の入力装置、並びに、ディスプレイ及びスピーカ等の出力装置を含む。ユーザ端末20は、入力装置によってユーザに入力された、検索条件で検索サーバ10にコンテンツの検索を行わせる。ユーザ端末20は、検索サーバ10での検索の結果を出力装置で出力する。
本実施形態では、検索サーバ10は、ユーザ端末20でユーザにより入力された語句に基づいたコンテンツの検索だけでなく、ユーザ端末20でユーザにより入力された自然文に基づいたコンテンツの検索を実行するよう構成される。自然文は、ユーザがキーボードを用いて文字で入力したものであってもよく、ユーザがマイクに向かって音声で入力したものであってもよい。
例えば、「日本での特許権の存続期間を教えてください。」という文が、ユーザ端末20において文字または音声でユーザによって入力されたとする。検索サーバ10は、入力された文から検索に用いる語句を抽出し、抽出した語句によるコンテンツの検索を実行する。上記の例であれば、検索サーバ10は、自然文を品詞分解することで「日本」、「特許権」、「存続期間」という語句を抽出し、この語句を用いたコンテンツの検索を実行する。そして、検索サーバ10は、「日本」、「特許権」、「存続期間」という語句が含まれるコンテンツを探し出し、検索結果をユーザ端末20に送信する。ユーザ端末20は、検索サーバ10による検索結果を取得して、出力装置で出力する。
ここで、検索サーバ10によるコンテンツの検索の結果がユーザの所望するものでない場合がありうる。例えば、ユーザが入力する自然文が長くなれば、自然文から抽出される語句の数も多くなりうる。検索に用いる語句の数が多くなると、ユーザが自然文を用いてコンテンツの検索を行う際に、ユーザが重要と考えている語句を含んだ情報が、検索サーバ10による検索の結果の上位に登場するとは限らない。検索結果を絞り込むために、自然文から抽出した多数の語句の中から、重要と考える語句以外の語句を削除するのは、ユーザにとって手間である。
そこで、本実施形態に係る検索サーバ10は、ユーザが自然文を用いてコンテンツの検索を行う際に、検索結果に対するユーザの操作に応じて、ユーザが重要であると考える語句を自動で抽出する。本実施形態に係る検索サーバ10は、検索結果に対するユーザの操作に応じて、ユーザが重要であると考える語句を自動で抽出することで、ユーザの再検索の手間を軽減させる。
なお、図1に示した情報検索システムには1台のユーザ端末20しか含まれていないが、複数のユーザ端末20が含まれてもよい。また、情報検索システムには複数の検索サーバ10が含まれてもよい。
図2は、検索サーバ10のハードウェア構成を示すブロック図である。
図2に示すように、検索サーバ10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12またはストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12またはストレージ14に記録されているプログラムにしたがって、上記各構成の制御および各種の演算処理を行う。本実施形態では、ROM12またはストレージ14には、コンテンツの検索を行う検索プログラムが格納されている。
ROM12は、各種プログラムおよび各種データを格納する。RAM13は、作業領域として一時的にプログラムまたはデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)、SSD(Solid State Drive)またはフラッシュメモリ等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、および各種データを格納する。
入力部15は、マウス等のポインティングデバイス、およびキーボードを含み、各種の入力を行うために使用される。
表示部16は、たとえば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能しても良い。
通信インタフェース17は、ユーザ端末20等の他の機器と通信するためのインタフェースであり、たとえば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。
上記の検索プログラムを実行する際に、検索サーバ10は、上記のハードウェア資源を用いて、各種の機能を実現する。
次に、検索サーバ10の機能構成について説明する。
図3は、検索サーバ10の機能構成の例を示すブロック図である。
図3に示すように、検索サーバ10は、機能構成として、語句抽出部101、検索実行部102、ユーザ操作判定部103、語句判定部104、聞き返し実行部105、関連語句記録部106、及び画面表示情報記録部107を有する。各機能構成は、CPU11がROM12またはストレージ14に記憶された検索プログラムを読み出し、実行することにより実現される。
語句抽出部101は、ユーザ端末20でユーザによって入力された自然文から、検索に用いる語句を抽出する。ユーザ端末20で、例えば「建設業界関連の会社を経営しておりますが、業界の団体に対し、都度年会費を支払っています。当該年会費は課税取引となりますか。」という自然文が入力されたとする。語句抽出部101は、この自然文から「会社」、「団体」、「年会費」、「建設業」、「支払」、「業界」、「経営」、「課税取引」、「関連」、及び「都度」という語句を所定の方法により抽出する。ユーザ端末20で入力された自然文から検索に用いる語句を抽出する方法には、例えば、特開2014-096083号公報に開示されている技術など、任意の技術が用いられ得る。
検索実行部102は、語句抽出部101が抽出した語句を用いてコンテンツの検索を実行する。検索実行部102は、コンテンツの検索を実行する際に、関連語句記録部106に記録されている語句同士の関連情報を用いる。検索実行部102は、コンテンツの検索の結果をユーザ端末20に提示する。
ユーザ操作判定部103は、検索実行部102で実行され、ユーザ端末20に提示されたコンテンツの検索の結果に対するユーザの操作を判定する。ユーザ操作判定部103は、コンテンツの検索の結果に対するユーザの操作に応じ、画面表示情報記録部107に情報を記録する。例えば、ユーザ操作判定部103は、ユーザのスクロール操作に応じ、検索結果の表示件数の情報を画面表示情報記録部107に記録する。また例えば、ユーザ操作判定部103は、ユーザの検索結果の閲覧操作に応じ、閲覧した情報を識別するための識別子を画面表示情報記録部107に記録する。
語句判定部104は、検索実行部102で実行された検索結果と、画面表示情報記録部107に記録されている情報とを用いて、ユーザが重要であると考える語句(検索語句)を判定する。画面表示情報記録部107に記録される情報は、ユーザ操作判定部103によるユーザの操作の判定の度に更新される。語句判定部104は、画面表示情報記録部107に記録される情報が更新される都度、すなわち、ユーザ操作判定部103によるユーザの操作の判定の都度、検索語句を動的に判定する。
聞き返し実行部105は、語句判定部104が判定した検索語句をユーザ端末20に提示する。語句判定部104は、検索語句を動的に判定するので、聞き返し実行部105が提示する検索語句も、動的に変化する。また、聞き返し実行部105は、提示した検索語句に対してユーザ端末20で実行された操作に応じ、検索語句による検索を検索実行部102に実行させる。
検索サーバ10は、係る構成を有することにより、ユーザの検索結果に対する操作に応じてユーザが重要と考える検索語句を動的に抽出することができる。検索サーバ10は、ユーザが重要と考える検索語句を動的に抽出することで、そのような検索語句を動的に抽出しない場合と比べて、ユーザによる再検索の効率を向上させることができる。
次に、検索サーバ10の作用について説明する。
図4は、検索サーバ10による情報検索処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14から検索プログラムを読み出して、RAM13に展開して実行することにより、情報検索処理が行なわれる。
ユーザが、ユーザ端末20に対して自然文を入力してコンテンツの検索を要求すると、CPU11は、ユーザ端末20で入力された自然文を取得する(ステップS101)。ユーザは、キーボードを操作してユーザ端末20に対して自然文を入力してもよく、マイクに向かって発話することでユーザ端末20に対して自然文を入力してもよい。ユーザがマイクに向かって発話した場合は、ユーザ端末20は、発話の内容をテキストに変換した後に、検索サーバ10に変換したテキストを送信する。
ステップS101に続いて、CPU11は、ユーザ端末20から送信された自然文から語句を抽出する(ステップS102)。上述したように、ユーザ端末20で「建設業界関連の会社を経営しておりますが、業界の団体に対し、都度年会費を支払っています。当該年会費は課税取引となりますか。」という自然文が入力されたとする。CPU11は、この自然文から「会社」、「団体」、「年会費」、「建設業」、「支払」、「業界」、「経営」、「課税取引」、「関連」、及び「都度」という語句を抽出する。
ステップS102に続いて、CPU11は、ステップS102で抽出した語句を用いてコンテンツを検索し、検索結果をユーザ端末20に提示する(ステップS103)。CPU11による検索の対象となるコンテンツは、検索サーバ10の内部に格納されていてもよく、検索サーバ10の外部の装置に格納されていてもよい。検索結果の提示は、例えばコンテンツのタイトル、コンテンツの要約、コンテンツ中の語句が含まれる文章の抽出等で行われる。また、検索結果は、所定数ずつ、例えば10件ずつ提示される。
ステップS103に続いて、CPU11は、検索結果の各コンテンツに含まれる語句から、質問に関する関連度を、コンテンツごとに測定する(ステップS104)。
ステップS104に続いて、CPU11は、ユーザ端末20に提示した検索結果に対するユーザの操作が持続しているかどうかを判定する(ステップS105)。ユーザ端末20に提示された検索結果に対して、ユーザが何らかの操作を持続しているということは、ユーザ端末20に提示された検索結果が、ユーザの望んでいたものでない可能性がある。
例えば、検索結果として表示されている見出しをマウスでクリックし、コンテンツをユーザ端末20に表示させた後、すぐに検索結果に戻り、さらに別の見出しをクリックする、という操作を、ユーザが延々と繰り返しているとする。そのような場合は、ユーザ端末20に提示された検索結果が、ユーザの望んでいたものでない可能性がある。また、検索結果として表示されている見出しをユーザがマウスでクリックせず、スクロールをしたり、ページを切り替えたりする操作を行っていたとする。そのような場合も、ユーザ端末20に提示された検索結果が、ユーザの望んでいたものでない可能性がある。
CPU11は、ユーザ端末20に提示した検索結果が、ユーザの望んでいたものであるかどうかを、上述したようなユーザの操作を検出することで判定する。
ステップS105の判定の結果、ユーザ端末20に提示した検索結果に対するユーザの操作が持続していた場合は(ステップS105;Yes)、CPU11は、抽出した語句に対する、検索結果を提示した範囲における登場回数、及びユーザが選択したコンテンツの数を測定する(ステップS106)。
図5は、抽出した語句のそれぞれの、検索結果への登場回数、及びユーザが選択したコンテンツの数の測定結果の例を示す図である。図5では、「会社」、「団体」、「年会費」、「建設業」、「支払」、「業界」、「経営」、「課税取引」の各語句についての測定結果の例が示されている。また、図5では、検索結果の上位10件における、各語句についての測定結果の例が示されている。
ステップS106に続いて、CPU11は、ステップS106での測定結果を用いて、ユーザが重要だと考えている語句と推測される検索語句を抽出する(ステップS107)。本実施形態では、CPU11は、以下の条件によって検索語句を抽出する。
CPU11は、上位に提示したコンテンツに登場していない語句を、ユーザが重要と考えている語句と推測される検索語句として抽出する。CPU11は、さらに、上位に登場したコンテンツにおいて、各語句に対して優先順位を算出し、算出した優先順位に基づいて検索語句を抽出してもよい。CPU11は、上位に登場したコンテンツをユーザが開く確率に基づいて優先順位を算出してもよい。そして、CPU11は、算出した確率が高い語句を、ユーザが重要と考えている語句と推測される検索語句として抽出してもよい。
図5を参照して、CPU11が抽出する検索語句の例を説明する。CPU11は、検索結果の上位に登場したコンテンツに含まれていない語句を検索語句として抽出する。換言すれば、CPU11は、検索結果として提示していないコンテンツに含まれる語句の中に、ユーザが重要だと考えている語句が存在すると推測する。図5の例では、CPU11は、上位10件中に1回も登場していない「年会費」、「業界」、及び「課税取引」の3つの語句を検索語句として抽出する。
また、CPU11は、検索結果の上位に登場したコンテンツをユーザが開いた確率が所定の閾値以上、例えば50パーセント以上の語句を検索語句として抽出する。換言すれば、CPU11は、ユーザが開いた確率が所定の閾値未満の語句は、ユーザが重要ではないと考えている語句と推測する。図5の例では、CPU11は、開いた確率が100パーセントである「建設業」を検索語句として抽出する。
CPU11は、この検索語句の抽出により、「会社」、「団体」、「支払」、「経営」は、ユーザが重要ではないと考えている語句と推測する。
なお、検索結果の上位に登場したコンテンツをユーザが開いた確率が所定の閾値以上の語句が、常にユーザが重要であると考えている語句とは限らない。例えば、図5に示した「建設業」の例のように、1度しか登場していない語句については、ユーザがたまたま選択しただけという可能性もありうる。従って、CPU11は、ユーザが開いた確率が所定の閾値以上であっても、登場回数が1回の語句は検索語句として抽出しなくてもよい。
また、CPU11は、検索結果の上位のコンテンツにおける語句の登場回数が閾値以上であるかどうかによって、抽出する検索語句を決定してもよい。この際の閾値は、例えば1回であってもよい。閾値を1回とすると、CPU11は、検索結果の上位のコンテンツにおいて1回も登場しなかった語句を検索語句として抽出することが出来る。
ステップS107の処理により、多くの検索語句が抽出される場合が考えられる。所定の閾値以上、例えば10個以上の検索語句を抽出した場合、CPU11は、他の条件を用いて検索語句を絞り込んでもよい。
例えば、CPU11は、所定の閾値以上の検索語句を抽出した場合、IDF(Inverse Document Frequency)値を用いて検索語句を絞り込んでもよい。IDF値は、語句が他のコンテンツにあまり存在しない場合は高い値を示し、多くの文書に存在する場合は低い値を示す。すなわち、IDF値は、あまり使われない特殊用語の場合は高い値を示し、広く使われる一般用語の場合は低い値を示す。CPU11は、IDF値が所定の閾値以上の語句を検索語句として絞り込んでもよい。
図6は、語句とIDF値との関係の例を示す図である。図6には「年会費」、「建設業」、「業界」、及び「課税取引」のIDF値の例が示されている。CPU11は、IDF値が0.5以上の語句を検索語句として絞り込んでもよい。図6を参照すると、「年会費」、及び「課税取引」のIDF値が0.5以上である。従って、CPU11は、「年会費」、及び「課税取引」を検索語句として絞り込む。
また例えば、CPU11は、所定の閾値以上の検索語句を抽出した場合、質問として入力された自然文における語句の登場回数に基づいて検索語句を絞り込んでもよい。すなわち、CPU11は、質問として入力された自然文における語句の登場回数が多い語句は、ユーザが重要だと考えている語句であると推測し、登場回数の上位の語句を検索語句として絞り込んでもよい。絞り込む数は任意である。また、登場回数が同じ語句が複数存在した場合、CPU11は、類義語の登場回数が多い語句を上位としてもよい。
図7は、抽出された検索語句と、各検索語句の自然文への登場回数との関係例を示す図である。図7では、「建設業界関連の会社を経営しておりますが、業界の団体に対し、都度年会費を支払っています。当該年会費は課税取引となりますか。」という自然文への、各検索語句の登場回数が示されている。図7を参照すれば、「年会費」は2回、「建設業」は1回、「業界」は2回、「課税取引」は1回登場していることがわかる。また、図7を参照すれば、「業界」の類義語として「建設業」が1回登場していることがわかる。なお、CPU11は、類義語辞書のデータを用いて、どの語句がどの語句の類義語であるかどうか判断してもよい。類義語辞書のデータはストレージ14に格納されていてもよく、外部の装置に存在していてもよい。
CPU11は、図7の結果から「年会費」、及び「業界」を検索語句として絞り込んでもよい。また、「年会費」と「業界」との登場回数が同じであるので、CPU11は、類義語の登場回数が多い「業界」だけを検索語句として絞り込んでもよい。
CPU11は、ユーザによる検索結果に対する操作に応じて、検索結果への登場回数、及びユーザが選択したコンテンツの数を動的に測定し直してもよい。例えば、ユーザが検索結果を下方にスクロールすると、ユーザ端末20に検索結果が10件追加して提示される場合、CPU11は、検索結果の提示件数を10件増加して更新する。そして、CPU11は、更新した提示件数における検索結果への登場回数、及びユーザが選択したコンテンツの数を測定し直す。CPU11は、これにより、ユーザによる検索結果に対する操作に応じて、検索語句を動的に変化させることができる。
図8は、画面表示情報記録部107に記録される、検索結果の提示件数の例を示す図である。検索サーバ10は、それぞれの検索処理について、図8に示したように、識別可能な形式で検索結果の提示件数を保持する。ここでは、検索IDが8の検索処理について、ユーザによる検索結果に対する操作の結果、提示件数が70件に増加したとして説明する。
図9は、抽出した語句のそれぞれの検索結果への登場回数、及びユーザが選択したコンテンツの数の測定結果の例を示す図である。図9では、「会社」、「団体」、「年会費」、「建設業」、「支払」、「業界」、「経営」、「課税取引」の各語句についての測定結果の例が示されている。また、図9では、検索結果の上位70件における、各語句についての測定結果の例が示されている。
図9を参照して、CPU11が抽出する検索語句の例を説明する。CPU11は、検索結果の上位のコンテンツに登場していない語句を検索語句として抽出する。図9の例では、CPU11は、検索結果の上位のコンテンツに登場していない「年会費」を検索語句として抽出する。
また、CPU11は、検索結果の上位のコンテンツに対し、ユーザが開いた確率が所定の閾値以上、例えば50パーセント以上の語句を検索語句として抽出する。図9の例では、CPU11は、開いた確率が90パーセントである「課税取引」を検索語句として抽出する。
CPU11は、検索結果で表示されたコンテンツの表示件数の変化、又はユーザによる選択操作に応じて、検索結果への登場回数、及びユーザが選択したコンテンツの数を動的に測定し直してもよい。図10は、画面表示情報記録部107に記録される、検索処理毎のユーザ端末20への表示件数、及びユーザが開いたコンテンツの例を示す図である。図10では、検索IDが1の検索処理について、ユーザの操作により、ユーザ端末20への表示件数が30件に変化した場合が示されている。また、図10では、検索IDが2の検索処理について、ユーザの操作により、ユーザ端末20へ43番目のコンテンツが表示された場合が示されている。
ステップS107に続いて、CPU11は、選定した検索語句をユーザ端末20に提示する(ステップS108)。
図11は、CPU11が選定した検索語句のユーザ端末20への提示例を示す図である。図11では、CPU11が検索語句として「年会費」、「建設業」、「業界」、及び「課税取引」をユーザ端末20に提示している例が示されている。ここで、「年会費」、「建設業」、「業界」、及び「課税取引」をCPU11が検索語句として提示している理由は、検索結果の上位に全く、又はほとんど影響しないワードであるためである。従って、CPU11はこれらの検索語句を、ユーザが重要であると考える語句と推測している。
検索語句として提示された語句の中から、語句を指定する操作をユーザがユーザ端末20に対して実行すると、CPU11は、指定された語句で検索結果をフィルタリングする(ステップS109)。例えば、ユーザが「年会費」及び「課税取引」を指定したとする。CPU11は、検索結果の上位に「年会費」及び「課税取引」が含まれるよう、検索結果をフィルタリングする。語句を指定する操作は、例えば、ユーザによる語句のキーボードを用いた入力であってもよく、提示した語句に対するユーザによるマウスのクリック操作であってもよい。
検索語句として提示された語句の中から、語句を指定する操作をユーザがユーザ端末20に対して実行すると、CPU11は、指定された語句に対する優先順位を変化させてもよい。また、検索語句として提示された語句の中から、語句を指定する操作をユーザがユーザ端末20に対して実行すると、CPU11は、指定された語句が検索結果に寄与する重みを変化させてもよい。すなわち、検索語句として提示された語句の中から、語句を指定する操作をユーザがユーザ端末20に対して実行すると、CPU11は、指定された語句が含まれるコンテンツが、含まれないコンテンツと比べて検索結果の上位となるよう、検索結果をユーザ端末20に提示してもよい。
CPU11は、一連の処理を、ユーザ端末20に提示した検索結果に対するユーザの操作が持続しなくなるまで継続する。ユーザ端末20に提示した検索結果に対するユーザの操作が持続しなくなったと判定すると(ステップS105;No)、CPU11は、一連の処理を終了する。
検索サーバ10は、一連の動作を実行することにより、ユーザの検索結果に対する操作に応じてユーザが重要と考える検索語句を動的に抽出することができる。検索サーバ10は、ユーザが重要と考える検索語句を動的に抽出することで、そのような検索語句を動的に抽出しない場合と比べて、ユーザによる再検索の効率を向上させることができる。
なお、上記各実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した情報検索処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、情報検索処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
また、上記各実施形態では、情報検索処理のプログラムがROMまたはストレージに予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
また上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
10 検索サーバ
20 ユーザ端末
30 通信回線

Claims (6)

  1. プロセッサを備え、
    前記プロセッサは、
    ユーザにより入力された自然文から情報の検索に用いる語句を抽出し、
    抽出した前記語句を用いて情報を検索し、
    前記ユーザによる、検索結果の閲覧に係る操作に応じ、前記検索結果を提示した範囲の前記情報における前記語句の登場回数に基づいて、前記語句の中から検索語句を動的に選択し、
    選択した前記検索語句を提示する
    処理を実行する、情報処理装置。
  2. 前記検索結果の閲覧に係る操作は、前記ユーザによる、前記検索結果の表示画面に対する操作であり、
    前記プロセッサは、前記ユーザによる前記検索結果の表示画面に対する操作に応じて、前記語句の登場回数を算出する、請求項1に記載の情報処理装置。
  3. 前記ユーザによる検索結果の表示画面に対する操作は、画面のスクロール操作である、請求項に記載の情報処理装置。
  4. 前記プロセッサは、前記ユーザによる、提示した前記検索語句に対する操作に応じ、前記検索語句が情報の検索に寄与する重みを変化させる、請求項1に記載の情報処理装置。
  5. 前記プロセッサは、提示した前記検索語句の選択に係る操作に応じ、選択された前記検索語句が情報の検索に寄与する重みを重くする、請求項に記載の情報処理装置。
  6. コンピュータに、
    ユーザにより入力された自然文から情報の検索に用いる語句を抽出し、
    抽出した前記語句を用いて情報を検索し、
    前記ユーザによる、検索結果の閲覧に係る操作に応じ、前記検索結果を提示した範囲の前記情報における前記語句の登場回数に基づいて、前記語句の中から検索語句を動的に選択し、
    選択した前記検索語句を提示する
    処理を実行させる、コンピュータプログラム。
JP2019237800A 2019-12-27 2019-12-27 情報処理装置、及びコンピュータプログラム Active JP7413776B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019237800A JP7413776B2 (ja) 2019-12-27 2019-12-27 情報処理装置、及びコンピュータプログラム
CN202010465144.XA CN113051284A (zh) 2019-12-27 2020-05-28 信息处理装置、记录介质及信息处理方法
US16/885,287 US20210200812A1 (en) 2019-12-27 2020-05-28 Information processing apparatus and non-transitory computer readable medium storing computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019237800A JP7413776B2 (ja) 2019-12-27 2019-12-27 情報処理装置、及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2021105917A JP2021105917A (ja) 2021-07-26
JP7413776B2 true JP7413776B2 (ja) 2024-01-16

Family

ID=76507550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019237800A Active JP7413776B2 (ja) 2019-12-27 2019-12-27 情報処理装置、及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20210200812A1 (ja)
JP (1) JP7413776B2 (ja)
CN (1) CN113051284A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219722A (ja) 2006-02-15 2007-08-30 Just Syst Corp 文書検索サーバおよび文書検索方法
JP2019008476A (ja) 2017-06-22 2019-01-17 富士通株式会社 生成プログラム、生成装置及び生成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11216520B2 (en) * 2005-06-27 2022-01-04 Make Sence, Inc. Knowledge correlation search engine
US8898134B2 (en) * 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US8909624B2 (en) * 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US10534815B2 (en) * 2016-08-30 2020-01-14 Facebook, Inc. Customized keyword query suggestions on online social networks
US10417268B2 (en) * 2017-09-22 2019-09-17 Druva Technologies Pte. Ltd. Keyphrase extraction system and method
US11163777B2 (en) * 2018-10-18 2021-11-02 Oracle International Corporation Smart content recommendations for content authors

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219722A (ja) 2006-02-15 2007-08-30 Just Syst Corp 文書検索サーバおよび文書検索方法
JP2019008476A (ja) 2017-06-22 2019-01-17 富士通株式会社 生成プログラム、生成装置及び生成方法

Also Published As

Publication number Publication date
US20210200812A1 (en) 2021-07-01
JP2021105917A (ja) 2021-07-26
CN113051284A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
US10140368B2 (en) Method and apparatus for generating a recommendation page
JP5224868B2 (ja) 情報推薦装置および情報推薦方法
JP6480925B2 (ja) 識別されたエンティティーに基づく属性値の取り出し
US20080033938A1 (en) Keyword outputting apparatus, keyword outputting method, and keyword outputting computer program product
US20110173174A1 (en) Linguistically enhanced search engine and meta-search engine
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
JP2010009577A (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
JP2004326216A (ja) 文書検索装置、方法、プログラム、及び記録媒体
US10242033B2 (en) Extrapolative search techniques
US10353974B2 (en) Methods and systems for refining search results
WO2014008965A1 (en) Information providing text reader
CN104050183A (zh) 浏览器输入框的内容匹配结果提示方法及装置
US20110270816A1 (en) Information Exploration
EP3084636A1 (en) Identifying semantically-meaningful text selections
KR20090083747A (ko) 웹 문서 요약 제공을 위한 사용자 단말 장치 및 웹 문서제공 방법
JP5179564B2 (ja) クエリセグメント位置決定装置
JP7413776B2 (ja) 情報処理装置、及びコンピュータプログラム
JP4948071B2 (ja) コンテンツ検索装置及びコンテンツ検索プログラム
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP2009237755A (ja) 関連語検索方法及び装置、関連語検索プログラム、コンテンツ検索方法及び装置、並びにコンテンツ検索プログラム
JP7238411B2 (ja) 情報処理装置及びプログラム
JP2007241635A (ja) 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
WO2020005654A1 (en) Automatically providing information in an application
JP6596302B2 (ja) コンテンツ検索システムおよびコンテンツ検索方法ならびにコンテンツ検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231211

R150 Certificate of patent or registration of utility model

Ref document number: 7413776

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150