JP2011100191A - Device, method, and program for retrieving document - Google Patents

Device, method, and program for retrieving document Download PDF

Info

Publication number
JP2011100191A
JP2011100191A JP2009252781A JP2009252781A JP2011100191A JP 2011100191 A JP2011100191 A JP 2011100191A JP 2009252781 A JP2009252781 A JP 2009252781A JP 2009252781 A JP2009252781 A JP 2009252781A JP 2011100191 A JP2011100191 A JP 2011100191A
Authority
JP
Japan
Prior art keywords
difficulty level
level
search
ranking
difficulty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009252781A
Other languages
Japanese (ja)
Inventor
Yumiko Matsuura
由美子 松浦
Nobuaki Hiroshima
伸章 廣嶋
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009252781A priority Critical patent/JP2011100191A/en
Publication of JP2011100191A publication Critical patent/JP2011100191A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a user with a retrieval result of suitable ranking according to a user's decoding level. <P>SOLUTION: When a query (a retrieval word) is input from a user terminal 12, a retrieval engine part 16 retrieves an electronic document group based on the query, and sets basic ranking to a plurality of electronic documents included in the retrieval according to a degree of association with the query. A difficulty degree giving part 17 gives a degree of difficulty associated with the decoding level, to each of the plurality of electronic documents included in the retrieval using a difficulty degree dictionary 18. A ranking adjusting part 23 adjusts ranking according to the decoding level and the degree of difficulty so that the electronic document with the degree of difficulty corresponding to the user's decoding level preferentially has the high ranking. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、電子文書の検索技術に関し、特に、検索結果に含まれる複数の電子文書に対して、利用者の解読レベルに応じて適切なランキングを付与する技術に関する。   The present invention relates to an electronic document search technique, and more particularly to a technique for assigning an appropriate ranking to a plurality of electronic documents included in a search result according to a user's decoding level.

周知のように、携帯端末やパーソナルコンピュータなどのクライアントコンピュータを利用してインターネットなどで接続されたサーバコンピュータにクエリ(検索語,キーワードとも呼ぶ)を投入し、電子文書群からクエリに関連する検索結果を取得する文書検索システムは、現在多くの利用者に用いられている。   As is well known, a query (also called a search term or keyword) is input to a server computer connected via the Internet using a client computer such as a mobile terminal or a personal computer, and a search result related to the query from an electronic document group. The document retrieval system for acquiring the URL is currently used by many users.

このような文書検索システムでは、利用者が自分の最終目的としている情報を得るために、情報に関連しそうなクエリを指定して検索を実施するが、その際、一般的には、情報を欲している利用者の経験,知識や言語のレベルなどの解読レベルに関係なく検索処理が行われ、クエリに関連する複数の電子文書が所定のランキング(表示順序)で利用者に返却・表示される。このため、例えば利用者が子供である場合など、利用者の解読レベルに比して表示される電子文書の難易度が高い場合、検索語に対して関連度の高い電子文書であっても、電子文書の内容が理解できない、あるいは理解を深めるのに時間を要する、という不具合を生じる。   In such a document search system, in order to obtain information that the user is aiming for, the user specifies a query that seems to be related to the information, and in general, the user wants the information. Search processing is performed regardless of the user's experience, knowledge and language level, etc., and multiple electronic documents related to the query are returned and displayed to the user in a predetermined ranking (display order) . For this reason, for example, when the difficulty of the electronic document displayed is high compared to the decoding level of the user, such as when the user is a child, even if the electronic document is highly relevant to the search term, There arises a problem that the contents of the electronic document cannot be understood or it takes time to deepen the understanding.

一方、セキュリティ上の問題などにより、好ましくない類のサイトを予めカテゴリ分けして登録しておき、子供向けには提示しない等のフィルタをかけて返却するものも知られており、このようなフィルタ処理に関連する技術が例えば特許文献1に開示されている。また特許文献2には、利用者と対話型の情報交換を行い、その利用者の情報に基づいて検索結果を検査し、不適切な情報をフィルタ処理により除外してから、利用者に検索結果を提供する技術が記載されている。   On the other hand, it is also known that, due to security problems, unfavorable types of sites are registered in categories and returned with a filter such as not presenting to children. For example, Patent Document 1 discloses a technique related to processing. In Patent Document 2, interactive information exchange is performed with a user, a search result is inspected based on the information of the user, inappropriate information is filtered out, and a search result is sent to the user. Techniques for providing are described.

特許第3605343号公報Japanese Patent No. 3605343 特開2001−222538号公報JP 2001-222538 A

しかしながら、上述したように利用者の解読レベルに関係なく検索処理が行われるものでは、利用者の解読レベルが文書の難易度に比して低い場合に、その文書に有益な情報が含まれていたとしても、例えば利用者が子供の場合には文書の内容が難し過ぎて理解できなかったり、あるいは専門の用語や新しい語句が多用されており、専門外の利用者にとって理解を深めるのに時間を要するなどの問題があった。   However, as described above, in the case where the search process is performed regardless of the user's decoding level, if the user's decoding level is lower than the difficulty level of the document, the document contains useful information. Even if, for example, the user is a child, the content of the document is too difficult to understand, or specialized terms and new phrases are used frequently, so it is time to deepen understanding for non-specialist users. There was a problem such as requiring.

また、所定のコミュニティに属さない利用者が検索した結果、あるコミュニティの中だけで通じるような語句を多用している文書が結果として得られると、その内容を理解できないといった事態を招くことも考えられる。例えば、高校生のコミュニティの情報を、それ以外の属性を持つ利用者が読む際に、その内容が理解できないケース、あるいは、パソコンの知識が少ない利用者が、パソコンについて習熟している利用者向けの文書を結果として与えられても、語句が解らずに理解できないおそれがある。   In addition, as a result of a search by a user who does not belong to a given community, if a document that uses a lot of words and phrases that can be understood only within a certain community is obtained as a result, it may be considered that the content cannot be understood. It is done. For example, when a user with other attributes reads high school student community information, or when a user with little knowledge of a computer is familiar with the computer, Even if a document is given as a result, it may not be understood without understanding the word.

一方、前記特許文献1や特許文献2に記載のようにフィルタ処理を行うものでは、例えば子供にとって好ましくないサイトカテゴリとしてゲームサイトが登録されている場合、子供がゲームソフトを検索した結果、当該ゲームソフトの情報が含まれていても、そのサイトカテゴリがゲームサイトである場合には、検索結果に含まれず、有益な情報を利用者に提供できなくなるおそれがある。   On the other hand, in the case where the filtering process is performed as described in Patent Document 1 and Patent Document 2, for example, when a game site is registered as a site category that is not preferable for a child, as a result of the child searching for game software, Even if software information is included, if the site category is a game site, it is not included in the search results, and there is a possibility that useful information cannot be provided to the user.

本発明は、このような課題に鑑みてなされたものであり、利用者の解読レベルに応じた適切なランキング(表示順序)で検索結果を利用者に提供することを目的としている。   The present invention has been made in view of such a problem, and an object of the present invention is to provide search results to the user with an appropriate ranking (display order) according to the decoding level of the user.

そこで本発明の一態様では、利用者により入力されたクエリに基づいて電子文書群を検索し、検索結果に含まれる電子文書に対して前記クエリに対する関連度に応じてランキングを設定する検索手段と、利用者の解読レベルを判定する解読レベル判定手段と、少なくとも検索結果に含まれる電子文書に対し、前記解読レベルに関連する難易度を付与する難易度付与手段と、前記難易度と前記解読レベルとに応じて前記ランキングを調整し、解読レベルに応じた難易度の電子文書を優先的にランキング上位に位置させるランキング調整手段と、を有することを特徴としている。   Therefore, in one aspect of the present invention, search means for searching for an electronic document group based on a query input by a user and setting a ranking for the electronic document included in the search result according to the degree of relevance to the query; A decryption level determination means for determining a decryption level of the user, a difficulty level giving means for assigning a difficulty level related to the decryption level to at least an electronic document included in the search result, and the difficulty level and the decryption level And ranking adjustment means for preferentially positioning an electronic document having a difficulty level corresponding to the level of decoding according to the ranking.

「解読レベル」は、例えば、年齢,職業,性別などの個々のパラメータに応じて数値(0〜100%)や段階的なレベル(子供、学生、大人など)として設定され、利用者に入力させてもよく、あるいは検索結果や閲覧時間等に基づいて推定することもできる。「難易度」は、利用者の解読レベルに対応するもので、解読レベルと同様、年齢,職業,性別などの個々のパラメータに応じて数値(0〜100%)や段階的なレベル(子供、学生、大人など)として設定される。   The “decoding level” is set as a numerical value (0 to 100%) or a stepped level (child, student, adult, etc.) according to individual parameters such as age, occupation, gender, etc. Alternatively, it can be estimated based on a search result, a browsing time, or the like. “Difficulty” corresponds to the user's decoding level. Like the decoding level, the “difficulty level” depends on individual parameters such as age, occupation, gender, etc. Student, adult, etc.).

このように本発明では、クエリに応じて検索された複数の電子文書のうち、利用者の経験,知識や言語のレベルなどの解読レベルに応じた難易度の電子文書を優先的にランキング上位となる形で利用者に返却・提示することが可能となり、利用者が情報を解読,理解する効率を大幅に向上することができる。   As described above, in the present invention, among the plurality of electronic documents searched according to the query, the electronic documents having the difficulty level according to the level of decoding such as the user's experience, knowledge and language level are preferentially ranked high. It is possible to return and present it to the user in this way, and the efficiency for the user to decode and understand the information can be greatly improved.

また、利用者の解読レベルに応じてランキングを調整するものであるため、上述したフィルタ処理のように一部の電子文書が検索結果から除外されるようなことがない。このため、解読レベルに適合する難易度の電子文書がランキング上位に優先的に配置されることで、有益な情報が含まれた電子文書のランキングが低下することはあっても、利用者が電子文書を順次参照していくことで、この有益な情報が含まれる電子文書を比較的容易に見つけ出すことができる。   In addition, since the ranking is adjusted according to the user's decoding level, some electronic documents are not excluded from the search results as in the filter processing described above. For this reason, even if the electronic document with the difficulty level that matches the decryption level is preferentially placed at the top of the ranking, the ranking of the electronic document containing useful information may be lowered, but the user can By sequentially referring to the document, an electronic document including this useful information can be found relatively easily.

好ましくは、前記難易度付与手段は、更に、前記電子文書群を検索して、前記難易度に関連する情報を取得し、このような難易度に関連する情報に基づいて、難易度辞書を生成する難易度辞書生成手段と、前記難易度辞書を利用して、各電子文書の難易度を判定する難易度判定手段と、を有している。このように、難易度辞書を利用することで、各電子文書の難易度をより精度良く迅速に判定することが可能となる。   Preferably, the difficulty level assigning unit further searches the electronic document group to acquire information related to the difficulty level, and generates a difficulty level dictionary based on the information related to the difficulty level. The difficulty level dictionary generating means for performing the difficulty level determination means for determining the difficulty level of each electronic document using the difficulty level dictionary. Thus, by using the difficulty level dictionary, it is possible to determine the difficulty level of each electronic document more accurately and quickly.

なお、本発明は、上述した文書検索装置としてコンピュータを機能させるプログラムの態様としてもよく、このプログラムは記録媒体に記録した態様でもよい。   The present invention may be in the form of a program that causes a computer to function as the document search apparatus described above, and this program may be recorded in a recording medium.

本発明によれば、利用者の解読レベルと検索結果に含まれる複数の電子文書それぞれの難易度とに応じて、当該検索結果に含まれる複数の電子文書のランキングを調整することで、利用者の解読レベルに応じた難易度を持つ電子文書を優先的に提供することができる。この結果、利用者が情報を解読,理解する効率を大幅に向上することができる。   According to the present invention, the user can adjust the ranking of the plurality of electronic documents included in the search result according to the user's decoding level and the difficulty level of each of the plurality of electronic documents included in the search result. It is possible to preferentially provide an electronic document having a difficulty level corresponding to the level of decryption. As a result, the efficiency with which the user decodes and understands the information can be greatly improved.

本発明の一実施形態に係る文書検索装置を示す構成図。1 is a configuration diagram showing a document search apparatus according to an embodiment of the present invention. 前記実施形態の難易度付与部の処理内容を示す構成図。The block diagram which shows the processing content of the difficulty level provision part of the said embodiment. 前記実施形態の検索エンジン部及びランキング調整部の処理内容を示す構成図。The block diagram which shows the processing content of the search engine part and ranking adjustment part of the said embodiment.

以下、本発明の一実施形態に係る文書検索装置を図面を参照して説明する。   A document search apparatus according to an embodiment of the present invention will be described below with reference to the drawings.

図1を参照して、この文書検索装置10は、ユーザー端末12とインターネットなどのネットワーク経由でデータ送受信可能に接続されたWebサーチエンジン(いわゆる検索エンジン)のシステムを構成している。   Referring to FIG. 1, this document search apparatus 10 constitutes a system of a Web search engine (so-called search engine) connected to a user terminal 12 through a network such as the Internet so as to be able to send and receive data.

ユーザー端末12は、例えばパーソナルコンピュータ(PC)12Aや携帯電話12Bなどのモバイル端末により構成され、文書検索のための検索インタフェース部24を表示するブラウザと、検索インタフェース24にクエリ(検索キーワード群)入力を行うキーボードやタッチパネルなどの入力部を有していればよい。   The user terminal 12 is configured by a mobile terminal such as a personal computer (PC) 12A or a mobile phone 12B, for example. A browser that displays a search interface unit 24 for document search and a query (search keyword group) input to the search interface 24 What is necessary is just to have input parts, such as a keyboard and a touch panel which perform.

具体的には、文書検索装置10は、通常のコンピュータのハードウェアリソース、例えばCPU,メモリ(RAM),ハードディスクドライブ装置,通信デバイスなどを備える。単数あるいは複数のサーバー等のハードウェアリソースとソフトウェアリソースとの協働の結果、文書検索装置10は、電子文書群の検索処理や検索結果のランキング設定・調整処理などを実施する各部13〜19,23,24を実装する。なお、図1中では、一例として各部13〜19,23,24を、検索対象の電子文書群から検索エンジンのインデックス情報および検索結果のランキング調整に利用する難易度を求める事前処理11Aと、ユーザー端末12からの検索処理命令時に検索結果のランキングを調整する検索リクエスト投入時処理11Bとに大別して示されている。   Specifically, the document search apparatus 10 includes hardware resources of a normal computer such as a CPU, a memory (RAM), a hard disk drive device, a communication device, and the like. As a result of cooperation between hardware resources such as one or a plurality of servers and software resources, the document search apparatus 10 performs each of the units 13 to 19 for performing electronic document group search processing, search result ranking setting / adjustment processing, and the like. 23 and 24 are implemented. In FIG. 1, as an example, a pre-processing 11 </ b> A for obtaining the degree of difficulty in which each unit 13 to 19, 23, 24 is used to adjust search engine index information and search result ranking from a search target electronic document group, and a user This is broadly divided into search request input processing 11B that adjusts the ranking of search results when a search processing command is issued from the terminal 12.

詳細を説明すれば、文書検索装置10は、検索エンジンの構成要素として、インターネットから文書を収集する文書収集部13と、収集された文書に含まれる語句や頻度等のインデックス情報を各文書に付与するインデックス付与部14と、検索対象となる電子文書群を格納するとともに、各文書に含まれる語句や頻度等のインデックス情報を保持する検索用データ格納部15と、利用者による検索要求(検索リクエスト)に応じて、検索語(クエリ)に関連する複数の電子文書を検索するとともに、検索結果に含まれる複数の電子文書に対し、検索語との一致度・関連度に対応した基本ランキングを設定する検索エンジン部16と、を有している。このような検索エンジンの機能や構成は公知であり、ここでは詳細な説明は省略するが、簡易的に、例えばgoogle(登録商標)など既存の検索エンジンを利用することもできる。   More specifically, the document search apparatus 10 provides a document collection unit 13 that collects documents from the Internet and index information such as phrases and frequencies included in the collected documents to each document as components of the search engine. A search data storage unit 15 that stores index information such as words and phrases included in each document and a search request (search request by a user) ) To search for multiple electronic documents related to the search term (query), and set the basic ranking corresponding to the degree of matching / relevance with the search term for the multiple electronic documents included in the search results And a search engine unit 16. The functions and configurations of such a search engine are well known, and detailed description is omitted here, but an existing search engine such as Google (registered trademark) can be used simply.

また、文書検索装置10は、難易度辞書18を生成・更新するとともに、この難易度辞書18を利用して、個々の電子文書に対し、解読レベルに対応した難易度を付与する難易度付与部17を有している。   Further, the document search device 10 generates / updates the difficulty level dictionary 18, and uses the difficulty level dictionary 18 to give a difficulty level assigning unit that gives a difficulty level corresponding to the decryption level to each electronic document. 17.

図2に示すように、この難易度付与部17は、難易度辞書生成部20と難易度判定部21とを有している。難易度辞書生成部20では、インターネットから収集された電子文書に対して、文書内の語句の出現頻度等の通常の検索エンジンが扱う基本ランキングを設定するための情報に加え、電子文書の難易度に関する特徴量などの、難易度を判定するための情報に基づいて、難易度辞書18を生成・更新する(難易度辞書生成ステップ)。一例として、難易度辞書生成部20では、難易度付与要求があると、インターネット等から収集した文書の中から、文書作成者の年齢、外部サイトからのリンク状況等、言語の解読レベル・難易度に関係が深い情報を含む文書を集め、それら情報の他、専門用語の種類や頻度等によって推定される専門度や語句のベクトル等の特徴量から、難易度の情報を生成し、難易度辞書18に格納する。   As shown in FIG. 2, the difficulty level assigning unit 17 includes a difficulty level dictionary generating unit 20 and a difficulty level determining unit 21. In the difficulty level dictionary generation unit 20, in addition to information for setting a basic ranking that is handled by a normal search engine, such as the frequency of occurrence of words and phrases in an electronic document collected from the Internet, the difficulty level of the electronic document The difficulty level dictionary 18 is generated / updated on the basis of information for determining the difficulty level, such as the feature amount related to the difficulty level (difficulty level dictionary generation step). As an example, when the difficulty level dictionary generation unit 20 makes a difficulty level assignment request, the language decoding level / difficulty level, such as the document creator's age, link status from an external site, etc., is collected from documents collected from the Internet or the like. Collecting documents that contain information that is closely related to, creating difficulty information from features, feature values such as expertise and word vectors estimated based on the type and frequency of technical terms, and a difficulty dictionary 18.

このようにして生成・更新される難易度辞書18には、難易度に対応した語句の出現頻度や難易度の特徴量等が難易度の度合いに応じた形で格納されている。例えば、年齢に応じて難易度Slが複数のレベル(子供、学生、大人など)に段階的に設定されている場合、各レベル毎に、そのレベルに応じた語句及びその出現頻度や難易度の特徴量等が格納される。   In the difficulty level dictionary 18 generated / updated in this way, the appearance frequency of words / phrases corresponding to the difficulty level, the feature amount of the difficulty level, and the like are stored according to the level of the difficulty level. For example, if the difficulty S1 is set in stages according to age, the level of words and the frequency of appearance and difficulty according to the level are set for each level. Feature quantities and the like are stored.

なお、辞書生成方法としては、難易度に応じた語句や特徴量などの情報を取得できる態様のものであれば、前記の方法に限られない。例えば、難易度の情報を含む漢字辞書等といった各種辞書の情報から、難易度の各レベル毎に解読可能な語句の一覧を生成し、これを難易度辞書18に格納するものであっても良い。あるいは、利用者の解読レベルに適合した語句などを予め選別しておき、それらの語句と共起頻度の高い語句を、該当する難易度のレベルに属する語句として、難易度辞書に格納する方法等であっても良い。   Note that the dictionary generation method is not limited to the above method as long as it can acquire information such as words and features according to the degree of difficulty. For example, a list of words that can be deciphered for each level of difficulty is generated from information of various dictionaries such as a kanji dictionary that includes information on the difficulty, and this may be stored in the difficulty dictionary 18. . Alternatively, a method of preliminarily selecting words and the like suitable for the decoding level of the user, and storing the words having high co-occurrence with those words as words belonging to the corresponding difficulty level in the difficulty dictionary It may be.

難易度判定部21では、インターネット等から収集した検索結果として提示する文書に対し、難易度辞書18を用いて、文書毎の難易度Slを判定・付与する(難易度判定ステップ)。予め文書毎の難易度Slを付与する場合、難易度Slを検索実行時に参照できる形で、難易度処理用の難易度インデックス19のデータベースを予め用意して格納する。この難易度インデックス19は、文書毎の難易度Slを取り出すことができるものであれば処理速度等に応じて適切な形のもので良く、例えば、検索エンジンにおいて各文書に対して検索用データ格納部15に保持するインデックスの一部として格納する方法であっても良い。このインデックスの生成により難易度付与部17の処理ステップは終了する。   The difficulty level determination unit 21 uses the difficulty level dictionary 18 to determine and assign a difficulty level Sl for each document to a document presented as a search result collected from the Internet or the like (difficulty level determination step). When the difficulty level Sl for each document is assigned in advance, a difficulty level index 19 database for difficulty level processing is prepared and stored in advance so that the difficulty level Sl can be referred to at the time of search execution. The difficulty index 19 may be in an appropriate form according to the processing speed or the like as long as the difficulty S1 can be extracted for each document. For example, the search engine stores search data for each document. It may be stored as a part of the index held in the unit 15. The processing step of the difficulty level assigning unit 17 ends with the generation of the index.

難易度付与部17の処理方法としては、上述したように事前に各文書に付与しておくものの他、検索エンジンにより検索された電子文書に対して逐次計算する方法であっても良い。また、難易度付与部17における難易度辞書生成部20や難易度判定部21の処理それぞれについても、事前に実施する形の他、検索時に逐次計算するものであってもよく、この場合、最新の状態を反映でき、情報鮮度に優れるという利点がある。なお、全ての文書について逐次処理をやり直すのではなく、例えば検索結果に含まれる文書情報のみを計算して反映するようにしてもよく、更には、文書量や処理速度、必要とされる情報の鮮度等に応じて処理内容を調整したり実施機会を変える等、適切な手法を採用することができる。 図1を参照して、検索インタフェース部24を説明する。文書検索装置10は、検索インタフェース部24をインターネット経由でユーザー端末12のブラウザ上に表示させる。利用者は、検索インタフェース部24に対して検索したいキーワード群、即ちクエリを入力して検索処理を要求する。このとき検索インタフェース24を通じて、利用者からの入力あるいは事前に図示省略のユーザーDBなどに保持している利用者の情報(年齢・性別等)、利用者の履歴(経歴など)等から推定するなどにより、利用者の解読レベルを得る(解読レベル判定ステップ)。解読レベルは、上述した各文書毎に設定される難易度Slに対応するものであって、例えば、難易度Slと同様、年齢に応じて複数のレベル(子供、学生、大人など)に設定される。このような解読レベルと難易度との組み合わせは1つである必要はなく、例えば年齢による組み合わせの他、所定の専門分野の知識や経験の度合いによる組み合わせなど、複数の組み合わせを併用するようにしても良い。なお、利用者の解読レベルを得る方法は前記の手法に限られるものではなく、例えば特許文献2に記載のように、検索アシスタントを利用して検索時に利用者の解読レベルを判定するものであっても良い。   The processing method of the difficulty level assigning unit 17 may be a method of sequentially calculating an electronic document searched by a search engine, in addition to the method previously given to each document as described above. In addition, each of the processing of the difficulty level dictionary generation unit 20 and the difficulty level determination unit 21 in the difficulty level assigning unit 17 may be sequentially calculated at the time of search in addition to the form performed in advance. Can be reflected, and there is an advantage that information freshness is excellent. Instead of re-sequentially processing all the documents, for example, only the document information included in the search result may be calculated and reflected. Furthermore, the amount of documents, the processing speed, and the required information Appropriate techniques can be employed, such as adjusting the processing content according to the freshness or the like, or changing the implementation opportunity. The search interface unit 24 will be described with reference to FIG. The document search apparatus 10 displays the search interface unit 24 on the browser of the user terminal 12 via the Internet. A user inputs a keyword group to be searched, that is, a query to the search interface unit 24 and requests a search process. At this time, it is estimated from the user's information (age, gender, etc.), the user's history (history, etc.), etc. that are input through the search interface 24 or in advance in a user DB (not shown), etc. Thus, the decryption level of the user is obtained (decoding level determination step). The decryption level corresponds to the difficulty level Sl set for each document described above, and is set to a plurality of levels (children, students, adults, etc.) according to the age, for example, as with the difficulty level Sl. The There is no need for such a combination of the decoding level and the difficulty level. For example, in addition to a combination based on age, a plurality of combinations such as a combination based on a degree of knowledge or experience in a predetermined specialized field may be used together. Also good. Note that the method for obtaining the user's decryption level is not limited to the above-described method. For example, as described in Patent Document 2, a search assistant is used to determine the user's decryption level at the time of retrieval. May be.

利用者がユーザー端末12を通じてクエリ入力し検索を要求すると、検索インタフェース部24から入力されたクエリおよび利用者の解読レベルがランキング調整部23に渡される。このクエリは、ランキング調整部23から検索エンジン部16に渡される。   When a user inputs a query through the user terminal 12 and requests a search, the query input from the search interface unit 24 and the decoding level of the user are passed to the ranking adjustment unit 23. This query is passed from the ranking adjustment unit 23 to the search engine unit 16.

図3に示すように、検索エンジン部16では、このクエリに対する検索結果として、クエリを含む複数の電子文書のIDと、これら各電子文書の基本のランキングスコアSrとをランキング調整部23に返却する(検索ステップ)。すなわち、検索エンジン部16によって、クエリに対する関連度・一致度(マッチ度)や、文書中でのクエリの重要性等を加味して文書毎に基本ランキングスコアSrが与えられており、基本的には、このスコアSrの高い順でランキングがなされる。つまり基本ランキングスコアSrが高いほど表示順序が上位となり、優先的に表示される。但し、本実施形態においては、ランキング調整部23を通じて、解読レベルと各文書の難易度に応じてランキングが調整され、調整後のランキングで利用者に返却・表示されることとなる。   As shown in FIG. 3, the search engine unit 16 returns the IDs of a plurality of electronic documents including the query and the basic ranking score Sr of each electronic document to the ranking adjusting unit 23 as a search result for the query. (Search step). That is, the search engine unit 16 gives the basic ranking score Sr for each document in consideration of the relevance / matching degree (matching degree) to the query and the importance of the query in the document. Are ranked in descending order of the score Sr. That is, the higher the basic ranking score Sr, the higher the display order, and the higher priority is displayed. However, in the present embodiment, the ranking is adjusted through the ranking adjusting unit 23 according to the decoding level and the difficulty level of each document, and the adjusted ranking is returned and displayed to the user.

具体的には、ランキング調整部23では、検索エンジン部16から検索結果(クエリを含む複数の電子文書のID・各文書の基本ランキングスコアSr)が返却されると、難易度インデックス19を参照して検索結果の文書ID毎に難易度Slを取得する。そして、ランキング調整部23では、前記の検索エンジン部16より返却された検索結果を構成する各電子文書に対し、検索インタフェース部24を通じて得られた利用者の解読レベルと、難易度インデックス19から取得した難易度とに応じて前記の基本ランキングスコアSrを調整し、最終的なランキングスコアSriを得る(ランキング調整ステップ)。   Specifically, the ranking adjustment unit 23 refers to the difficulty index 19 when the search results (ID of a plurality of electronic documents including a query and basic ranking score Sr of each document) are returned from the search engine unit 16. Then, the difficulty level Sl is acquired for each document ID of the search result. Then, the ranking adjustment unit 23 obtains from the user decryption level obtained through the search interface unit 24 and the difficulty index 19 for each electronic document constituting the search result returned from the search engine unit 16. The basic ranking score Sr is adjusted according to the degree of difficulty, and a final ranking score Sri is obtained (ranking adjustment step).

このようなランキング調整の一例として、検索結果の複数の電子文書毎に、利用者の解読レベルに応じた難易度Slと、検索エンジンから取得した文書のランキングスコアSiと、の線形和を計算する。つまり、利用者の解読レベルと一致する難易度Slに適宜な重み付けを加えた上で、ランキングスコアSiに加算して、各電子文書の最終的な返却ランキングスコアSriを算出する。あるいは、利用者の解読レベルとの合致度合いが高いほど難易度Slの点数が高くなるように、解読レベルとの合致度合いに応じて難易度Slの重み付けを調整するようにしても良い。これらを検索エンジンから取得した全文書に対して計算することで、検索された全ての電子文書の最終的なランキングスコアSriを求め、ランキングスコアSriの高い順に検索結果をソートする。ここでソートされた検索結果は、ユーザー端末12に送信され、検索インタフェース部24を介して、ブラウザに表示される。   As an example of such ranking adjustment, for each of a plurality of electronic documents in the search result, a linear sum of the difficulty level Sl according to the user's decoding level and the document ranking score Si obtained from the search engine is calculated. . That is, an appropriate weight is added to the difficulty level Sl that matches the user's decoding level, and then added to the ranking score Si to calculate the final return ranking score Sri of each electronic document. Alternatively, the weight of the difficulty level Sl may be adjusted according to the degree of coincidence with the decryption level so that the score of the difficulty level Sl increases as the degree of coincidence with the decryption level of the user increases. By calculating these for all the documents acquired from the search engine, the final ranking score Sri of all searched electronic documents is obtained, and the search results are sorted in descending order of the ranking score Sri. The search results sorted here are transmitted to the user terminal 12 and displayed on the browser via the search interface unit 24.

なお、最終的なランキングスコアSriの計算手法は、検索エンジンから取得した電子文書と、その基本ランキングスコアSrと、これらの電子文書の難易度Slと、利用者の解読レベルと、を組み合わせた計算方法であるという条件を満たせば、上述した手法のものに限られない。   The final ranking score Sri is calculated by combining the electronic documents obtained from the search engine, the basic ranking score Sr, the difficulty S1 of these electronic documents, and the user's decoding level. If the condition of the method is satisfied, the method is not limited to that described above.

以上のように本実施形態では、クエリに応じて検索に含まれる検索結果に対し、利用者の経験,知識や言語のレベルなどの解読レベルに応じた難易度の電子文書を優先的にランキング上位となる形で利用者に返却・提示することで、利用者が情報を解読,理解する効率を大幅に向上することができる。   As described above, in the present embodiment, the electronic documents having the difficulty level corresponding to the level of decoding such as the user's experience, knowledge and language level are preferentially ranked for the search results included in the search according to the query. By returning and presenting it to the user in this way, the efficiency with which the user can decode and understand the information can be greatly improved.

また、利用者の解読レベルに応じてランキングを調整するものであるため、上述したフィルタ処理のように一部の電子文書が検索結果から除外されるようなことがない。このため、解読レベルに適合する難易度の電子文書がランキング上位に優先的に配置されることで、有益な情報が含まれた電子文書のランキングが低下することはあっても、利用者が電子文書を順次参照していくことで、この有益な情報が含まれる電子文書に確実にアクセス可能である。更に、予め難易度辞書を作成・更新しておくことで、各電子文書の難易度をより精度良く迅速に判定することが可能となる。   In addition, since the ranking is adjusted according to the user's decoding level, some electronic documents are not excluded from the search results as in the filter processing described above. For this reason, even if the electronic document with the difficulty level that matches the decryption level is preferentially placed at the top of the ranking, the ranking of the electronic document containing useful information may be lowered, but the user can By sequentially referring to the document, it is possible to reliably access the electronic document including this useful information. Furthermore, by creating and updating the difficulty level dictionary in advance, it becomes possible to determine the difficulty level of each electronic document more accurately and quickly.

なお、本発明は、上述した文書検索装置10の各部13,14,16,17,20,21,23,24の処理内容の一部もしくは全部として、コンピュータを機能させるプログラムとして構成することもできる。このプログラムにより、前記各処理内容の一部あるいは全てをコンピュータに実行させることができる。   Note that the present invention can also be configured as a program that causes a computer to function as a part or all of the processing contents of the units 13, 14, 16, 17, 20, 21, 21, 23, and 24 of the document search apparatus 10 described above. . With this program, a part or all of the processing contents can be executed by a computer.

このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。   This program can be provided through a network such as a website or e-mail. The program is recorded on a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, Blu-ray Disk (registered trademark). It is also possible to save and distribute. This recording medium is read using a recording medium driving device, and the program code itself realizes the processing of the above embodiment, so that the recording medium also constitutes the present invention.

10…文書検索装置
12…ユーザー端末
16…検索エンジン部(検索手段)
17…難易度付与部(難易度付与手段)
18…難易度辞書
21…難易度判定部(難易度判定手段)
23…ランキング調整部(ランキング調整手段)
24…検索インタフェース部(解読レベル判定手段)
DESCRIPTION OF SYMBOLS 10 ... Document search device 12 ... User terminal 16 ... Search engine part (search means)
17 ... Difficulty level giving unit (difficulty level giving means)
18 ... Difficulty level dictionary 21 ... Difficulty level determination unit (difficulty level determination means)
23 ... Ranking adjustment section (ranking adjustment means)
24 ... Search interface section (decoding level determination means)

Claims (5)

利用者により入力されたクエリに基づいて電子文書群を検索し、検索結果に含まれる電子文書に対して前記クエリに対する関連度に応じてランキングを設定する検索手段と、
利用者の解読レベルを判定する解読レベル判定手段と、
少なくとも検索結果に含まれる電子文書に対し、前記解読レベルに関連する難易度を付与する難易度付与手段と、
前記難易度と前記解読レベルとに応じて前記ランキングを調整し、解読レベルに応じた難易度の電子文書を優先的にランキング上位に位置させるランキング調整手段と、
を有することを特徴とする文書検索装置。
Search means for searching for an electronic document group based on a query input by a user, and setting a ranking according to the degree of relevance to the query for the electronic document included in the search result;
A decryption level judging means for judging a decryption level of the user;
Difficulty level giving means for giving a difficulty level related to the decoding level to at least an electronic document included in the search result;
Ranking adjustment means for adjusting the ranking according to the difficulty level and the decoding level, and preferentially positioning the electronic document with the difficulty level according to the decoding level at the top of the ranking;
A document search apparatus characterized by comprising:
前記難易度付与手段は、
前記電子文書群から前記難易度に関連する情報を取得し、これら難易度に関連する情報に基づいて、難易度辞書を生成する難易度辞書生成手段と、
前記難易度辞書を参照して、各電子文書の難易度を判定する難易度判定手段と、
を有することを特徴とする請求項1に記載の文書検索装置。
The difficulty level giving means is:
Difficulty level dictionary generating means for acquiring information related to the difficulty level from the electronic document group, and generating a difficulty level dictionary based on the information related to the difficulty level;
A difficulty level determination means for determining the difficulty level of each electronic document with reference to the difficulty level dictionary;
The document search apparatus according to claim 1, further comprising:
検索手段が、利用者により入力されたクエリに基づいて電子文書群を検索し、検索結果に含まれる電子文書に対して前記クエリに対する関連度に応じてランキングを設定する検索ステップと、
解読レベル判定手段が、利用者の解読レベルを判定する解読レベル判定ステップと、
難易度付与手段が、少なくとも検索結果に含まれる電子文書に対し、前記解読レベルに関連する難易度を付与する難易度付与ステップと、
ランキング調整手段が、前記難易度と前記解読レベルとに応じて前記ランキングを調整し、解読レベルに応じた難易度の電子文書を優先的にランキング上位に位置させるランキング調整ステップと、
を有することを特徴とする文書検索方法。
A search step in which the search means searches the electronic document group based on the query input by the user, and sets a ranking according to the degree of relevance to the query for the electronic document included in the search result;
A decryption level determination means for determining a decryption level of the user;
A difficulty level assigning step in which the difficulty level assigning means assigns a difficulty level related to the decoding level to at least an electronic document included in the search result;
A ranking adjustment step, wherein the ranking adjustment means adjusts the ranking according to the difficulty level and the decoding level, and ranks the electronic document with the difficulty level according to the decoding level preferentially positioned at the top of ranking
A document search method characterized by comprising:
前記難易度付与ステップが、
前記電子文書群から前記難易度に関連する情報を取得し、これら難易度に関連する情報に基づいて、難易度辞書を生成する難易度辞書生成ステップと、
前記難易度辞書を参照して、各電子文書の難易度を判定する難易度判定ステップと、
を有することを特徴とする請求項3に記載の文書検索方法。
The difficulty level assigning step includes:
A difficulty level dictionary generating step of acquiring information related to the difficulty level from the electronic document group and generating a difficulty level dictionary based on the information related to the difficulty level;
A difficulty level determination step of determining the difficulty level of each electronic document with reference to the difficulty level dictionary;
The document search method according to claim 3, further comprising:
請求項1又は請求項2に記載の文書検索装置を構成する前記各手段としてコンピュータを機能させるための文書検索プログラム。   A document search program for causing a computer to function as each of the means constituting the document search device according to claim 1.
JP2009252781A 2009-11-04 2009-11-04 Device, method, and program for retrieving document Pending JP2011100191A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009252781A JP2011100191A (en) 2009-11-04 2009-11-04 Device, method, and program for retrieving document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009252781A JP2011100191A (en) 2009-11-04 2009-11-04 Device, method, and program for retrieving document

Publications (1)

Publication Number Publication Date
JP2011100191A true JP2011100191A (en) 2011-05-19

Family

ID=44191331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009252781A Pending JP2011100191A (en) 2009-11-04 2009-11-04 Device, method, and program for retrieving document

Country Status (1)

Country Link
JP (1) JP2011100191A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015069235A (en) * 2013-09-26 2015-04-13 大日本印刷株式会社 Information processing device and information processing method
JP2015514266A (en) * 2012-04-11 2015-05-18 インテル コーポレイション User interface content optimization system
JP2020126262A (en) * 2016-01-28 2020-08-20 グーグル エルエルシー Adaptive text-to-speech outputs
JP2020154628A (en) * 2019-03-19 2020-09-24 富士ゼロックス株式会社 Document search result presentation apparatus and program, and document search result presentation system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015514266A (en) * 2012-04-11 2015-05-18 インテル コーポレイション User interface content optimization system
JP2015069235A (en) * 2013-09-26 2015-04-13 大日本印刷株式会社 Information processing device and information processing method
JP2020126262A (en) * 2016-01-28 2020-08-20 グーグル エルエルシー Adaptive text-to-speech outputs
JP2021144759A (en) * 2016-01-28 2021-09-24 グーグル エルエルシーGoogle LLC Adaptive text-to-speech output
JP7202418B2 (en) 2016-01-28 2023-01-11 グーグル エルエルシー Adaptive text-to-speech output
US11670281B2 (en) 2016-01-28 2023-06-06 Google Llc Adaptive text-to-speech outputs based on language proficiency
JP2020154628A (en) * 2019-03-19 2020-09-24 富士ゼロックス株式会社 Document search result presentation apparatus and program, and document search result presentation system
JP7334434B2 (en) 2019-03-19 2023-08-29 富士フイルムビジネスイノベーション株式会社 Document search result presentation device, program, and document search result presentation system

Similar Documents

Publication Publication Date Title
US11354356B1 (en) Video segments for a video related to a task
US9836511B2 (en) Computer-generated sentiment-based knowledge base
US8676829B2 (en) Methods and apparatus for generating a data dictionary
US7949643B2 (en) Method and apparatus for rating user generated content in search results
JP4587236B2 (en) Information search apparatus, information search method, and program
US20160098433A1 (en) Method for facet searching and search suggestions
US20130246440A1 (en) Processing a content item with regard to an event and a location
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
JP5013701B2 (en) Search device and search method
JP2003091552A (en) Retrieval requested information extraction method, its operating system and processing program of the same
JP5341847B2 (en) Search query recommendation method, search query recommendation device, search query recommendation program
Kumar Apache Solr search patterns
JP2011100191A (en) Device, method, and program for retrieving document
JP4640554B2 (en) Server apparatus, information processing method, and program
JP2015036923A (en) Assessment collection device, assessment ranking preparation device, method for assessment collection and program
JP4912384B2 (en) Document search device, document search method, and document search program
JP2010092357A (en) Facility-related information retrieval method and facility-related information retrieval system
JP4759600B2 (en) Text search device, text search method, text search program and recording medium thereof
AU2021289542B2 (en) Refining a search request to a content provider
JP5292336B2 (en) Knowledge amount estimation device, knowledge amount estimation method, and knowledge amount estimation program for each field of search system users
JP4675986B2 (en) Information sharing apparatus and information sharing program
JP5358481B2 (en) Document search apparatus, document search method, and document search program
JP2008102790A (en) Retrieval system
JP2011100302A (en) Ranking function generating device, ranking function generating method, and ranking function generation program
JP2011059947A (en) Device, method and program for generating ranking function