JP6524668B2 - Document retrieval apparatus, document retrieval method, program, - Google Patents

Document retrieval apparatus, document retrieval method, program, Download PDF

Info

Publication number
JP6524668B2
JP6524668B2 JP2015006014A JP2015006014A JP6524668B2 JP 6524668 B2 JP6524668 B2 JP 6524668B2 JP 2015006014 A JP2015006014 A JP 2015006014A JP 2015006014 A JP2015006014 A JP 2015006014A JP 6524668 B2 JP6524668 B2 JP 6524668B2
Authority
JP
Japan
Prior art keywords
document
word
information
association
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015006014A
Other languages
Japanese (ja)
Other versions
JP2016133824A (en
Inventor
侑吾 西川
侑吾 西川
和久 大野
和久 大野
益丈 小沢
益丈 小沢
松本 征二
征二 松本
中川 修
修 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2015006014A priority Critical patent/JP6524668B2/en
Publication of JP2016133824A publication Critical patent/JP2016133824A/en
Application granted granted Critical
Publication of JP6524668B2 publication Critical patent/JP6524668B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複数の文書から関連性の高い文書または文書情報を検索するための文書検索装置等に関するものである。   The present invention relates to a document search apparatus and the like for searching for highly relevant documents or document information from a plurality of documents.

従来より、複数の情報から所望の情報を検索するための検索エンジン(例えば、google(登録商標)等)が存在する。   BACKGROUND Conventionally, a search engine (eg, google (registered trademark) or the like) for searching for desired information from a plurality of pieces of information exists.

特許文献1には、ユーザが単語を入力するごとに入力単語に関連する他の単語の検索を繰り返して生成された単語空間に基づいて、入力単語間に存在する単語または単語情報を提示する検索システムが記載されている。   Patent Document 1 discloses a search for presenting words or word information existing between input words based on a word space generated by repeating a search for other words related to the input word each time the user inputs a word. The system is described.

特開2012−123639号公報JP 2012-123639 A

しかしながら上述の特許文献1に記載の技術では、ユーザに提示される検索結果が入力単語間に限定されるため、ユーザが全く予想としていない新たな情報が得られることがなかった。   However, in the technology described in Patent Document 1 described above, search results presented to the user are limited between input words, and thus new information that the user does not expect at all has never been obtained.

本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、ユーザの選択した語と関連性の高い文書等を検索して、関連度合に応じた表示を行う文書検索装置等を提供するものである。   The present invention has been made in view of the above-described problems, and its object is to search for a document or the like highly relevant to the word selected by the user, and to perform a display according to the degree of association An apparatus etc. are provided.

前述の課題を解決するために第1の発明は、各文書、各文書に登場する単語情報又は各文書に関する情報である文書情報、及び、各文書と各単語情報との関連度である文書単語関連度又は各文書間の関連度である文書間関連度を記憶する記憶手段と、画面上に単語情報又は文書情報選択可能に表示する第1の表示手段と、単語情報が選択された場合には、前記文書単語関連度を参照して各文書との関連スコアを算出し、文書情報が選択された場合には、前記文書間関連度を参照して各文書との関連スコアを算出し、算出された関連スコアに基づいて、選択された単語情報又は文書情報と関連性の高い文書を抽出する抽出手段と、記抽出手段により抽出された文書の情報を前記画面上に表示する第2の表示手段と、を具備し、前記抽出手段は、選択されたことのある全ての単語情報又は文書情報に対して算出された関連スコアを文書毎にマージしたスコアリストを生成し、当該スコアリストに基づいて文書を抽出することを特徴とする文書検索装置である。 In order to solve the above-mentioned problems, a first invention relates to each document, document information which is information about each document or word information appearing in each document, and a document word which is a degree of association between each document and each word information storage means for storing a relevance or document relevancy is relevance between each document, first display means for selectably displaying the word information or document information on the screen, if the word information has been selected To calculate the association score with each document by referring to the document word association degree, and when document information is selected, calculate the association score with each document by referring to the inter-document association degree. , based on the calculated relevance score, the display extracting means for extracting a high document relevant with the selected word information or document information, the information before SL document extracted by the extraction unit to the screen comprising a second display means, said extracting means Document, characterized in that generating a score list of merging related score calculated for each document to all the word information or document information that may have been selected, to retrieve documents based on the score list It is a search device.

第2の発明は、コンピュータが、各文書、各文書に登場する単語情報又は各文書に関する情報である文書情報、及び、各文書と各単語情報との関連度である文書単語関連度又は各文書間の関連度である文書間関連度を記憶する記憶ステップと、画面上に単語情報又は文書情報選択可能に表示する第1の表示ステップと、単語情報が選択された場合には、前記文書単語関連度を参照して各文書との関連スコアを算出し、文書情報が選択された場合には、前記文書間関連度を参照して各文書との関連スコアを算出し、算出された関連スコアに基づいて、選択された単語情報又は文書情報と関連性の高い文書を抽出する抽出ステップと、記抽出ステップにより抽出された文書の情報を前記画面上に表示する第2の表示ステップと、を含み、前記抽出ステップは、選択されたことのある全ての単語情報又は文書情報に対して算出された関連スコアを文書毎にマージしたスコアリストを生成し、当該スコアリストに基づいて文書を抽出することを特徴とする文書検索方法である。 According to a second aspect of the present invention, a computer is a document, document information that is information about each document, word information appearing in each document, or information about each document, and document word relevance or each document that is a degree of association between each document and each word information Storing the inter-document association degree, which is the inter-document degree, the first display step for displaying the word information or the document information on the screen in a selectable manner, and the document when the word information is selected The association score with each document is calculated with reference to the word association degree, and when the document information is selected, the association score with each document is calculated with reference to the inter-document association degree, and the calculated association based on the score, and a second display step for displaying an extraction step of extracting a high document relevant with the selected word information or document information, the information of the document extracted by the previous SL extraction step on the screen include the Out step, characterized in that generating a score list of merging related score calculated for each document to all the word information or document information that may have been selected, to retrieve documents based on the score list Document retrieval method.

第3の発明は、コンピュータを、各文書、各文書に登場する単語情報又は各文書に関する情報である文書情報、及び、各文書と各単語情報との関連度である文書単語関連度又は各文書間の関連度である文書間関連度を記憶する記憶手段と、画面上に単語情報又は文書情報選択可能に表示する第1の表示手段と、単語情報が選択された場合には、前記文書単語関連度を参照して各文書との関連スコアを算出し、文書情報が選択された場合には、前記文書間関連度を参照して各文書との関連スコアを算出し、算出された関連スコアに基づいて、選択された単語情報又は文書情報と関連性の高い文書を抽出する抽出手段と、記抽出手段により抽出された文書の情報を前記画面上に表示する第2の表示手段と、を具備する文書検索装置として機能させるプログラムであって、前記抽出手段は、選択されたことのある全ての単語情報又は文書情報に対して算出された関連スコアを文書毎にマージしたスコアリストを生成し、当該スコアリストに基づいて文書を抽出することを特徴とするプログラムである。 A third aspect of the invention relates to a computer, document information that is each document, word information appearing in each document, or document information that is information about each document, and document word relevance or each document that is a degree of association between each document and each word information Storage means for storing the inter-document association degree, which is the association degree between the first and second display means for selectively displaying word information or document information on the screen, and the document when the word information is selected The association score with each document is calculated with reference to the word association degree, and when the document information is selected, the association score with each document is calculated with reference to the inter-document association degree, and the calculated association based on the scores, and second display means for displaying an extraction means for extracting a high document relevant with the selected word information or document information, the information of the document extracted by the pre-Symbol extracting means on the display screen Function as a document search device equipped with A so Help program, the extracting unit may generate a score list of merging related score for each document that has been calculated for all the word information or document information that may have been selected, to the score list It is a program characterized by extracting a document based on it .

本発明によって、ユーザの選択した語と関連性の高い文書等を検索して、関連度合に応じた表示を行うための文書検索装置等を提供することができる。   According to the present invention, it is possible to provide a document search device or the like for searching for a document or the like highly relevant to the word selected by the user and performing display according to the degree of association.

文書検索システムの構成例を示すシステム構成図System configuration diagram showing a configuration example of a document search system 文書検索サーバ、端末のハードウエアの構成例を示すブロック図Block diagram showing an example of the hardware configuration of the document search server and terminal 文書登録処理の流れを示すフローチャートFlow chart showing the flow of the document registration process 文書DB、単語DB、文書単語頻度DBに記憶されるデータの一例を示す図A diagram showing an example of data stored in a document DB, a word DB, and a document word frequency DB 単語間関連度データ生成処理の流れを示すフローチャートFlow chart showing a flow of inter-word relevance data generation processing 文書間関連度データ生成処理の流れを示すフローチャートFlow chart showing the flow of inter-document relevance data generation processing 文書単語関連度データ生成処理の流れを示すフローチャートFlow chart showing the flow of document word relevance data generation process 単語間関連度DB、文書間関連度DB、文書単語関連度DBに記憶されるデータの一例を示す図Diagram showing an example of data stored in inter-word relevance DB, inter-document relevance DB, and document-word relevance DB 文書検索処理の流れを示すフローチャートFlow chart showing the flow of the document search process 第1画面の画面例を示す図A diagram showing an example of the first screen 履歴を保持する配列の例を示す図Diagram showing an example of an array that holds history スコアリストの一例を示す図Figure showing an example of a score list 第2画面の画面例を示す図A diagram showing an example of the second screen 選択画面の画面例を示す図A diagram showing an example of the selection screen

以下、図面に基づいて、本発明の好適な実施形態について詳細に説明する。
なお、本発明においてテキストデータとは文書、文書に登場する単語、文書に関する情報(文書の著者名等)のいずれかを少なくとも含む。
Hereinafter, preferred embodiments of the present invention will be described in detail based on the drawings.
In the present invention, the text data includes at least one of a document, a word appearing in the document, and information on the document (such as an author name of the document).

図1は、本実施形態に係る文書検索システム200の構成例を示す図である。図1に示すように、文書検索サーバ100とユーザが利用する1または複数の端末101が、ネットワーク102を介して互いに通信接続されて構成される。   FIG. 1 is a view showing a configuration example of a document search system 200 according to the present embodiment. As shown in FIG. 1, the document search server 100 and one or more terminals 101 used by a user are mutually connected by communication via a network 102.

文書検索サーバ100は、各種データベース(図3、図5参照)を記憶するサーバ装置である。詳細は後述する。   The document search server 100 is a server device that stores various databases (see FIGS. 3 and 5). Details will be described later.

端末101は、ユーザが利用するコンピュータであり、ネットワーク102を介して文書検索サーバ100から送信される検索結果等を表示する。また、端末101は、ユーザから後述する第1画面(図10)や第2画面(図13)から語の選択を受付けて文書検索サーバ100に送信する。端末101は、汎用なコンピュータに代えて、携帯端末、モバイル端末などであっても良い。   The terminal 101 is a computer used by the user, and displays a search result and the like transmitted from the document search server 100 via the network 102. Further, the terminal 101 receives a selection of a word from the user from the first screen (FIG. 10) and the second screen (FIG. 13) described later, and transmits the word selection to the document search server 100. The terminal 101 may be a portable terminal, a mobile terminal or the like instead of a general-purpose computer.

なお、後述する文書検索サーバ100と端末101の機能を一体化して単一のコンピュータが文書検索システム200の機能を実現する構成としても良い。また、文書検索サーバ100の機能を単一のコンピュータ上に構築する必要は無く、ネットワーク102で接続された別々のコンピュータ上に構築しても良い。   The function of the document search system 200 may be realized by integrating the functions of the document search server 100 and the terminal 101, which will be described later, into a single computer. Also, the functions of the document search server 100 do not have to be built on a single computer, but may be built on separate computers connected by the network 102.

本実施形態における文書検索システム200とは、ユーザが選択した語に対して、語と関連性の高い文書情報を検索して端末101に提示するものである。   The document search system 200 in the present embodiment is for searching for document information highly relevant to the word and presenting it on the terminal 101 for the word selected by the user.

図2は、本実施形態に係る文書検索サーバ100(端末101)のハードウエアの構成例を示すブロック図である。文書検索サーバ100(端末101)は、図2に示すように、例えば、制御部11、記憶部12、メディア入出力部13、通信制御部14、入力部15、表示部16、周辺機器I/F部17等が、バス18を介して接続されて構成される。   FIG. 2 is a block diagram showing an example of the hardware configuration of the document search server 100 (terminal 101) according to the present embodiment. As shown in FIG. 2, the document search server 100 (terminal 101) may, for example, control unit 11, storage unit 12, media input / output unit 13, communication control unit 14, input unit 15, display unit 16, peripheral device I / The F unit 17 and the like are connected via the bus 18 and configured.

制御部11は、CPU(Central Processing Unit)、ROM(Read Only
Memory)、RAM(Random Access Memory)等により構成される。
CPUは、記憶部12、ROM、記憶媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス18を介して接続された各装置を駆動制御し、文書検索サーバ100(端末101)が行う後述する処理を実現する。ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持する。RAMは、揮発性メモリであり、ロードしたプログラムや、データ等を一時的に保持すると共に、制御部11が各処理を行うために使用するワークエリアを備える。
The control unit 11 has a central processing unit (CPU) and a read only (ROM).
Memory), RAM (Random Access Memory), etc.
The CPU calls a program stored in the storage unit 12, the ROM, the storage medium, etc. to a work memory area on the RAM and executes it, controls driving of each device connected via the bus 18, and controls the document search server 100 ( The terminal 101) implements the processing to be described later. The ROM is a non-volatile memory and permanently holds a computer boot program, a program such as a BIOS, data and the like. The RAM is a volatile memory, which temporarily holds loaded programs, data and the like, and includes a work area used by the control unit 11 to perform each processing.

記憶部12は、HDD(Hard Disk Drive)等であり、制御部11が実行するプログラムや、プログラム実行に必要なデータ、OS(Operating System)等が格納されている。これらのプログラムコードは、制御部11により必要に応じて読み出されてRAMに移され、CPUに読み出されて実行される。   The storage unit 12 is an HDD (Hard Disk Drive) or the like, and stores a program executed by the control unit 11, data necessary for program execution, an OS (Operating System), and the like. These program codes are read by the control unit 11 as necessary, transferred to the RAM, read by the CPU, and executed.

メディア入出力部13は、例えば、CDドライブ、DVDドライブ、MOドライブ、フロッピー(登録商標)ディスクドライブ、等のメディア入出力装置であり、データの入出力を行う。
通信制御部14は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク間の通信を媒介する通信インターフェースであり、ネットワークを介して、他の装置間との通信制御を行う。
The media input / output unit 13 is, for example, a media input / output device such as a CD drive, a DVD drive, an MO drive, or a floppy (registered trademark) disk drive, and performs data input / output.
The communication control unit 14 includes a communication control device, a communication port, and the like, is a communication interface that mediates communication between a computer and a network, and controls communication with other devices via the network.

入力部15は、データ入力を行い、例えば、キーボード、マウスなどのポインティングデバイス、テンキーなどの入力装置を有する。入力されたデータを制御部11へ出力する。
表示部16は、例えば、CRTモニタ、液晶パネル等のディスプレイ装置と、ディスプレイ装置と連携して表示処理を実行するための論理回路(ビデオアダプタ等)で構成され、制御部11の制御により入力された表示情報をディスプレイ装置上に表示させる。
尚、入力部15と表示部16は、それらの機能が一体化した、例えば、タッチパネル付ディスプレイであっても良い。
The input unit 15 performs data input, and includes, for example, an input device such as a keyboard, a pointing device such as a mouse, and a numeric keypad. The input data is output to the control unit 11.
The display unit 16 includes, for example, a display device such as a CRT monitor or a liquid crystal panel, and a logic circuit (video adapter or the like) for executing display processing in cooperation with the display device. The displayed information is displayed on the display device.
The input unit 15 and the display unit 16 may be, for example, a display with a touch panel in which those functions are integrated.

周辺機器I/F部(インターフェース)17は、コンピュータに周辺機器を接続させるためのポートであり、周辺機器I/F部17を介してコンピュータは周辺機器とのデータの送受信を行う。周辺機器I/F部17は、USBやIEEE1394やRS−232C等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は、有線、無線を問わない。
バス18は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
A peripheral device I / F unit (interface) 17 is a port for connecting a peripheral device to a computer, and the computer transmits and receives data to and from the peripheral device via the peripheral device I / F unit 17. The peripheral device I / F unit 17 is configured by USB, IEEE 1394, RS-232C or the like, and normally has a plurality of peripheral device I / F. The connection form with the peripheral device may be wired or wireless.
The bus 18 is a path that mediates the exchange of control signals, data signals, and the like between the devices.

続いて、文書検索サーバ100が新たな文書の登録を受付ける際に実行する文書登録処理について、図3と図4を用いて説明する。図3は、文書登録処理の流れを示すフローチャートである。図4は、文書DB、単語DB、文書単語頻度DBに記憶されるデータの一例を示す図である。   Subsequently, a document registration process executed when the document search server 100 receives registration of a new document will be described using FIGS. 3 and 4. FIG. 3 is a flowchart showing the flow of the document registration process. FIG. 4 is a diagram showing an example of data stored in the document DB, the word DB, and the document word frequency DB.

文書検索サーバ100の制御部11は、入力部15等から文書の入力を受付けると(ステップS101)、新たなドキュメントID21を割り当てて、文書DBに登録する(ステップS102)。   When the control unit 11 of the document search server 100 receives an input of a document from the input unit 15 or the like (step S101), the control unit 11 assigns a new document ID 21 and registers it in the document DB (step S102).

図4(a)に文書DBの一例を示す。文書DBは、文書情報を保持するDBであり、新たな文書の登録を受付けるごとにデータが追加されるものである。文書DBには、ドキュメントID21、データ種類22、見出し23、著者24、テーマ名25、本文26等の情報が格納される。ドキュメントID21とは、文書を一意に識別する値であり、文書の登録を受付けるごとに割り当てられる。   FIG. 4A shows an example of the document DB. The document DB is a DB that holds document information, and data is added each time registration of a new document is received. The document DB stores information such as a document ID 21, a data type 22, a heading 23, an author 24, a theme name 25, and a text 26. The document ID 21 is a value that uniquely identifies a document, and is assigned each time a document is accepted.

本実施形態において文書とは、ニュース、テーマに関する解説文、書籍、雑誌、記事、論文、その他の書類等である。データ種類22とは、上記のような文書の種類を記憶するものである。   In the present embodiment, the documents are news, commentary on the subject, books, magazines, articles, articles, other documents, and the like. The data type 22 is for storing the type of document as described above.

文書検索サーバ100の制御部11は、新たに登録された文書(文書の見出し23、著者24、テーマ名25、本文26等)に対し、形態素解析を実行し(ステップS103)、重要語を抽出する(ステップS104)。形態素解析及び重要語抽出は、例えば、汎用的なソフトウエアを利用することができる。   The control unit 11 of the document search server 100 executes morphological analysis on the newly registered document (document headline 23, author 24, theme name 25, text 26 etc.) (step S103), and extracts the key word. (Step S104). Morphological analysis and keyword extraction can use, for example, general-purpose software.

文書検索サーバ100の制御部11は、抽出された重要語が単語DBに既に登録されているか否かを判定し、登録されていない場合には、新たな単語ID31を割り当てて、その表記32を単語DBに登録する(ステップS105)。   The control unit 11 of the document search server 100 determines whether or not the extracted important word is already registered in the word DB, and when it is not registered, the new word ID 31 is assigned and the notation 32 thereof is displayed. The word is registered in the word DB (step S105).

図4(b)に単語DBの一例を示す。単語DBは、単語情報を保持するDBであり、単語ID31と表記32を紐付けて記憶するものである。文書登録処理のステップS104にて抽出された重要語が単語DBに登録されていない場合に、新たにデータが追加される。単語ID31とは、単語を一意に識別する値であり、データが追加されるごとに割り当てられる。   FIG. 4B shows an example of the word DB. The word DB is a DB that holds word information, and stores word ID 31 and notation 32 in association with each other. If the key word extracted in step S104 of the document registration process is not registered in the word DB, data is newly added. The word ID 31 is a value that uniquely identifies a word, and is assigned each time data is added.

文書検索サーバ100の制御部11は、新たに登録された文書内でステップS103にて抽出された重要語が出現する回数を、重要語ごとにカウントする。文書検索サーバ100の制御部11は、その文書のドキュメントID21とその重要語の単語ID32と出現回数を、文書単語頻度DBに登録して(ステップS107)、処理を終了する。   The control unit 11 of the document search server 100 counts, for each important word, the number of times the important word extracted in step S103 appears in the newly registered document. The control unit 11 of the document search server 100 registers the document ID 21 of the document, the word ID 32 of the important word, and the number of appearances in the document word frequency DB (step S107), and ends the process.

図4(c)に単語文書単語頻度DBの一例を示す。単語文書単語頻度DBは、ドキュメントID41の文書内に単語ID42の重要語が出現する頻度(出現頻度43)を表す値である。ドキュメントID41はドキュメントID21と紐づき、単語ID42は単語ID31と紐づく。   FIG. 4C shows an example of the word document word frequency DB. The word document word frequency DB is a value representing the frequency (frequency of appearance 43) of the appearance of the key word of the word ID 42 in the document of the document ID 41. The document ID 41 is associated with the document ID 21, and the word ID 42 is associated with the word ID 31.

以上のように、文書検索サーバ100は、新たな文書登録を受付けると、データ種類、見出し、著者、本文等の文書情報を文書DBに登録し、文書の重要語を抽出する。文書検索サーバ100は、抽出された重要語を単語DBに登録すると共に、文書内の出現回数をカウントして、文書単語頻度DBに登録する。文書登録処理が実行されるごとに、文書単語頻度DBには抽出された重要語の数と同数のデータが新たに追加されることとなる。   As described above, when a new document registration is received, the document search server 100 registers document information such as data type, headline, author, and text in the document DB, and extracts important words of the document. The document search server 100 registers the extracted important words in the word DB, counts the number of appearances in the document, and registers the number in the document word frequency DB. Each time the document registration process is performed, data as many as the number of extracted important words is newly added to the document word frequency DB.

次に、図5〜図8を参照して、文書検索サーバ100が、図4に示すDBを利用して、単語間の関連度、文書間の関連度、および単語文書間の関連度を算出して事前に記憶する処理について説明する。   Next, referring to FIG. 5 to FIG. 8, the document search server 100 calculates the degree of association between words, the degree of association between documents, and the degree of association between word documents using the DB shown in FIG. The process of storing in advance will be described.

図5は、単語間関連度データ生成処理の流れを示すフローチャートである。
文書検索サーバ100の制御部11は、記憶部12に記憶される単語DB(図4(b))から単語Aと単語Bとを選択して、入力する(ステップS201)。文書検索サーバ100の制御部11は、単語Aと単語Bとの単語間関連度を算出する(ステップS202)。
FIG. 5 is a flow chart showing the flow of inter-word relevance data generation processing.
The control unit 11 of the document search server 100 selects and inputs the word A and the word B from the word DB (FIG. 4B) stored in the storage unit 12 (step S201). The control unit 11 of the document search server 100 calculates the degree of inter-word association between the word A and the word B (step S202).

単語間関連度として、例えば、文書における単語Aと単語Bの共起の度合を測る尺度である相互情報量を算出する。具体的には、単語Aが出現する文書数、単語Bが出現する文書数、および単語Aと単語Bが共に出現する文書数を、文書単語頻度DB(図4(c))を用いてそれぞれカウントする。これらの値を用いて、単語Aと単語Bの相互情報量が算出される。   As the degree of association between words, for example, a mutual information amount which is a measure of the degree of co-occurrence of the word A and the word B in the document is calculated. Specifically, the number of documents in which word A appears, the number of documents in which word B appears, and the number of documents in which word A and word B both appear using the document word frequency DB (FIG. 4C). Count. Using these values, the mutual information amount of the word A and the word B is calculated.

文書検索サーバ100の制御部11は、単語Aの単語IDと単語Bの単語IDと算出した単語間関連度を、単語間関連度DBに新たに追加して(ステップS203)、処理を終了する。   The control unit 11 of the document search server 100 adds the word ID of word A and the word ID of word B, and the calculated inter-word relevance to the inter-word relevance DB (step S203), and ends the process. .

以上のように、文書検索サーバ100は、単語DBに登録される異なる2つの単語間の関連度を算出し、単語間関連度DBに記憶する。   As described above, the document search server 100 calculates the degree of association between two different words registered in the word DB, and stores the degree of association in the inter-word association degree DB.

図8は、単語間関連度DB、文書間関連度DB、文書単語関連度DBに記憶されるデータの一例を示す図である。   FIG. 8 is a diagram showing an example of data stored in the inter-word relevance degree DB, the inter-document relevance degree DB, and the document word relevance degree DB.

図8の(a)に示す単語間関連度DBは、単語DBに登録される異なる単語(単語ID51と単語ID52)間の関連度53を記憶する。文書検索サーバ100が、図5に示す単語間関連度データ生成処理を実行するごとに新たなデータが単語関連度DBに追加される。   The inter-word association degree DB shown in FIG. 8A stores the degree of association 53 between different words (word ID 51 and word ID 52) registered in the word DB. Every time the document search server 100 executes the inter-word association degree data generation process shown in FIG. 5, new data is added to the word association degree DB.

図6は、文書間関連度データ生成処理の流れを示すフローチャートである。
文書検索サーバ100の制御部11は、記憶部12に記憶される文書DB(図4(a))から文書Aと文書Bとを選択して、入力する(ステップS301)。文書検索サーバ100の制御部11は、文書Aと文書Bとの文書間関連度を算出する(ステップS302)。
FIG. 6 is a flowchart showing the flow of inter-document relevance data generation processing.
The control unit 11 of the document search server 100 selects and inputs the document A and the document B from the document DB (FIG. 4A) stored in the storage unit 12 (step S301). The control unit 11 of the document search server 100 calculates the degree of inter-document relevance between the document A and the document B (step S302).

ここで、文書間関連度として、例えば、文書Aと文書Bのコサイン類似度を算出する。具体的には、文書Aに出現する単語とその出現頻度、文書Bに出現する単語とその出現頻度を、文書単語頻度DB(図4(c))を用いてそれぞれ取得する。これらを用いて、文書Aと文書Bの特徴を表現する文書ベクトルAと文書ベクトルBを生成し、文書ベクトルAと文書ベクトルBに基づいてコサイン類似度を算出する。   Here, as the inter-document relevance, for example, the cosine similarity of the document A and the document B is calculated. Specifically, a word appearing in the document A and its appearance frequency, and a word appearing in the document B and its appearance frequency are acquired using the document word frequency DB (FIG. 4C). Using these, a document vector A and a document vector B expressing features of the document A and the document B are generated, and cosine similarity is calculated based on the document vector A and the document vector B.

文書検索サーバ100の制御部11は、文書Aの文書IDと文書Bの文書IDと算出した文書間関連度を、文書間関連度DBに新たに追加して(ステップS303)、処理を終了する。   The control unit 11 of the document search server 100 newly adds the document ID of the document A and the document ID of the document B and the calculated inter-document relevance to the inter-document relevance DB (step S303), and ends the process. .

以上のように、文書検索サーバ100は、文書DBに登録される異なる2つの文書間の関連度を算出し、文書間関連度DBに記憶する。   As described above, the document search server 100 calculates the degree of association between two different documents registered in the document DB, and stores the degree of association in the inter-document association degree DB.

図8の(b)に示す文書間関連度DBは、文書DBに登録される異なる文書(ドキュメントID61とドキュメントID62)間の関連度63を記憶する。文書検索サーバ100が、図6に示す文書間関連度データ生成処理を実行するごとに新たなデータが単語関連度DBに追加される。   The inter-document association degree DB shown in FIG. 8B stores the association degree 63 between different documents (document ID 61 and document ID 62) registered in the document DB. Every time the document search server 100 executes the inter-document relevance degree data generation process shown in FIG. 6, new data is added to the word relevance degree DB.

図7は、文書単語関連度データ生成処理の流れを示すフローチャートである。
文書検索サーバ100の制御部11は、記憶部12に記憶される文書DB(図4(a))から文書Aを選択し、単語DB(図4(b))から単語Bを選択して、入力する(ステップS401)。文書検索サーバ100の制御部11は、文書Aと単語Bとの文書単語関連度を算出する(ステップS402)。
FIG. 7 is a flowchart showing the flow of the document word relevance data generation process.
The control unit 11 of the document search server 100 selects the document A from the document DB (FIG. 4 (a)) stored in the storage unit 12, selects the word B from the word DB (FIG. 4 (b)), Input is made (step S401). The control unit 11 of the document search server 100 calculates the degree of document-word association between the document A and the word B (step S402).

ここで、文書単語関連度として、例えば、文書Aと単語Bのコサイン類似度を算出する。具体的には、文書Aにおける単語Bの出現頻度を文書単語頻度DB(図4(c))を用いて取得して、文書Aの文書ベクトルを生成し、文書Aと単語Bのコサイン類似度を算出する。   Here, for example, the cosine similarity of the document A and the word B is calculated as the document word relevance. Specifically, the appearance frequency of the word B in the document A is acquired using the document word frequency DB (FIG. 4C) to generate a document vector of the document A, and the cosine similarity of the document A and the word B is generated. Calculate

文書検索サーバ100の制御部11は、文書Aの文書IDと単語Bの単語IDと算出した文書単語関連度を、文書単語関連度DBに新たに追加して(ステップS403)、処理を終了する。   The control unit 11 of the document search server 100 adds the document ID of the document A, the word ID of the word B, and the calculated document word relevance to the document word relevance DB (step S403), and ends the process. .

以上のように、文書検索サーバ100は、文書DBに登録される文書と単語DBに登録される単語との関連度を算出し、文書単語関連度DBに記憶する。   As described above, the document search server 100 calculates the degree of association between the document registered in the document DB and the word registered in the word DB, and stores the degree of association in the document word association DB.

図8の(c)に示す文書単語関連度DBは、文書DBに登録される文書(ドキュメントID71)と単語DBに登録される単語(単語DB72)との関連度73を記憶する。文書検索サーバ100が、図7に示す文書単語関連度データ生成処理を実行するごとに新たなデータが単語関連度DBに追加される。   The document word degree of association DB shown in (c) of FIG. 8 stores the degree of association 73 between the document (document ID 71) registered in the document DB and the word (word DB 72) registered in the word DB. Each time the document search server 100 executes the document word relevancy data generation process shown in FIG. 7, new data is added to the word relevancy DB.

次に、図9〜図14を用いて、文書検索システム200が実行する文書検索処理について説明する。文書検索サーバ100は図2の文書登録処理、図5〜図7の関連度データ生成処理を実行して、文書検索サーバ100の記憶部12には予め図4に示すDBおよび図8に示すDBが記憶されているものとする。   Next, the document search process performed by the document search system 200 will be described with reference to FIGS. 9 to 14. The document search server 100 executes the document registration process of FIG. 2 and the association degree data generation process of FIGS. 5 to 7, and the DB shown in FIG. 4 and the DB shown in FIG. Is assumed to be stored.

端末101に表示された遷移前の画面において、端末101はユーザから語の選択を受付けて、文書検索サーバ100は選択された語と関連性の高い文書および単語を検索して、端末101に検索結果を送信する。検索結果が表示された遷移後の画面において、端末101はユーザから新たに語の選択を受付けて、文書検索サーバ100は選択された語と関連性の高い文書および単語を再び検索する。以上のように、文書検索処理とは、繰り返し実行される処理である。   In the screen before transition displayed on the terminal 101, the terminal 101 accepts the selection of a word from the user, and the document search server 100 searches for a document and a word highly relevant to the selected word and searches the terminal 101 Send the result. In the screen after transition on which the search result is displayed, the terminal 101 receives a new selection of words from the user, and the document search server 100 searches for documents and words highly relevant to the selected words again. As described above, the document search process is a process that is repeatedly executed.

図9は、文書検索処理の流れを示すフローチャートである。
文書検索サーバ100の制御部11は、語が配置された検索キーを表示する第1画面(遷移前の画面)を端末101に送信し、端末101の制御部11は、表示部16に受信した第1画面を表示する(ステップS501)。
FIG. 9 is a flowchart showing the flow of the document search process.
The control unit 11 of the document search server 100 transmits a first screen (screen before transition) for displaying the search key in which the word is arranged to the terminal 101, and the control unit 11 of the terminal 101 receives the first screen The first screen is displayed (step S501).

図10は、第1画面80の画面例を示す図である。図示されるように第1画面80には、語が配置された複数の検索ボタン81a、81b、81c、81dが表示される。検索ボタン81に配置される語とは、単語の表記、文書の著者等である。初期画面において表示する語の選択は、文書検索システム200を利用するユーザの傾向に合わせて、文書検索サーバ100によって適宜行われるものであって良い。   FIG. 10 shows an example of the first screen 80. As shown in FIG. As illustrated, the first screen 80 displays a plurality of search buttons 81a, 81b, 81c, and 81d in which words are arranged. The words arranged in the search button 81 are word notation, an author of a document, and the like. Selection of the word displayed on the initial screen may be appropriately performed by the document search server 100 in accordance with the tendency of the user who uses the document search system 200.

検索ボタン81の大きさは、語と紐付く単語または文書の出現回数や重要度を表すものであり、文書検索サーバ100は文書単語頻度DBを用いて検索ボタン81の大きさを算出することができる。これにより、ユーザは表示された語が示す文書等の頻出度又は重要度を一目で認識することができる。また、検索ボタン81に配置された語が単語と文書のどちらに紐付くのかに応じて、検索ボタン81の色彩や形状等を変更しても良い。   The size of the search button 81 represents the number of appearances or importance of a word or document associated with a word, and the document search server 100 may calculate the size of the search button 81 using the document word frequency DB. it can. This allows the user to recognize at a glance the frequency or importance of a document or the like indicated by the displayed word. Also, the color, shape, and the like of the search button 81 may be changed depending on whether the word placed on the search button 81 is associated with the word or the document.

第1画面80において、ユーザによって検索ボタン81が選択されると、選択された検索ボタン81に配置された語(以下、選択語と表記)と関連性の高い単語または文書が文書検索サーバ100によって検索され、それらを示す語を配置した検索ボタンを表示する第2画面(図13)に遷移する。   When the search button 81 is selected by the user on the first screen 80, the document search server 100 uses a word or a document that is highly related to the word (hereinafter referred to as a selected word) placed on the selected search button 81. It changes to the 2nd screen (FIG. 13) which displays the search button which was searched and arranged the word which shows them.

図9の説明に戻る。端末101の制御部11は、語の選択を検知したか否かを判定する(ステップS502)。語の選択を検知しない場合には(ステップS502のNO)、端末101の制御部11は、ステップS502に戻る。   It returns to the explanation of FIG. The control unit 11 of the terminal 101 determines whether selection of a word has been detected (step S502). When the selection of the word is not detected (NO in step S502), the control unit 11 of the terminal 101 returns to step S502.

語の選択を検知した場合には(ステップS502のYES)、端末101の制御部11は、選択語を文書検索サーバ100に送信し、文書検索サーバ100の制御部11は、受信した選択語を検索の履歴として配列に格納し、記憶部12または制御部11のRAMに記憶する(ステップS503)。   When the selection of a word is detected (YES in step S502), the control unit 11 of the terminal 101 transmits the selected word to the document search server 100, and the control unit 11 of the document search server 100 receives the selected word It is stored in an array as a search history and is stored in the storage unit 12 or the RAM of the control unit 11 (step S503).

図11は、履歴を保持する配列78の例を示す図である。図11に示すように、配列78にはユーザによって以前に選択された語(以下、履歴語と表記)が格納されている。文書検索サーバ1は、新たに受信した選択語を配列78の先頭に格納することによって、履歴語と区別して記憶することがきる。   FIG. 11 is a diagram showing an example of an array 78 which holds a history. As shown in FIG. 11, in the array 78, words (hereinafter referred to as history words) previously selected by the user are stored. The document search server 1 can store the newly received selected word at the head of the array 78 so as to distinguish it from the history word and store it.

文書検索サーバ100の制御部11は、配列から語を抽出し(ステップS504)、抽出された語に関連する単語および文書を検索して、関連度を取得する(ステップS505)。   The control unit 11 of the document search server 100 extracts words from the array (step S504), searches for words and documents associated with the extracted words, and acquires the degree of association (step S505).

具体的には、文書検索サーバ100は、配列から抽出された語(以下、抽出語と表記)が、単語に関する語であるのか、文書に関する語であるのかを判定する。単語に関する語である場合には、文書検索サーバ100は、単語間関連度DBを用いて、抽出語との関連度が高い上位N件(Nは任意の自然数)の単語を検索しその関連度を取得する。また、文書単語関連度DBを用いて、抽出語との関連度の高い上位N件の文書を検索しその関連度を取得する。   Specifically, the document search server 100 determines whether the word extracted from the array (hereinafter, referred to as an extracted word) is a word related to a word or a word related to a document. If the word is a word, the document search server 100 searches the top N (N is an arbitrary natural number) words having a high degree of association with the extracted word using the inter-word association degree DB, and the association degree To get Also, using the document word degree of association DB, the top N documents having a high degree of association with the extracted word are retrieved and their degree of association is acquired.

同様にして、抽出語が文書に関する語である場合には、文書検索サーバ100は文書間関連度DBおよび文書単語関連度DBを用いて、抽出語との関連度の高い上位N件の文書と上位N件の単語を検索して、その関連度を取得する。   Similarly, when the extracted word is a word related to a document, the document search server 100 uses the inter-document relevance DB and the document word relevance DB to determine the top N documents having a high degree of association with the extracted word. Search top N words and get their relevance.

文書検索サーバ100の制御部11は、抽出語が選択語であるか否かを判定し(ステップS506)、選択語である場合には(ステップS506のYES)、文書検索サーバ100の制御部11は、取得した関連度をn倍(nは任意の値)して検索した文書または単語のスコアとする(ステップS507)。   The control unit 11 of the document search server 100 determines whether the extracted word is a selected word (step S506). If the extracted word is a selected word (YES in step S506), the control unit 11 of the document search server 100 The score of the retrieved document or word is set by multiplying the acquired degree of association by n (n is an arbitrary value) (step S507).

選択語は現在選択されている語であるため、配列の他の語(履歴語)よりユーザの検索目的に近い語であると考えられる。そのため、選択語と関連性の高い単語および文書をユーザに提示できるように、選択語と関連性の高い単語および文書の関連度に重み付けして、スコアを算出するものである。   Since the selected word is the currently selected word, it is considered to be a word closer to the user's search purpose than the other words (history words) in the array. Therefore, in order to present the user with words and documents highly relevant to the selected word, the degree of relevance of the words and documents highly relevant to the selected word is weighted to calculate a score.

選択語でない場合には(ステップS506のNO)、文書検索サーバ100の制御部11は、取得した関連度をそのまま検索した文書または単語のスコアとする(ステップS507)。   If the selected word is not selected (NO in step S506), the control unit 11 of the document search server 100 sets the acquired degree of association as the score of the document or word searched as it is (step S507).

文書検索サーバ100の制御部11は、配列に次の語があるか否かを判定する(ステップS509)。次の語がある場合には(ステップS509のYES)、文書検索サーバ100の制御部11は、ステップS504に戻る。即ち、ステップS504〜ステップS508の処理は、配列に格納された語の数だけ繰り返し実行される。文書検索サーバ100は、配列に格納された語それぞれに対して、関連度の高い文書または単語を検索して、そのスコアを取得する。   The control unit 11 of the document search server 100 determines whether there is the next word in the array (step S509). If there is the next word (YES in step S509), the control unit 11 of the document search server 100 returns to step S504. That is, the processing of step S504 to step S508 is repeatedly executed by the number of words stored in the array. The document search server 100 searches for a highly relevant document or word for each of the words stored in the array, and obtains its score.

次の語が無い場合には(ステップS509のNO)、文書検索サーバ100の制御部11は、スコアに基づき遷移後の画面情報(文書のスコアリスト、単語のスコアリスト等)を生成して端末101に送信し、端末101の制御部11は、受信した情報に基づいて表示部16に遷移後の画面(第2画面)を表示する(ステップS510)。端末101の制御部11は、ステップS502に戻り、第2画面において再び語の選択を受付ける。   If there is no next word (NO in step S509), the control unit 11 of the document search server 100 generates screen information after transition (a document score list, a word score list, etc.) based on the score, and the terminal It transmits to 101, and the control part 11 of the terminal 101 displays the screen (2nd screen) after transition on the display part 16 based on the received information (step S510). The control unit 11 of the terminal 101 returns to step S502, and accepts the selection of the word again on the second screen.

ステップS510にて文書検索サーバ100が端末101に送信するスコアリストについて説明する。図12は、単語のスコアリストの一例を示す図である。図12に示すように、単語のスコアリストには関連度の高い単語(関連語)とそのスコアが格納される。同様に文書のスコアリスト(図示せず)には関連度の高い文書とそのスコアが格納される。   The score list transmitted to the terminal 101 by the document search server 100 in step S510 will be described. FIG. 12 is a diagram showing an example of a score list of words. As shown in FIG. 12, the word score list stores words (relevant words) with high degree of relevance and their scores. Similarly, a document score list (not shown) stores highly relevant documents and their scores.

文書検索サーバ100は、配列に格納された各語に対して検索した単語または文書のスコアをマージ処理して、単語または文書のスコアリストを生成する。即ち、文書検索サーバ100は、現在選択されている選択語と関連性の高い単語または文書だけでなくて、履歴語と関連性の高い単語または文書も合わせてスコアリストを生成することとなる。   The document search server 100 merges the scores of the searched words or documents for each word stored in the array to generate a score list of the words or documents. That is, the document search server 100 generates not only words or documents highly relevant to the currently selected selection word but also words or documents highly relevant to the history word to generate a score list.

従って、ユーザが過去に選択した語の履歴を利用して、関連する文書または単語を表示することが可能となり、ユーザの検索の目的により近い検索結果を提示することができる。またこれにより、ユーザに対し新たな発想を提案できるといった効果も期待できる。   Therefore, the history of words selected by the user in the past can be used to display related documents or words, and search results closer to the purpose of the user's search can be presented. Also, this can be expected to be effective in that new ideas can be proposed to the user.

図13は、第2画面82の画面例である。図示される第2画面82は、図10に示す第1画面80にて「微生物(81a)」がユーザによって選択された場合に、表示される遷移後の画面例を示すものである。第2画面82は2つの領域(左ペイン83と右ペイン84)に分かれる。左ペイン83には第1画面80と同様に、語が配置された複数の検索ボタン86a、86b、86c、86eが表示される。直近の選択語である「微生物(86a)」と関連性(スコア)の高い「水道光熱費(86b)」、「省エネ(86c)」は画面に残るが、関連性(スコア)の低い「ヘルスケア(86d)」は画面からフェードアウトし、関連性(スコア)の高い新たな語として「△△事業部(86e)」がフェードインする。   FIG. 13 is a screen example of the second screen 82. The second screen 82 shown in the figure is an example of the screen after the transition displayed when the user selects "Microorganisms (81a)" on the first screen 80 shown in FIG. The second screen 82 is divided into two areas (left pane 83 and right pane 84). Similar to the first screen 80, the left pane 83 displays a plurality of search buttons 86a, 86b, 86c and 86e in which words are arranged. "Health and energy expenses (86b)" and "energy saving (86c)", which have high relevance (score) and "energy saving (86c)" with the latest selection word "microbe (86a)", remain on the screen, but "health" with low relevance (score) The care (86d) fades out from the screen, and the "△ (86e)" fades in as a new word having high relevance (score).

選択語の検索ボタン86aとその他の検索ボタン86b、86c、86eとの距離は、スコアの値を反映するものである。図示される例では、「水道光熱費(86b)」、「省エネ(86c)」、「△△事業部(86e)」のスコアの値はそれぞれ「0.9」、「0.3」、「0.8」であり、これらに応じて左ペイン83に配置される検索ボタン86の位置が決定される。これにより、ユーザは選択語と検索ボタン86に表示される語との関連性を一目で認識することができる。   The distance between the selected word search button 86a and the other search buttons 86b, 86c, and 86e reflects the value of the score. In the illustrated example, the score values of “utility expenses (86 b)”, “energy saving (86 c)”, and “Δ business unit (86 e)” are “0.9”, “0.3”, “n”, respectively. In accordance with these, the position of the search button 86 disposed on the left pane 83 is determined. Thereby, the user can recognize at a glance the relevance between the selected word and the word displayed on the search button 86.

左ペイン83に表示される語が示す単語または文書は、単語または文書のスコアリストに基づいて、端末101または文書検索サーバ100によって適宜選択されるものである。   The word or document indicated by the word displayed in the left pane 83 is appropriately selected by the terminal 101 or the document search server 100 based on the word or document score list.

第2画面82において、ユーザによって検索ボタン86が選択されると、選択された検索ボタン86に配置された語と関連性の高い単語または文書が文書検索サーバ100によって再び検索され、それらを示す語を配置した検索ボタンを表示する画面に遷移する。従って語が選択されるごとに画面が遷移して、表示される検索ボタン86が入れ替わることとなる。   In the second screen 82, when the user selects the search button 86, the document search server 100 again searches for words or documents highly relevant to the word placed on the selected search button 86, and indicates the words It changes to the screen which displays the search button which arranged. Therefore, the screen changes each time a word is selected, and the displayed search button 86 is replaced.

右ペイン84には、文書検索サーバ100から受信した文書のスコアリストに従って、関連性(スコア)の高い文書の見出しまたはテーマ名88a、88b、88c、88d、88eが表示される。図示されるように文書のデータ種類によって、文書の表示領域の特定部位または背景を色分けしても良い。また、右ペイン84には、ネットワーク102を介して検索された選択語に関連するインターネット上のニュース等を表示しても良い。   In the right pane 84, headlines or theme names 88a, 88b, 88c, 88d, 88e of highly relevant (scored) documents are displayed in accordance with the score list of the document received from the document search server 100. As illustrated, the specific portion or background of the display area of the document may be color-coded according to the data type of the document. The right pane 84 may also display news and the like on the Internet related to the selected word retrieved via the network 102.

右ペイン84に表示される文書88のいずれかがユーザによって選択されると、端末101の制御部11は、文書検索サーバ100にアクセスして、選択された文書の詳細情報(文書DBに保持する情報)を配置する選択画面を表示部16に出力する。   When one of the documents 88 displayed in the right pane 84 is selected by the user, the control unit 11 of the terminal 101 accesses the document search server 100 and stores detailed information of the selected document (stored in the document DB) The selection screen for arranging the information is output to the display unit 16.

図14は選択画面90の画面例である。図14に示す様に、選択画面90には、選択された文書の詳細情報91と戻るボタン92とが配置される。戻るボタン92がユーザによって選択されると、第2画面82に戻る。これにより、ユーザに対し検索された関連性の高い文書の詳細な情報を提示することができる。   FIG. 14 is a screen example of the selection screen 90. As shown in FIG. As shown in FIG. 14, on the selection screen 90, detailed information 91 of the selected document and a back button 92 are arranged. When the back button 92 is selected by the user, the second screen 82 is returned. This allows the user to be presented with detailed information of the retrieved relevant documents.

以上のように、文書検索システム200は、端末101に表示された単語または文書を示す語の選択を受付けると、文書検索サーバ100は選択語を配列に格納し、配列に格納される語(選択語または履歴語)を抽出して、抽出語と関連度の高い単語または文書を単語間関連度DBまたは文書間関連度DB、および文書単語関連度DBから検索してその関連度を取得する。抽出語が選択語の場合には取得した関連度に重み付けして単語または文書のスコアとし、抽出語が履歴語の場合には取得した関連度をそのまま単語または文書のスコアとして、配列に格納される全ての語に対して取得した単語または文書のスコアをマージ処理して、単語または文書のスコアリストを作成する。端末101は単語または文書のスコアリストに基づいて選択語と、スコアリストの単語または文書を示す語との距離をそのスコアに基づいて配置して表示部16に出力する。   As described above, when the document search system 200 receives the selection of the word indicating the word or the document displayed on the terminal 101, the document search server 100 stores the selected word in the array, and the word stored in the array (selection A word or history word is extracted, and a word or document highly associated with the extracted word is retrieved from the inter-word relevance database DB or inter-document relevance database DB, and the document word relevance database DB to obtain the relevance ratio. If the extracted word is a selected word, it is weighted to the acquired degree of association to obtain the score of the word or document, and if the extracted word is a history word, the acquired degree of association is stored in the array as the word or document score as it is Merge the scores of the words or documents obtained for all the words to create a score list of words or documents. The terminal 101 arranges the distance between the selected word and the word indicating the word or document of the score list based on the score based on the word or document score list, and outputs the distance to the display unit 16.

これにより、複数の文書から関連性の高い文書または単語を検索して、検索された文書または単語に対して関連性の指標であるスコアを算出し、選択語との関連性を距離によって表現して検索された語を表示する。またスコアは直近の選択語との関連度に加えて、過去にユーザによって選択された語の履歴との関連度を利用して算出される。従って、ユーザの検索目的により近い語を提示できるといった効果が得られる。   Thereby, a highly relevant document or word is retrieved from a plurality of documents, a score that is an index of relevance to the retrieved document or word is calculated, and the relevance to the selected word is expressed by the distance. Display the searched words. In addition to the degree of association with the latest selected word, the score is calculated using the degree of association with the history of the word selected by the user in the past. Therefore, the effect that a word closer to the user's search purpose can be presented can be obtained.

本実施形態の文書検索システム200は、例えば、会社内のコミュニケーションツールとして活用することができる。例えば、会社内外のニュースや、会社内の開発テーマ等の出所の異なる複数種類の文書を目的に応じて多角的に検索して、ユーザに関連性の高い文書または単語を視覚的にわかりやすく提示することができる。ユーザは提示された検索結果が表示された画面を介してタッチパネル操作等により簡便に更に検索作業を続けることが可能である。   The document search system 200 of the present embodiment can be utilized, for example, as a communication tool in a company. For example, the company can search for various types of documents from different sources, such as internal and external company news, and in-company development themes, etc. according to the purpose and display documents or words highly relevant to the user in an easy-to-understand manner. can do. The user can easily continue the search operation by touch panel operation or the like through the screen on which the presented search result is displayed.

以上、添付図面を参照しながら、本発明に係る文書検索システム200等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される   The preferred embodiments of the document search system 200 and the like according to the present invention have been described above with reference to the accompanying drawings, but the present invention is not limited to such examples. It is apparent that those skilled in the art can conceive of various modifications or alterations within the scope of the technical idea disclosed in the present application, and of course these also fall within the technical scope of the present invention. Be understood

100………文書検索サーバ
101………端末
102………ネットワーク
200………文書検索システム
11………制御部
12………記憶部
13………メディア入出力部
14………通信制御部
15………入力部
16………表示部
17………周辺機器I/F部
80………第1画面
82………第2画面
90………選択画面
100 ... document search server 101 ... terminal 102 ... network 200 ... document search system 11 ... control unit 12 ... storage unit 13 ... media input / output unit 14 ... communication control Section 15: Input section 16: Display section 17: Peripheral device I / F section 80: First screen 82: Second screen 90: Selection screen

Claims (3)

各文書、各文書に登場する単語情報又は各文書に関する情報である文書情報、及び、各文書と各単語情報との関連度である文書単語関連度又は各文書間の関連度である文書間関連度を記憶する記憶手段と、
画面上に単語情報又は文書情報選択可能に表示する第1の表示手段と、
単語情報が選択された場合には、前記文書単語関連度を参照して各文書との関連スコアを算出し、文書情報が選択された場合には、前記文書間関連度を参照して各文書との関連スコアを算出し、算出された関連スコアに基づいて、選択された単語情報又は文書情報と関連性の高い文書を抽出する抽出手段と、
記抽出手段により抽出された文書の情報を前記画面上に表示する第2の表示手段と、を具備し、
前記抽出手段は、選択されたことのある全ての単語情報又は文書情報に対して算出された関連スコアを文書毎にマージしたスコアリストを生成し、当該スコアリストに基づいて文書を抽出する
ことを特徴とする文書検索装置。
Document, word information appearing in each document, or document information which is information about each document, and document-word relevance, which is the degree of association between each document and each word information, or inter-document association, which is the degree of association between each document Storage means for storing the degree of
First display means for selectably displaying word information or document information on the screen;
When word information is selected, association score with each document is calculated with reference to the document word association degree, and when document information is selected, each document is referenced with reference to the inter-document association degree Extracting means for calculating a score of relevance to the document, and extracting a document highly relevant to the selected word information or document information based on the calculated relevance score ;
Comprising a second display means for displaying the information of the document extracted by the pre-Symbol extraction unit to the screen, and
The extraction means generates, for each document, a score list obtained by merging related scores calculated for all selected word information or document information, and extracts a document based on the score list. A document search device characterized by
コンピュータが、
各文書、各文書に登場する単語情報又は各文書に関する情報である文書情報、及び、各文書と各単語情報との関連度である文書単語関連度又は各文書間の関連度である文書間関連度を記憶する記憶ステップと、
画面上に単語情報又は文書情報選択可能に表示する第1の表示ステップと、
単語情報が選択された場合には、前記文書単語関連度を参照して各文書との関連スコアを算出し、文書情報が選択された場合には、前記文書間関連度を参照して各文書との関連スコアを算出し、算出された関連スコアに基づいて、選択された単語情報又は文書情報と関連性の高い文書を抽出する抽出ステップと、
記抽出ステップにより抽出された文書の情報を前記画面上に表示する第2の表示ステップと、を含み
前記抽出ステップは、選択されたことのある全ての単語情報又は文書情報に対して算出された関連スコアを文書毎にマージしたスコアリストを生成し、当該スコアリストに基づいて文書を抽出する
ことを特徴とする文書検索方法。
The computer is
Document, word information appearing in each document, or document information which is information about each document, and document-word relevance, which is the degree of association between each document and each word information, or inter-document association, which is the degree of association between each document A memory step for storing the degree of
A first display step of selectably displaying word information or document information on the screen;
When word information is selected, association score with each document is calculated with reference to the document word association degree, and when document information is selected, each document is referenced with reference to the inter-document association degree Calculating an association score with the document, and extracting a document highly relevant to the selected word information or document information based on the calculated association score ;
The information of the document extracted by the previous SL extraction step comprises a second display step of displaying on the screen,
The extraction step generates a score list in which the relevance score calculated for all the selected word information or document information is merged for each document, and the document is extracted based on the score list. The document search method characterized by
コンピュータを、
各文書、各文書に登場する単語情報又は各文書に関する情報である文書情報、及び、各文書と各単語情報との関連度である文書単語関連度又は各文書間の関連度である文書間関連度を記憶する記憶手段と、
画面上に単語情報又は文書情報選択可能に表示する第1の表示手段と、
単語情報が選択された場合には、前記文書単語関連度を参照して各文書との関連スコアを算出し、文書情報が選択された場合には、前記文書間関連度を参照して各文書との関連スコアを算出し、算出された関連スコアに基づいて、選択された単語情報又は文書情報と関連性の高い文書を抽出する抽出手段と、
記抽出手段により抽出された文書の情報を前記画面上に表示する第2の表示手段と、を具備する文書検索装置として機能させるプログラムであって、
前記抽出手段は、選択されたことのある全ての単語情報又は文書情報に対して算出された関連スコアを文書毎にマージしたスコアリストを生成し、当該スコアリストに基づいて文書を抽出する
ことを特徴とするプログラム。
Computer,
Document, word information appearing in each document, or document information which is information about each document, and document-word relevance, which is the degree of association between each document and each word information, or inter-document association, which is the degree of association between each document Storage means for storing the degree of
First display means for selectably displaying word information or document information on the screen;
When word information is selected, association score with each document is calculated with reference to the document word association degree, and when document information is selected, each document is referenced with reference to the inter-document association degree Extracting means for calculating a score of relevance to the document, and extracting a document highly relevant to the selected word information or document information based on the calculated relevance score ;
A Help program to function as a pre-SL document retrieval apparatus comprising a second display means for displaying information of a document extracted on the screen, a by extraction means,
The extraction means generates a score list obtained by merging, for each document, related scores calculated for all selected word information or document information, and extracts the document based on the score list.
A program characterized by
JP2015006014A 2015-01-15 2015-01-15 Document retrieval apparatus, document retrieval method, program, Active JP6524668B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015006014A JP6524668B2 (en) 2015-01-15 2015-01-15 Document retrieval apparatus, document retrieval method, program,

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015006014A JP6524668B2 (en) 2015-01-15 2015-01-15 Document retrieval apparatus, document retrieval method, program,

Publications (2)

Publication Number Publication Date
JP2016133824A JP2016133824A (en) 2016-07-25
JP6524668B2 true JP6524668B2 (en) 2019-06-05

Family

ID=56426266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015006014A Active JP6524668B2 (en) 2015-01-15 2015-01-15 Document retrieval apparatus, document retrieval method, program,

Country Status (1)

Country Link
JP (1) JP6524668B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897994A (en) * 2020-07-15 2020-11-06 腾讯音乐娱乐科技(深圳)有限公司 Search method, search device, server and computer-readable storage medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287827A (en) * 2003-03-20 2004-10-14 Fuji Xerox Co Ltd Search system, program and presentation method of search condition alternative
WO2008056570A1 (en) * 2006-11-09 2008-05-15 Panasonic Corporation Content search apparatus

Also Published As

Publication number Publication date
JP2016133824A (en) 2016-07-25

Similar Documents

Publication Publication Date Title
JP5472110B2 (en) Relationship discovery device, relationship discovery method, and relationship discovery program
JP6390139B2 (en) Document search device, document search method, program, and document search system
JP2018500698A (en) Translation information providing method and system
JP2012118773A (en) Electronic book browsing system, electronic book browsing method, program and storage medium
US20210406268A1 (en) Search result annotations
WO2017026146A1 (en) Information processing device, information processing method, and program
JP6524668B2 (en) Document retrieval apparatus, document retrieval method, program,
JP5424269B2 (en) Local correspondence extraction apparatus and local correspondence extraction method
JP5661449B2 (en) File name creation device
Kestemont et al. Robust rhymes? The stability of authorial style in medieval narratives
JP6488399B2 (en) Information presentation system and information presentation method
JP2009294723A (en) Search result display method, search device and computer program
JP5127553B2 (en) Information processing apparatus, information processing method, program, and recording medium
JP2019148859A (en) Device and method supporting discovery of design pattern in model development environment using flow diagram
US20130024761A1 (en) Semantic tagging of user-generated content
JP6287192B2 (en) Information processing apparatus, information processing method, and program
JP6245571B2 (en) Data structure, data generation apparatus, method and program thereof
JP5826148B2 (en) Drawing management server and drawing management system using the same
JP5541014B2 (en) Book information search device, book information search system, book information search method and program
JP4956298B2 (en) Dictionary construction support device
JP2009199164A (en) Document management device, document management method and recording medium
JP5870815B2 (en) Book information search device, book information search system, book information search method and program
JP6667452B2 (en) Method and apparatus for inputting text information
JP2004341770A (en) Data management system and data management method
JP2006350585A (en) Medical information input system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181030

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190422

R150 Certificate of patent or registration of utility model

Ref document number: 6524668

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150