JP5870776B2 - Link granting device, link granting method, and program - Google Patents

Link granting device, link granting method, and program Download PDF

Info

Publication number
JP5870776B2
JP5870776B2 JP2012053044A JP2012053044A JP5870776B2 JP 5870776 B2 JP5870776 B2 JP 5870776B2 JP 2012053044 A JP2012053044 A JP 2012053044A JP 2012053044 A JP2012053044 A JP 2012053044A JP 5870776 B2 JP5870776 B2 JP 5870776B2
Authority
JP
Japan
Prior art keywords
link
document
keyword
word
link destination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012053044A
Other languages
Japanese (ja)
Other versions
JP2013186798A (en
Inventor
和久 大野
和久 大野
侑吾 西川
侑吾 西川
伊藤 直之
直之 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2012053044A priority Critical patent/JP5870776B2/en
Publication of JP2013186798A publication Critical patent/JP2013186798A/en
Application granted granted Critical
Publication of JP5870776B2 publication Critical patent/JP5870776B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、電子書籍やウェブページなどに対してリンク先を付与するリンク付与装置等に関するものである。   The present invention relates to a link providing device that gives a link destination to an electronic book, a web page, or the like.

従来、コンテンツに関連する情報を、そのコンテンツにリンクさせる技術がある。   Conventionally, there is a technique for linking information related to content to the content.

例えば、特許文献1には、元ハイパーテキスト中の処理範囲に存在する元アンカーのリンク先ハイパーテキストを取得し、そのリンク先ハイパーテキストからリンク先アンカー情報を抽出し、元ハイパーテキストの元アンカー影響範囲に存在する文字列とリンク先アンカー情報に存在する文字列でマッチする新規アンカー情報を生成し、新アンカーを付与する技術が提案されている。   For example, in Patent Literature 1, the link destination hypertext of the original anchor existing in the processing range in the original hypertext is acquired, the link destination anchor information is extracted from the link destination hypertext, and the effect of the original anchor on the original hypertext There has been proposed a technique for generating new anchor information that matches a character string existing in a range and a character string existing in link destination anchor information, and adding a new anchor.

例えば、特許文献2には、テキストから動詞とその格要素となる名詞をキーフレーズとして抽出し、キーフレーズが共通する箇所をリンク作成し、テキストの表現に基づいて重要箇所を抽出することによってリンクの方向を決定する技術が提案されている。   For example, in Patent Document 2, a verb and a noun that is a case element are extracted from a text as a key phrase, a link is created where a key phrase is common, and an important portion is extracted based on the expression of the text. Techniques have been proposed for determining the direction.

例えば、特許文献3には、表示画面に表示されているWebページ上での表示位置の指定に基づいて、注目語彙を検出し、さらに注目語彙の周辺にある周辺語彙を検出し、注目語彙及び周辺語彙を用いてWebページを検索する技術が提案されている。   For example, in Patent Document 3, a vocabulary of interest is detected based on designation of a display position on a Web page displayed on a display screen, and further peripheral vocabularies around the vocabulary of interest are detected. Techniques for searching Web pages using peripheral vocabulary have been proposed.

特許2008−129998号公報Japanese Patent No. 2008-129998 特開平8−329108号公報JP-A-8-329108 特開2009−129098号公報JP 2009-129098 A

特許文献1では、文字列表記があいまいな場合、適切なリンク付与が困難になる課題があった。特許文献2および特許文献3では、抽出語の出現頻度は考慮されていないため、特定の語に影響されてしまう場合があり、間違ったリンクが付与されてしまう課題があった。   In Patent Document 1, when the character string notation is ambiguous, there is a problem that it is difficult to assign an appropriate link. In patent document 2 and patent document 3, since the appearance frequency of the extracted word is not taken into consideration, there is a case where it is influenced by a specific word and there is a problem that an incorrect link is given.

本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、電子書籍やウェブページなどに出現するキーワードに適切なリンク先を付与することが可能なリンク付与装置等を提供することである。   The present invention has been made in view of the above-described problems, and the object of the present invention is to provide a link providing device capable of assigning an appropriate link destination to a keyword appearing in an electronic book or a web page. Is to provide.

前述した目的を達成するために、第1の発明は、リンク先文書の見出しからキーワードリストを作成するキーワードリスト作成手段と、前記キーワードリストを用いて、リンク先文書及びリンク元文書からキーワードを抽出するキーワード抽出手段と、前記リンク元文書のキーワードの中で同表記異義語を1つ選択し、選択語を決定する選択語決定手段と、前記リンク元文書において、前記選択語、周辺語、及び前記周辺語に対するリンク先文書に含まれるキーワードの出現頻度を取得し、各リンク先文書候補において、前記キーワードリストに含まれるキーワードの出現頻度を取得し、前記選択語と前記各リンク先文書候補との類似度を算出する類似度算出手段と、前記類似度が最大のリンク先文書候補を、前記選択語に対するリンク先文書として決定する選択語リンク先文書決定手段と、を備えることを特徴とするリンク付与装置である。
第1の発明によって、周辺語だけでなく、周辺語に対するリンク先文書に含まれるキーワードも類似度の算出に用いるため、特定の語による影響が小さくなり、関連付け精度が向上する。
In order to achieve the above-mentioned object, the first invention extracts a keyword from a link destination document and a link source document using the keyword list creation means for creating a keyword list from the headings of the link destination document and the keyword list. A keyword extracting unit that selects one synonym of the same notation from the keywords of the link source document and determines a selected word; and the selected word, peripheral words, and The appearance frequency of the keyword included in the linked document with respect to the peripheral word is acquired, and the appearance frequency of the keyword included in the keyword list is acquired in each linked document candidate, and the selected word and each linked document candidate are A similarity calculation means for calculating the similarity of the link destination document candidate having the maximum similarity and a link destination sentence for the selected word A selection word destination document determination unit that determines as a link application device, characterized in that it comprises a.
According to the first invention, not only the peripheral word but also the keyword included in the linked document with respect to the peripheral word is used for calculating the similarity, so that the influence of the specific word is reduced and the association accuracy is improved.

前記類似度算出手段は、リンク先文書が一意に定まっていない前記周辺語を類似度算出処理の対象から外す。
これにより、類似度算出処理にノイズの情報が混入することを防ぐことができ、ひいては精度が向上する。
The similarity calculation means excludes the peripheral words whose link destination documents are not uniquely determined from the targets of similarity calculation processing.
As a result, it is possible to prevent noise information from being mixed into the similarity calculation process, thereby improving the accuracy.

前記選択語決定手段は、前記リンク元文書のキーワードの中で、同表記異義語よりも先に一意語を選択し、前記選択語リンク先文書決定手段は、前記選択語決定手段による選択に従って、同表記異義語に対するリンク先文書よりも先に、一意語に対するリンク先文書を決定する。
これにより、同表記異義語に対する類似度算出処理において、処理対象とする周辺語を増やすことができ、ひいては精度が向上する。
The selected word determination means selects a unique word prior to the same notation among keywords of the link source document, and the selected word link destination document determination means follows the selection by the selection word determination means, The link destination document for the unique word is determined prior to the link destination document for the same notation synonym.
Thereby, in the similarity calculation process for the same notation different words, it is possible to increase the number of peripheral words to be processed, and thus the accuracy is improved.

第2の発明は、リンク付与装置が実行するリンク付与方法であって、前記リンク付与装置の制御部が、リンク先文書の見出しからキーワードリストを作成するキーワードリスト作成ステップと、前記制御部が、前記キーワードリストを用いて、リンク先文書及びリンク元文書からキーワードを抽出するキーワード抽出ステップと、前記制御部が、前記リンク元文書のキーワードの中で同表記異義語を1つ選択し、選択語を決定する選択語決定ステップと、前記制御部が、前記リンク元文書において、前記選択語、周辺語、及び前記周辺語に対するリンク先文書に含まれるキーワードの出現頻度を取得し、各リンク先文書候補において、前記キーワードリストに含まれるキーワードの出現頻度を取得し、前記選択語と前記各リンク先文書候補との類似度を算出する類似度算出ステップと、前記制御部が、前記類似度が最大のリンク先文書候補を、前記選択語に対するリンク先文書として決定する選択語リンク先文書決定ステップと、を含むことを特徴とするリンク付与方法である。
第2の発明によって、周辺語だけでなく、周辺語に対するリンク先文書に含まれるキーワードも類似度の算出に用いるため、特定の語による影響が小さくなり、関連付け精度が向上する。
2nd invention is the link provision method which a link provision apparatus performs, Comprising: The control part of the said link provision apparatus creates the keyword list from the headline of a link destination document, The said control part, The keyword extraction step of extracting a keyword from the link destination document and the link source document using the keyword list, and the control unit selects one synonym of the same notation from the keywords of the link source document, and the selected word The selected word determining step for determining the keyword, and the control unit obtains the selected word, the peripheral word, and the appearance frequency of the keyword included in the linked document for the peripheral word in the link source document, and each linked document In the candidate, the appearance frequency of the keyword included in the keyword list is acquired, and the selected word and each linked document candidate A similarity calculation step of calculating the similarity, the control unit, the similarity is the maximum landing document candidates, include a selection word destination document determining step of determining as a link destination document for the selected word A link providing method characterized by the above.
According to the second invention, not only the peripheral word but also the keyword included in the linked document with respect to the peripheral word is used for calculating the similarity, so that the influence of the specific word is reduced, and the association accuracy is improved.

第3の発明は、リンク先文書の見出しからキーワードリストを作成するキーワードリスト作成手段と、前記キーワードリストを用いて、リンク先文書及びリンク元文書からキーワードを抽出するキーワード抽出手段と、前記リンク元文書のキーワードの中で同表記異義語を1つ選択し、選択語を決定する選択語決定手段と、前記リンク元文書において、前記選択語、周辺語、及び前記周辺語に対するリンク先文書に含まれるキーワードの出現頻度を取得し、各リンク先文書候補において、前記キーワードリストに含まれるキーワードの出現頻度を取得し、前記選択語と前記各リンク先文書候補との類似度を算出する類似度算出手段と、前記類似度が最大のリンク先文書候補を、前記選択語に対するリンク先文書として決定する選択語リンク先文書決定手段と、を有するリンク付与装置としてコンピュータを機能させるためのプログラムである。
第3の発明に係るプログラムをコンピュータにインストールすることで、第1の発明に係るリンク付与装置を得ることができる。
According to a third aspect of the present invention, there is provided a keyword list creating means for creating a keyword list from a heading of a linked document, a keyword extracting means for extracting a keyword from a linked document and a linked document using the keyword list, and the linked source Included in the selected word, a neighboring word, and a linked document for the neighboring word in the linked source document, by selecting one synonym of the same notation from the keywords of the document and determining the selected word The similarity calculation is performed to acquire the appearance frequency of the keyword included in the keyword list and calculate the similarity between the selected word and each link destination document candidate. And a selected word link destination for determining a linked document candidate having the maximum similarity as a linked document for the selected word And writing determination means, a program for causing a computer to function as a link applying device having a.
By installing the program according to the third invention in the computer, the link providing device according to the first invention can be obtained.

本発明により、電子書籍やウェブページなどに出現するキーワードに適切なリンク先を付与することが可能なリンク付与装置、リンク付与方法、およびプログラムを提供することができる。   According to the present invention, it is possible to provide a link assigning device, a link assigning method, and a program capable of assigning an appropriate link destination to a keyword appearing in an electronic book or a web page.

本発明の実施の形態に係るリンク付与装置の構成例を示す図である。It is a figure which shows the structural example of the link provision apparatus which concerns on embodiment of this invention. リンク付与装置の記憶部に記憶されるデータベースを示す図である。It is a figure which shows the database memorize | stored in the memory | storage part of a link provision apparatus. リンク先文書DBに記憶される情報の一例を示す図である。It is a figure which shows an example of the information memorize | stored in linked document DB. リンク元文書DBに記憶される情報の一例を示す図である。It is a figure which shows an example of the information memorize | stored in link original document DB. キーワードリストファイルの一例を示す図である。It is a figure which shows an example of a keyword list file. 選択語とリンク先文書とのリンク情報DBに記憶される情報の一例を示す図である。It is a figure which shows an example of the information memorize | stored in link information DB of a selection word and a link destination document. リンク付与後リンク元文書DBに記憶される情報の一例を示す図である。It is a figure which shows an example of the information memorize | stored in link source document DB after link provision. リンク付与処理を説明するフローチャートである。It is a flowchart explaining a link provision process. 図8のステップS2のキーワード抽出処理の詳細を説明するフローチャートである。It is a flowchart explaining the detail of the keyword extraction process of step S2 of FIG. 図9の具体的な処理内容を説明するための図である。It is a figure for demonstrating the specific processing content of FIG. 図8のステップS8の同表記異義語の関連付け処理の詳細を説明するフローチャートである。It is a flowchart explaining the detail of the related process of the same notation different term of step S8 of FIG. 図11の具体的な処理内容を説明するための図である。It is a figure for demonstrating the specific processing content of FIG. リンク付与後の電子書籍を提供する電子書籍提供システムの構成例を示す図である。It is a figure which shows the structural example of the electronic book provision system which provides the electronic book after link provision. 本発明の手法(実施例)と従来の手法(比較例)の評価結果の一例を示す図である。It is a figure which shows an example of the evaluation result of the method (Example) of this invention, and the conventional method (comparative example). 周辺語数毎に正解数を算出した場合の評価結果の一例を示す図である。It is a figure which shows an example of the evaluation result at the time of calculating the number of correct answers for every number of surrounding words.

以下、図面に基づいて、本発明の実施形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

[本発明の実施の形態]
図1は、本発明の実施の形態に係るリンク付与装置1の構成例を示す図である。なお、図1の構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
[Embodiments of the present invention]
FIG. 1 is a diagram illustrating a configuration example of a link providing device 1 according to an embodiment of the present invention. Note that the configuration in FIG. 1 is an example, and various configurations can be adopted depending on the application and purpose.

リンク付与装置1を実現するコンピュータは、制御部11、記憶部12、メディア入出力部13、通信制御部14、入力部15、表示部16、周辺機器I/F(インターフェイス)部17等が、バス18を介して接続される。   The computer that realizes the link providing device 1 includes a control unit 11, a storage unit 12, a media input / output unit 13, a communication control unit 14, an input unit 15, a display unit 16, a peripheral device I / F (interface) unit 17, and the like. Connection is made via a bus 18.

制御部11は、CPU、ROM、RAM等で構成される。CPUは、記憶部12、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス18を介して接続された各装置を駆動制御し、リンク付与装置1が行う後述する処理を実現する。ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS(Basic Input/Output System)等のプログラム、データ等を恒久的に保持している。RAMは、揮発性メモリであり、記憶部12、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークエリアを備える。   The control unit 11 includes a CPU, a ROM, a RAM, and the like. The CPU calls a program stored in the storage unit 12, ROM, recording medium or the like to a work memory area on the RAM, executes it, controls the drive of each device connected via the bus 18, and the link providing device 1 The process to be described later is realized. The ROM is a non-volatile memory, and permanently stores programs such as computer boot programs, BIOS (Basic Input / Output System), data, and the like. The RAM is a volatile memory, and temporarily stores a program, data, and the like loaded from the storage unit 12, ROM, recording medium, and the like, and includes a work area used by the control unit 11 to perform various processes.

記憶部12は、HDDであり、制御部11が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OS(オペレーティングシステム)に相当する制御プログラムや、後述する処理をコンピュータに実行させるためのアプリケーションプログラムが格納されている。これらの各プログラムコードは、制御部11により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。   The storage unit 12 is an HDD, and stores a program executed by the control unit 11, data necessary for program execution, an OS (operating system), and the like. With respect to the program, a control program corresponding to an OS (operating system) and an application program for causing a computer to execute processing described later are stored. Each of these program codes is read by the control unit 11 as necessary, transferred to the RAM, read by the CPU, and executed as various means.

メディア入出力部13(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)等のメディア入出力装置を有する。通信制御部14は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク間の通信を媒介する通信インターフェイスであり、ネットワークを介して、他のコンピュータ間との通信制御を行う。   The media input / output unit 13 (drive device) inputs / outputs data, for example, media such as a CD drive (-ROM, -R, -RW, etc.), DVD drive (-ROM, -R, -RW, etc.) Has input / output devices. The communication control unit 14 includes a communication control device, a communication port, and the like, and is a communication interface that mediates communication between a computer and a network, and performs communication control between other computers via the network.

入力部15は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。入力部15を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。   The input unit 15 inputs data and includes, for example, a keyboard, a pointing device such as a mouse, and an input device such as a numeric keypad. An operation instruction, an operation instruction, data input, and the like can be performed on the computer via the input unit 15.

表示部16は、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。   The display unit 16 includes a display device such as a liquid crystal panel, and a logic circuit or the like (video adapter or the like) for realizing a video function of the computer in cooperation with the display device.

周辺機器I/F部17は、コンピュータに周辺機器を接続させるためのポートであり、周辺機器I/F部17を介してコンピュータは周辺機器とのデータの送受信を行う。周辺機器I/F部17は、USB(Universal Serial Bus)やIEEE(The Institute of Electrical and
Electronics Engineers)1394やRS(Recommended Standard)−232C等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は有線、無線を問わない。バス18は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
The peripheral device I / F unit 17 is a port for connecting a peripheral device to the computer, and the computer transmits and receives data to and from the peripheral device via the peripheral device I / F unit 17. The peripheral device I / F unit 17 is a USB (Universal Serial Bus) or IEEE (The Institute of Electrical and
Electronics Engineers) 1394, RS (Recommended Standard) -232C, etc., and usually has a plurality of peripheral devices I / F. The connection form with the peripheral device may be wired or wireless. The bus 18 is a path that mediates transmission / reception of control signals, data signals, and the like between the devices.

本発明のリンク付与装置1は、リンク元文書とリンク先文書に関する情報をデータベースに予め記憶し、利用者によって電子書籍内で選択されたキーワード、周辺語、周辺語に対するリンク先文書に含まれるキーワードの出現頻度と、各リンク先文書候補におけるキーワードの出現頻度とを比較し、類似度が最大になるリンク先文書候補を決定し、キーワードに付与することができる装置である。   The link assigning device 1 of the present invention stores information related to a link source document and a link destination document in a database in advance, and includes keywords, peripheral words, and keywords included in the link destination document for the peripheral words selected in the electronic book by the user. Is compared with the appearance frequency of the keyword in each link destination document candidate, the link destination document candidate that maximizes the degree of similarity is determined, and can be assigned to the keyword.

以下、本実施の形態の説明にあたり、用語について定義する。「選択語」とは、電子書籍やウェブページに含まれるキーワードの中で、リンクを付与するためのリンク元となる文字列である。「周辺語」とは、電子書籍やウェブページの選択語の周辺に存在する文字列である。「同表記異義語」とは、語句を一意に識別することができない、つまり、異なる意味や内容が存在する文字列である。「一意語」とは、語句を一意に識別することができる文字列である。   Hereinafter, terms will be defined in the description of the present embodiment. The “selected word” is a character string that is a link source for providing a link among keywords included in an electronic book or a web page. A “peripheral word” is a character string existing around a selected word of an electronic book or a web page. A “same synonym” is a character string that cannot uniquely identify a phrase, that is, has a different meaning or content. A “unique word” is a character string that can uniquely identify a phrase.

図2は、リンク付与装置1の記憶部12に記憶されるデータベースを示す図である。図2に示すように、リンク付与装置1の記憶部12には、リンク先文書データベース(DB)21、リンク元文書データベース(DB)22、キーワードリストファイル23、選択語とリンク先文書とのリンク情報データベース(DB)24、およびリンク付与後リンク元文書データベース(DB)25が記憶される。   FIG. 2 is a diagram illustrating a database stored in the storage unit 12 of the link providing device 1. As shown in FIG. 2, the storage unit 12 of the link assigning apparatus 1 includes a link destination document database (DB) 21, a link source document database (DB) 22, a keyword list file 23, and a link between the selected word and the link destination document. An information database (DB) 24 and a post-link link source document database (DB) 25 are stored.

リンク先文書DB21は、例えば、図3に示すように、少なくとも、通常の見出し31、一意の見出し32、文書内容33、および文書所在34を、Noごとにリンク先文書情報として記憶する。   For example, as shown in FIG. 3, the linked document DB 21 stores at least a normal heading 31, a unique heading 32, document contents 33, and a document location 34 as linked document information for each No.

通常の見出し31は、リンク先文書(例えば、オンライン辞書やWikipedia等)の内容の要点を短くまとめた単語(キーワード)を示す。一意の見出し32は、同表記の通常の見出し31を一意に識別するための単語である。文書内容33は、リンク先文書の内容を示す。文書所在34は、リンク先文書の所在(アドレス)を示す。   The normal headline 31 indicates a word (keyword) that summarizes the main points of the contents of a linked document (for example, an online dictionary or Wikipedia). The unique heading 32 is a word for uniquely identifying the normal heading 31 having the same notation. The document content 33 indicates the content of the link destination document. The document location 34 indicates the location (address) of the linked document.

図3の例の場合、No1のリンク先文書情報には、「羽柴秀吉」の通常の見出し31、「羽柴秀吉」の一意の見出し32、「戦国時代から・・・」の文書内容33、「・・・/hashibahideyoshi.txt」の文書所在34が紐付けられている。No2のリンク先文書情報には、「高松城」の通常の見出し31、「高松城(香川県)」の一意の見出し32、「香川県高松に・・・」の文書内容33、「・・・/takamatsujyo-okayamaken.txt」の文書所在34が紐付けられている。No3のリンク先文書情報には、「高松城」の通常の見出し31、「高松城(岡山け)」の一意の見出し32、「備中国高松に・・・」の文書内容33、「・・・/takamatsujyo-okayamaken.txt」の文書所在34が紐付けられている。No4のリンク先文書情報には、「丸亀藩」の通常の見出し31、「丸亀藩」の一意の見出し32、「・・・」の文書内容33、「・・・/marugamehan.txt」の文書所在34が紐付けられている。No5のリンク先文書情報には、「徳川綱方」の通常の見出し31、「徳川綱方」の一意の見出し32、「・・・」の文書内容33、「・・・/tokugawatsunakata.txt」の文書所在34が紐付けられている。No6のリンク先文書情報には、「本能寺の変」の通常の見出し31、「本能寺の変」の一意の見出し32、「・・・」の文書内容33、「・・・/honnnoujinohen.txt」の文書所在34が紐付けられ、No7のリンク先文書情報には、「タイ」の通常の見出し31、「タイ(国名)」の一意の見出し32、「・・・」の文書内容33、「・・・/tai-kunimei.txt」の文書所在34が紐付けられている。   In the case of the example of FIG. 3, the linked document information of No. 1 includes a normal heading 31 of “Hashiba Hideyoshi”, a unique heading 32 of “Hashiba Hideyoshi”, a document content 33 of “From the Sengoku period ...”, “ ... / hashibahideyoshi.txt "is linked to the document location 34. The linked document information of No. 2 includes a normal heading 31 of “Takamatsu Castle”, a unique heading 32 of “Takamatsu Castle (Kagawa Prefecture)”, a document content 33 of “To Takamatsu ... in Kagawa Prefecture”, “・ The document location 34 of "/takamatsujyo-okayamaken.txt" is linked. The linked document information of No. 3 includes a normal heading 31 of “Takamatsu Castle”, a unique heading 32 of “Takamatsu Castle (Okayama)”, a document content 33 of “Bi-Chinese Takamatsu ...”, “・ The document location 34 of "/takamatsujyo-okayamaken.txt" is linked. The link destination document information of No. 4 includes a normal headline 31 of “Marugame Kaoru”, a unique heading 32 of “Marugame Kaoru”, a document content 33 of “...”, and a document of “... / marugamehan.txt” Location 34 is associated. The link destination document information of No. 5 includes a normal headline 31 of “Tokugawa Tsunakata”, a unique heading 32 of “Tokugawa Tsunakata”, a document content 33 of “...”, “... / tokugawatsunakata.txt”. The document locations 34 are associated with each other. The linked document information of No. 6 includes a normal headline 31 of “Honnoji no Hen”, a unique heading 32 of “Honnoji Hen”, a document content 33 of “...”, “... / honnnoujinohen.txt” The document location 34 of No. 7 is linked, and the link destination document information of No. 7 includes a normal headline 31 of “Thailand”, a unique headline 32 of “Thailand (country name)”, a document content 33 of “. ... / tai-kunimei.txt "is linked to the document location 34.

リンク元文書DB22は、例えば、図4に示すように、少なくとも、文書名41および文書内容42を、Noごとにリンク元文書情報として記憶する。   For example, as shown in FIG. 4, the link source document DB 22 stores at least the document name 41 and the document content 42 as link source document information for each No.

文書名41は、リンク元文書(電子書籍、ウェブページ等)の名称を示す。文書内容42は、文章(電子書籍、ウェブページ等)の内容を示す。   The document name 41 indicates the name of the link source document (electronic book, web page, etc.). The document content 42 indicates the content of a sentence (electronic book, web page, etc.).

図4の例の場合、No1のリンク元文書情報には、「香川県の歴史」の文書名41、「丸亀藩は金刀比羅宮への参・・・羽柴秀吉は長浜の統治政策として・・・」の文書内容42が紐付けられている。No2のリンク元文書情報には、「戦国武将織田信長」の文書名41、「本能寺の変によって・・・信長はそのスタイルを貫くことが・・・」の文書内容42が紐付けられている。   In the case of the example in FIG. 4, the document document number 41 of “History of Kagawa Prefecture” is included in the No. 1 link source document information, “Marugame Kaoru participates in Kintohira Shrine… Hideyoshi Hashiba is Nagahama's governing policy .. ”Is linked. The link source document information of No. 2 is associated with a document name 41 of “Sengoku Busho Nobunaga Oda” and a document content 42 of “Nobunaga must follow its style ... .

キーワードリストファイル23は、例えば、図5に示すように、リンク先文書DB21の通常の見出し31をキーワード51として一覧登録したものである。なお、「高松城(香川県)」と「高松城(岡山県)」のように、重複する同表記のキーワードは、1つだけ登録される。   For example, as shown in FIG. 5, the keyword list file 23 is a list in which normal headings 31 of the link destination document DB 21 are registered as keywords 51. Note that only one keyword with the same notation is registered, such as “Takamatsu Castle (Kagawa Prefecture)” and “Takamatsu Castle (Okayama Prefecture)”.

図5の例の場合、No1〜No6には、「羽柴秀吉」、「高松城」、「丸亀藩」、「徳川綱方」、「本能寺の変」、「タイ」のキーワード51がそれぞれ登録されている。   In the case of the example in FIG. 5, the keywords 51 of “Hideshihide Hashiba”, “Takamatsu Castle”, “Marugame Kaoru”, “Tokugawa Tsunakata”, “Honnoji Temple” and “Thailand” are registered in No1 to No6, respectively. ing.

選択語とリンク先文書とのリンク情報DB24は、例えば、図6に示すように、少なくとも、文書名61、選択語62、およびリンク先文書識別情報63を、Noごとにリンク情報として記憶している。   For example, as shown in FIG. 6, the link information DB 24 of the selected word and the linked document stores at least the document name 61, the selected word 62, and the linked document identification information 63 as link information for each No. Yes.

文書名61は、リンク元文書(電子書籍、ウェブページ等)の名称を示す。選択語62は、リンク元文書から選択されたキーワードの中から選ばれた1つを示す。リンク先文書識別情報63は、同表記の単語を一意に識別するための単語であり、リンク先文書DB21の一意の見出し32に紐付けられている。   The document name 61 indicates the name of the link source document (electronic book, web page, etc.). The selected word 62 indicates one selected from the keywords selected from the link source document. The link destination document identification information 63 is a word for uniquely identifying the same notation word, and is linked to the unique heading 32 of the link destination document DB 21.

図6の例の場合、No1のリンク情報には、「香川県の歴史」の文書名61、「丸亀藩」の選択語62、「丸亀藩」のリンク先文書識別情報63が紐付けられている。No2のリンク情報には、「香川県の歴史」の文書名61、「徳川綱方」の選択語62、「徳川綱方」のリンク先文書識別情報63が紐付けられている。No3のリンク情報には、「香川県の歴史」の文書名61、「羽柴秀吉」の選択語62、「羽柴秀吉」のリンク先文書識別情報63が紐付けられている。No4のリンク情報には、「香川県の歴史」の文書名61、「高松城」の選択語62、「高松城(香川県)」のリンク先文書識別情報63が紐付けられている。No5のリンク情報には、「戦国武将織田信長」の文書名61、「本能寺の変」の選択語62、「本能寺の変」のリンク先文書識別情報63が紐付けられている。   In the case of the example in FIG. 6, the link information of No. 1 is linked with the document name 61 of “Kagawa Prefecture History”, the selection word 62 of “Marugame Kaoru”, and the linked document identification information 63 of “Marugame Kaoru”. Yes. The link information of No. 2 is associated with the document name 61 of “History of Kagawa Prefecture”, the selection word 62 of “Tokukawa Tsunakata”, and the linked document identification information 63 of “Tokukawa Tsunakata”. The link information of No. 3 is associated with a document name 61 of “History of Kagawa Prefecture”, a selection word 62 of “Hideshiba Hideyoshi”, and link destination document identification information 63 of “Hideshiba Hashiba”. The link information of No. 4 is associated with the document name 61 of “History of Kagawa Prefecture”, the selected word 62 of “Takamatsu Castle”, and the linked document identification information 63 of “Takamatsu Castle (Kagawa Prefecture)”. The link information of No. 5 is associated with the document name 61 of “Sengoku Busho Oda Nobunaga”, the selection word 62 of “Honnoji no Hen”, and the link destination document identification information 63 of “Honnoji no Hen”.

なお、図6の例では、リンク先文書識別情報63は、リンク先文書DB21の一意の見出し32に紐付けられているものとしたが、これに限らず、文書所在34、あるいは、識別番号等、リンク先を一意に識別することができれば何でもよい。   In the example of FIG. 6, the link destination document identification information 63 is linked to the unique heading 32 of the link destination document DB 21. However, the present invention is not limited to this, and the document location 34, the identification number, or the like Anything can be used as long as the link destination can be uniquely identified.

リンク付与後リンク元文書DB25は、例えば、図7に示すように、少なくとも、文書名71および文書内容72を、Noごとにリンク付与後リンク元文書情報として記憶する。   For example, as shown in FIG. 7, the post-link link source document DB 25 stores at least the document name 71 and the document content 72 as post-link link source document information for each No.

文書名71は、リンク元文書(電子書籍、ウェブページ等)の名称を示し、選択語とリンク先文書とのリンク情報DB24の文書名61に紐付けられている。文書内容72は、例えば、XML(Extensible Markup Language)の形式で記述された文章(電子書籍、ウェブページ等)の内容を示す。   The document name 71 indicates the name of the link source document (electronic book, web page, etc.), and is linked to the document name 61 of the link information DB 24 between the selected word and the link destination document. The document content 72 indicates, for example, the content of a sentence (electronic book, web page, etc.) described in XML (Extensible Markup Language) format.

No1のリンク付与後リンク元文書情報には、「香川県の歴史」の文書名71、「<a
href=”http://・・・〜羽柴秀吉</a>は長浜の統治政策として・・・」の文書内容72が紐付けられている。No2のリンク付与後リンク元文書情報には、「戦国武将織田信長」の文書名71、「<a href=”http://・・・〜信長はそのスタイルを貫くことだが・・・」の文書内容72が紐付けられている。
The link source document information after the link of No. 1 includes the document name 71 of “History of Kagawa Prefecture”, “<a
The document content 72 of "href =" http: // ... ~ Hideyoshi Hashiba </a> is Nagahama's governing policy ... "is linked. The link source document information after the No. 2 link is attached includes the document name 71 of “Sengoku Busho Nobunaga Oda” and “<a href =” http: // ... Document content 72 is linked.

以上のような、データベース群のうち、リンク先文書DB21は、予め、オンライン辞書やWikipedia等から取得したリンク先文書に基づいてリンク付与装置1の管理者によって作成されている。リンク元文書DB22は、予め、電子書籍販売サイト等(図示せず)から取得(購入)した電子書籍やウェブ上から取得したウェブページに基づいてリンク付与装置1の管理者によって作成されている。一方、キーワードリストファイル23〜リンク付与後リンク元文書DB25は、図8のフローチャートを参照して後述するリンク付与処理によって登録される。   Of the database group as described above, the linked document DB 21 is created in advance by the administrator of the link assigning apparatus 1 based on the linked document acquired from an online dictionary, Wikipedia, or the like. The link source document DB 22 is created in advance by an administrator of the link providing device 1 based on an electronic book acquired (purchased) from an electronic book sales site or the like (not shown) or a web page acquired from the web. On the other hand, the keyword list file 23 to the post-link-attached link source document DB 25 are registered by a link assignment process described later with reference to the flowchart of FIG.

図8は、リンク付与装置1が実行するリンク付与処理を説明するフローチャートである。   FIG. 8 is a flowchart for explaining the link provision process executed by the link provision apparatus 1.

ステップS1において、リンク付与装置1の制御部11は、リンク先文書DB21の通常の見出し31(図3)からキーワードリストファイル23(図5)を作成する。   In step S1, the control unit 11 of the link assignment device 1 creates a keyword list file 23 (FIG. 5) from the normal headline 31 (FIG. 3) in the link destination document DB 21.

ステップS2において、リンク付与装置1の制御部11は、リンク先文書DB21(又はリンク元文書DB22)に記憶されている文書とステップS1の処理で作成したキーワードリストファイル23を比較し、キーワード抽出処理を行う。   In step S2, the control unit 11 of the link providing apparatus 1 compares the document stored in the link destination document DB 21 (or the link source document DB 22) with the keyword list file 23 created in the process of step S1, and performs keyword extraction processing. I do.

ここで、図9のフローチャートを参照して、図8のステップS2のキーワード抽出処理の詳細について説明する。図9の説明に当たり、図10を参照し、具体的な処理内容も説明する。   Here, the details of the keyword extraction process in step S2 of FIG. 8 will be described with reference to the flowchart of FIG. In the description of FIG. 9, the specific processing contents will also be described with reference to FIG.

ステップS21において、リンク付与装置1の制御部11は、リンク先文書DB21(又はリンク元文書DB22)に記憶されている文書(図3の文書内容33又は図4の文書内容42)とステップS1の処理で作成したキーワードリストファイル23を比較し、文字コードが完全一致する文字列を一致文字列として抽出する。リンク先文書DB21(又はリンク元文書DB22)に記憶されている文書に適用される文字符号化方式と、キーワードリストファイル23に含まれるキーワードに適用される文字符号化方式は同じ方式である。   In step S21, the control unit 11 of the link assignment device 1 and the document (the document content 33 in FIG. 3 or the document content 42 in FIG. 4) stored in the link destination document DB 21 (or the link source document DB 22) and the step S1. The keyword list file 23 created by the processing is compared, and a character string whose character codes are completely matched is extracted as a matched character string. The character encoding method applied to the documents stored in the link destination document DB 21 (or the link source document DB 22) and the character encoding method applied to the keywords included in the keyword list file 23 are the same method.

例えば、リンク元文書DB22(図4)のNo2のリンク元文書情報に紐付けられた文書内容42の「本能寺の変によって・・・信長がそのスタイルを貫くことが・・・」と、キーワードリストファイル23(図5)が比較される。その結果、文字コードが完全一致する文字列として、図10(a)に示すように、キーワードリストファイル23のNo5の「本能寺の変」のキーワード51と完全一致する一致文字列81a、No6の「タイ」のキーワード51と完全一致する一致文字列81bが抽出される。   For example, the keyword list of “Nounaga may go through the style ... by the change of Honnoji” in the document content 42 linked to the link source document information No. 2 in the link source document DB 22 (FIG. 4), Files 23 (FIG. 5) are compared. As a result, as shown in FIG. 10A, as the character strings whose character codes are completely matched, as shown in FIG. 10A, the matching character strings 81a and No. 6 of “No. A matching character string 81b that completely matches the keyword “Thai” 51 is extracted.

図9の説明に戻る。ステップS22において、リンク付与装置1の制御部11は、リンク先文書DB21(又はリンク元文書DB22)に記憶されている文書(図3の文書内容33又は図4の文書内容42)を形態素解析する。   Returning to the description of FIG. In step S22, the control unit 11 of the link providing apparatus 1 performs a morphological analysis on the document (the document content 33 in FIG. 3 or the document content 42 in FIG. 4) stored in the link destination document DB 21 (or the link source document DB 22). .

例えば、リンク元文書DB22(図4)のNo2のリンク元文書情報に紐付けられた文書内容42の「本能寺の変によって・・・信長がそのスタイルを貫くことが・・・」が、形態素解析され、図10(b)に示すように、「本能寺」の形態素82a、「の」の形態素82b、「変」の形態素82c、「スタイル」の形態素82dが抽出される。   For example, the document content 42 linked to the link source document information No. 2 in the link source document DB 22 (FIG. 4) indicates that “Nobunaga's change may cause Nobunaga to follow its style…” Then, as shown in FIG. 10B, a “hononji” morpheme 82a, a “no” morpheme 82b, a “weird” morpheme 82c, and a “style” morpheme 82d are extracted.

図9に戻る。ステップS23において、リンク付与装置1の制御部11は、ステップS21の処理で抽出された一致文字列(図10(a)の例では、一致文字列81a、81b)を1つ選択する(例えば、一致文字列81aを選択する)。ステップS24において、リンク付与装置1の制御部11は、ステップS23の処理で選択した一致文字列81aと、ステップS22の処理による形態素解析の結果(図10(b)の例では、形態素82a〜82d)を比較する。   Returning to FIG. In step S23, the control unit 11 of the link providing device 1 selects one matching character string (matching character strings 81a and 81b in the example of FIG. 10A) extracted in the process of step S21 (for example, The matching character string 81a is selected). In step S24, the control unit 11 of the link providing apparatus 1 matches the matching character string 81a selected in the process of step S23 and the result of the morpheme analysis by the process of step S22 (in the example of FIG. 10B, morphemes 82a to 82d). ).

ステップS25において、リンク付与装置1の制御部11は、ステップS24の処理の結果、一致部分が形態素の完全な組み合わせか否かを判定し、一致部分が形態素の完全な組み合わせであると判定した場合、ステップS26に進み、一致文字列をキーワードとして抽出する。   In step S25, the control unit 11 of the link assignment apparatus 1 determines whether the matching part is a complete combination of morphemes as a result of the process of step S24, and determines that the matching part is a complete combination of morphemes. In step S26, the matching character string is extracted as a keyword.

例えば、「本能寺の変」の一致文字列81aと、「本能寺」の形態素82a、「の」の形態素82b、「変」の形態素82c、「スタイル」の形態素82dが比較され、「本能寺の変」の一致文字列81aは、形態素82a、82b、82cの完全な組み合わせであるため、図10(c)に示すように、キーワード83として抽出される。   For example, the matched character string 81a of “Honnoji” is compared with the “Honnoji” morpheme 82a, “No” morpheme 82b, “Hen” morpheme 82c, and “Style” morpheme 82d. The matched character string 81a is a complete combination of the morphemes 82a, 82b, and 82c, and therefore is extracted as the keyword 83 as shown in FIG.

一方、ステップS25において、リンク付与装置1の制御部11は、一致部分が形態素の完全な組み合わせでないと判定した場合、ステップS26の処理をスキップし、ステップS27に進む。   On the other hand, when the control unit 11 of the link providing apparatus 1 determines in step S25 that the matching part is not a complete combination of morphemes, the process of step S26 is skipped and the process proceeds to step S27.

ステップS27において、リンク付与装置1の制御部11は、ステップS21の処理で抽出された全ての一致文字列について処理が終了したか否かを判定し、まだ処理していない一致文字列があると判定した場合、ステップS23に戻り、上述した処理を繰り返し実行する。そして、ステップS27において、リンク付与装置1の制御部11は、ステップS21の処理で抽出された全ての一致文字列について処理が終了したと判定した場合、キーワード抽出処理を終了し、図8のステップS3に戻る。   In step S27, the control unit 11 of the link assignment device 1 determines whether or not the processing has been completed for all the matching character strings extracted in the processing of step S21, and if there is a matching character string that has not been processed yet. When it determines, it returns to step S23 and performs the process mentioned above repeatedly. Then, in step S27, when the control unit 11 of the link assignment device 1 determines that the process has been completed for all the matching character strings extracted in the process of step S21, the keyword extraction process is terminated, and the step of FIG. Return to S3.

ステップS3において、リンク付与装置1の制御部11は、ステップS2(図9)のキーワード抽出処理で抽出されたキーワードを1つ選択し(例えば、「本能寺」のキーワード83を選択し)、選択語を決定する。ステップS4において、リンク付与装置1の制御部11は、ステップS3の処理で決定した選択語に対してリンク先文書が一意に決まるか否かを判定し、一意に決まると判定した場合、ステップS5に進む。   In step S3, the control unit 11 of the link assigning apparatus 1 selects one keyword extracted in the keyword extraction process in step S2 (FIG. 9) (for example, selects the keyword 83 of “Honnoji”), and selects the selected word. To decide. In step S4, the control unit 11 of the link providing apparatus 1 determines whether or not the link destination document is uniquely determined for the selected word determined in the process of step S3. Proceed to

例えば、「本能寺の変」の選択語は、リンク先文書DB21の一意の見出し32と同じであるため、選択語に対してリンク先文書が一意に決まると判定される。   For example, since the selected word “Honnoji no Hen” is the same as the unique heading 32 in the linked document DB 21, it is determined that the linked document is uniquely determined for the selected word.

ステップS5において、リンク付与装置1の制御部11は、選択語に対して一意に決まると判定されたリンク先文書DB21とのリンク情報を、選択語とリンク先文書とのリンク情報DB24に格納する。これにより、例えば、図6に示すように、選択語とリンク先文書とのリンク情報DB24のNo5のリンク情報には、「戦国武将織田信長」の文書名61、「本能寺の変」の選択語62、および「本能寺の変」のリンク先文書識別情報63が格納される。   In step S5, the control unit 11 of the link providing device 1 stores link information with the link destination document DB 21 determined to be uniquely determined for the selected word in the link information DB 24 between the selected word and the link destination document. . Accordingly, for example, as shown in FIG. 6, the link information of No. 5 in the link information DB 24 between the selected word and the linked document includes the document name 61 of “Sengoku Busho Nobunaga” and the selected word of “Honnoji no Hen”. 62 and link destination document identification information 63 of “Honnoji no Hen” are stored.

ステップS4において、リンク付与装置1の制御部11は、ステップS3の処理で決定した選択語に対してリンク先文書が一意に決まらないと判定した場合、ステップS5の処理をスキップし、ステップS6に進む。   In step S4, when the control unit 11 of the link providing apparatus 1 determines that the link destination document is not uniquely determined for the selected word determined in the process of step S3, the process of step S5 is skipped, and the process proceeds to step S6. move on.

例えば、「高松城」が選択語として決定された場合、リンク先文書DB21の一意の見出し32に、「高松城(香川県)」と「高松城(岡山県)」の2つが存在するため、選択語に対してリンク先文書が一意に決まらないと判定される。   For example, when “Takamatsu Castle” is determined as the selected word, there are two “Takamatsu Castle (Kagawa Prefecture)” and “Takamatsu Castle (Okayama Prefecture)” in the unique heading 32 of the linked document DB 21. It is determined that the link destination document is not uniquely determined for the selected word.

ステップS6において、リンク付与装置1の制御部11は、ステップS2のキーワード抽出処理で抽出された全てのキーワードを選択済みか否か判定し、まだ選択していないキーワードがあると判定した場合、ステップS3に戻り、上述した処理を繰り返し実行する。そして、ステップS6において、リンク付与装置1の制御部11は、全てのキーワードを選択済みと判定した場合、ステップS7に進む。   In step S6, the control unit 11 of the link assignment device 1 determines whether all the keywords extracted in the keyword extraction process in step S2 have been selected. Returning to S3, the above-described processing is repeatedly executed. If the controller 11 of the link providing device 1 determines in step S6 that all keywords have been selected, the process proceeds to step S7.

ステップS7において、リンク付与装置1の制御部11は、リンク元文書DB22の文書(図4の文書内容42)から、未対応のキーワード(同表記異義語)を1つ選択し(例えば、「高松城」のキーワードを選択し)、選択語を決定する。ステップS8において、リンク付与装置1の制御部11は、ステップS7の処理で決定した選択語(同表記異義語)に対して関連付け処理を行う。   In step S7, the control unit 11 of the link providing apparatus 1 selects one unsupported keyword (same synonym) from the document in the link source document DB 22 (document content 42 in FIG. 4) (for example, “Takamatsu” Select the keyword “castle” and decide the selected word. In step S8, the control part 11 of the link provision apparatus 1 performs an association process with respect to the selected word (same notation synonym) determined by the process of step S7.

ここで、図11のフローチャートを参照して、図8のステップS8の同表記異義語の関連付け処理の詳細について説明する。図11の説明に当たり、図12を参照し、具体的な処理内容も説明する。   Here, with reference to the flowchart of FIG. 11, the details of the same notation synonym association processing in step S8 of FIG. 8 will be described. In the description of FIG. 11, the specific processing contents will also be described with reference to FIG.

ステップS31において、リンク付与装置1の制御部11は、リンク元文書DB22に記憶されているリンク元文書において、選択語、周辺語及び周辺語に対するリンク先文書に含まれるキーワードの出現頻度を取得し、TF(term frequency)・IDF(inverse document
frequency)法により重み付けする。なお、TF・IDF法は、公知の技術(改良された技術を含む。)を利用することができる。
In step S31, the control unit 11 of the link providing device 1 acquires the appearance frequency of the keyword included in the link destination document for the selected word, the peripheral word, and the peripheral word in the link source document stored in the link source document DB 22. , TF (term frequency), IDF (inverse document
frequency) method. In the TF / IDF method, known techniques (including improved techniques) can be used.

例えば、図12に示すように、リンク元文書91において、選択語が「高松城」とされ、周辺語が「丸亀藩」、「徳川綱方」、「羽柴秀吉」とされた場合、周辺語のリンク先文書92は、それぞれ、「丸亀藩」、「徳川綱方」、「羽柴秀吉」とされる。そして、周辺語のリンク先文書92に含まれる、周辺語のリンク先文書内に出現するキーワード93は、それぞれ、「丸亀城、讃岐国、香川県」、「讃岐国、高松藩、松平頼重」、「毛利輝元、備中国、織田信長」とされる。リンク付与装置1の制御部11は、周辺語のリンク先文書92に出現するキーワード93の出現頻度を取得し、TF・IDF法により重み付けすることで、選択語の特徴ベクトル94を生成する。   For example, as shown in FIG. 12, in the link source document 91, if the selected word is “Takamatsu Castle” and the peripheral words are “Marugame Kaoru”, “Tokugawa Tsunakata”, “Hashiba Hideyoshi” The linked documents 92 are “Marugame Kaoru”, “Tokugawa Tsunakata”, and “Hashiba Hideyoshi”, respectively. The keywords 93 appearing in the peripheral word linked documents included in the peripheral word linked documents 92 are “Marugame Castle, Iki Kuni, Kagawa Prefecture”, “Iki Kuni, Takamatsu Satoshi, and Matsudaira Yoseshige, respectively. ”,“ Takemoto Mohri, Bi China, Nobunaga Oda ”. The control unit 11 of the link providing device 1 obtains the appearance frequency of the keyword 93 that appears in the link destination document 92 of the peripheral word, and generates the feature vector 94 of the selected word by weighting by the TF / IDF method.

なお、ステップS31の処理で、周辺語が同表記異義語であり、リンク先文書が一意に定まっていない場合、その周辺語は類似度算出処理の対象から外す。例えば、図12の例において、「丸亀藩」に関する辞書の記載が時代によって異なり、以下の2種類に分かれていたとする。
1.丸亀藩(生駒氏の時代)
2.丸亀藩(山崎氏、京極氏の時代)
In the process of step S31, if the peripheral word is a synonym of the same notation and the link destination document is not uniquely determined, the peripheral word is excluded from the target of the similarity calculation process. For example, in the example of FIG. 12, it is assumed that the description of the dictionary regarding “Marugame Kaoru” varies depending on the era and is divided into the following two types.
1. Marugame Kaoru (Ikoma's time)
2. Marugame Kaoru (era of Mr. Yamazaki and Mr. Kyogoku)

そして、「高松城」の関連付け処理をするときに、「丸亀藩」のリンク先文書が一意に定まっていない場合、「丸亀藩」は類似度算出処理の対象から外す。つまり、リンク先文書が一意に定まっていない周辺語を処理の対象から外すことにより、ノイズの情報が混入することを防ぐことができ、ひいては関連付け処理の精度が向上する。   If the linked document of “Marugame Kaoru” is not uniquely determined when performing the process of associating “Takamatsu Castle”, “Marugame Kaoru” is excluded from the similarity calculation process. That is, by excluding peripheral words whose link destination documents are not uniquely determined from processing targets, it is possible to prevent noise information from being mixed, and as a result, the accuracy of the association processing is improved.

ステップS32において、リンク付与装置1の制御部11は、各リンク先文書候補において、キーワードリストファイル23(図5)に含まれるキーワードの出現頻度を取得し、TF−IDF法により重み付けする。   In step S32, the control unit 11 of the link assigning apparatus 1 acquires the appearance frequency of the keyword included in the keyword list file 23 (FIG. 5) in each link destination document candidate, and weights it by the TF-IDF method.

例えば、図12に示すように、「高松城(香川県)」のリンク先文書候補95a内に出現するキーワードは、「丸亀藩、讃岐国、引田城、香川県」とされ、「高松城(岡山県)」のリンク先文書候補95b内に出現するキーワードは、「岡山県、備中国、羽柴秀吉、石川氏」とされる。リンク付与装置1の制御部11は、リンク先文書候補95a、95bに出現するキーワードの出現頻度をそれぞれ取得し、TF・IDF法により重み付けすることで、リンク先文書候補の特徴ベクトル96a、96bを生成する。   For example, as shown in FIG. 12, keywords appearing in the linked document candidate 95a of “Takamatsu Castle (Kagawa Prefecture)” are “Marugame Kaoru, Sanuki Country, Hikida Castle, Kagawa Prefecture”, and “Takamatsu Castle ( The keywords appearing in the linked document candidate 95b of “Okayama Prefecture” are “Okayama Prefecture, Bin China, Hideyoshi Hashiba, and Mr. Ishikawa”. The control unit 11 of the link assigning apparatus 1 acquires the appearance frequencies of the keywords appearing in the link destination document candidates 95a and 95b, respectively, and weights them by the TF / IDF method, thereby obtaining the feature vectors 96a and 96b of the link destination document candidates. Generate.

ステップS33において、リンク付与装置1の制御部11は、ステップS31およびステップS32の処理による重み付けの結果を用いて、選択語と、各リンク先文書候補との類似度を算出する。   In step S33, the control unit 11 of the link providing apparatus 1 calculates the similarity between the selected word and each link destination document candidate using the weighted result obtained by the processing in steps S31 and S32.

図12の例では、選択語の特徴ベクトル94と、リンク先文書候補の特徴ベクトル96a、96bとの類似度が算出される。   In the example of FIG. 12, the similarity between the feature vector 94 of the selected word and the feature vectors 96a and 96b of the linked document candidates is calculated.

ステップS34において、リンク付与装置1の制御部11は、ステップS33の処理による算出結果から、類似度が最大のリンク先文書候補を、選択語に対するリンク先文書とし、選択語とリンク先文書とのリンク情報DB24(図6)に格納する。   In step S34, the control unit 11 of the link assigning apparatus 1 sets the link destination document candidate having the maximum similarity as the link destination document for the selected word from the calculation result obtained in step S33, and sets the selected word and the link destination document. It is stored in the link information DB 24 (FIG. 6).

図12の例では、リンク先文書候補95aが、類似度が最大とされるため、「高松城(香川県)」の選択語62、「高松城(香川県)」のリンク先文書識別情報63が紐付けられ、選択語とリンク先文書とのリンク情報DB24に格納される。   In the example of FIG. 12, since the linked document candidate 95a has the highest similarity, the selected word 62 of “Takamatsu Castle (Kagawa Prefecture)” and the linked document identification information 63 of “Takamatsu Castle (Kagawa Prefecture)” Are linked and stored in the link information DB 24 between the selected word and the linked document.

以上のように、キーワードの周辺語の出現頻度に加え、周辺語の関連付け先の文書内容に出現するキーワードの出現頻度も類似度算出に考慮することにより、類似度算出に用いる語の種類を増やし、特定の語への影響を少なくし、関連付け処理の精度を向上させることができる。   As described above, in addition to the frequency of appearance of peripheral words of keywords, the frequency of appearance of keywords appearing in the document content to which the peripheral words are associated is also considered in the similarity calculation, thereby increasing the types of words used for similarity calculation. The influence on a specific word can be reduced, and the accuracy of the association process can be improved.

図8の説明に戻る。ステップS9において、リンク付与装置1の制御部11は、リンク元文書DB22から、全ての同表記異義語(未対応のキーワード)を選択済みか否か判定し、まだ選択していない同表記異義語があると判定した場合、ステップS7に戻り、上述した処理を繰り返し実行する。そして、ステップS9において、リンク付与装置1の制御部11は、全ての同表記異義語を選択済みと判定した場合、ステップS10に進む。   Returning to the description of FIG. In step S9, the control unit 11 of the link assignment device 1 determines whether or not all the synonym synonyms (unsupported keywords) have been selected from the link source document DB 22, and the synonym synonyms that have not yet been selected. If it is determined that there is, the process returns to step S7, and the above-described processing is repeatedly executed. In step S9, when the control unit 11 of the link providing apparatus 1 determines that all the same-notation synonyms have been selected, the process proceeds to step S10.

ステップS10において、リンク付与装置1の制御部11は、選択語とリンク先文書とのリンク情報DB24を参照し、リンク元文書へのリンクを付与し、リンク付与後リンク元文書DB25(図7)に格納する。   In step S10, the control unit 11 of the link assignment device 1 refers to the link information DB 24 between the selected word and the link destination document, assigns a link to the link source document, and provides a link source document DB 25 after link assignment (FIG. 7). To store.

図7の例に示すように、「香川県の歴史」の文書名71の文書内容72において、「丸亀藩」に「a href=”http://・・・/marugamehan.txt/”」のリンクが付与され、「高松城」に「a href=”http://・・・/takamatsujyo-kagawaken.txt/”」のリンクが付与され、「徳川綱方」に「a href=”http://・・・tokugawatsunakata.txt/”」のリンクが付与され、「羽柴秀吉」に「a href=”http://・・/hashibahideyoshi.txt/”」のリンクが付与される。   As shown in the example of FIG. 7, in the document content 72 of the document name 71 of “History of Kagawa Prefecture”, “a href =” http: // ・ ・ ・ /marugamehan.txt/ ”” is added to “Marugame Kaoru”. A link is added, “a href =” http: // ・ ・ ・ /takamatsujyo-kagawaken.txt/ ”” is added to “Takamatsu Castle”, and “a href =” http: //...Tokugawatsunakata.txt/ ”” is added, and “a href =” http: // ・ /hashibahideyoshi.txt/ ”” is added to “Hashiba Hideyoshi”.

以上のリンク付与処理において、ステップS3〜S6で、同表記異義語ではない語(つまり一意語)を先に処理し、ステップS7〜S9で、同表記異義語を後から処理する理由は、図11のステップS31にて上述したように、周辺語が同表記異義語であり、リンク先文書が一意に定まっていない場合、その周辺語を類似度算出処理の対象から外すところ、文章に出現する順に処理をしてしまうと、周辺語の数が減ってしまうためである。   In the above link assignment processing, the reason why the words that are not the same notation (that is, unique words) are processed first in steps S3 to S6 and the same notation is processed later in steps S7 to S9 is shown in FIG. As described above in step S31, if the peripheral word is a synonym of the same notation and the link destination document is not uniquely determined, the peripheral word is removed from the target of similarity calculation processing and appears in the sentence. This is because if the processing is performed in order, the number of neighboring words is reduced.

図12の例の場合、仮に「丸亀藩」の後に「高松城」を処理すると(文章に出現する順に処理すると)、「徳川綱方」や「羽柴秀吉」はリンク先文書が一意に定まっていないので、「高松城」の周辺語は「丸亀藩」だけとなる。逆に言えば、同表記異義語ではない語を先に処理しておくことによって、同表記異義語に対する周辺語の数を増やすことができ、ひいては類似算出処理の精度が向上する。   In the example of FIG. 12, if “Takamatsu Castle” is processed after “Marugame Kaoru” (processing in the order in which they appear in the text), “Tokukawa Tsunakata” and “Hideshiba Hashiba” have unique linked documents. Since there is no such thing, the only word surrounding "Takamatsu Castle" is "Marugame Kaoru". In other words, by processing words that are not synonyms in advance, the number of peripheral words for the synonyms can be increased, and the accuracy of the similarity calculation process is improved.

以上のリンク付与処理によって、電子書籍やウェブページなどに含まれるキーワードに対して、適切なリンク先文書のリンクが付与される。本発明は、リンク先文書のリンクが付与された電子書籍やウェブページなどを、利用者に提供することもできる。   With the above link assignment processing, an appropriate link destination document link is assigned to a keyword included in an electronic book or a web page. The present invention can also provide a user with an electronic book, a web page, or the like to which a link of a linked document is assigned.

[リンク付与後の電子書籍の利用例]
図13は、リンク付与後の電子書籍を提供する電子書籍提供システム100の構成例を示す図である。
[Examples of using e-books after linking]
FIG. 13 is a diagram illustrating a configuration example of an electronic book providing system 100 that provides an electronic book with a link attached.

図13に示す電子書籍提供システム100は、電子書籍閲覧端末101、電子書籍提供サーバ102がネットワーク(図示せず)を介して相互に接続されることで構成される。なお、電子書籍閲覧端末101、電子書籍提供サーバ102の数は、任意であり、それぞれ複数設けることも勿論可能である。   An electronic book providing system 100 shown in FIG. 13 is configured by connecting an electronic book browsing terminal 101 and an electronic book providing server 102 to each other via a network (not shown). Note that the numbers of the electronic book browsing terminal 101 and the electronic book providing server 102 are arbitrary, and it is of course possible to provide a plurality of them.

電子書籍閲覧端末101は、CPU(Central
Processing Unit)、ROM(Read Only
Memory)、RAM(Random Access
Memory)、HDD(Hard Disc Drive)、入力部、および表示画面などを実装したコンピュータである。電子書籍閲覧端末101は、電子書籍を閲覧するためのビューアアプリが予め実装されており、利用者によってダウンロードされた電子書籍を表示する。電子書籍閲覧端末101は、利用者により閲覧中の電子書籍のある語句が選択されると、その語句にリンクしている文書の送信を電子書籍提供サーバ102に対して要求し、電子書籍提供サーバ102から提供される文書データを受信して、ユーザに提示する。
The electronic book browsing terminal 101 is a CPU (Central
Processing Unit), ROM (Read Only
Memory), RAM (Random Access)
A computer equipped with a memory, a hard disk drive (HDD), an input unit, a display screen, and the like. The electronic book browsing terminal 101 is preinstalled with a viewer application for browsing an electronic book, and displays the electronic book downloaded by the user. When a certain phrase of the electronic book being browsed is selected by the user, the electronic book browsing terminal 101 requests the electronic book providing server 102 to transmit a document linked to the phrase, and the electronic book providing server 102 The document data provided from 102 is received and presented to the user.

電子書籍提供サーバ102は、CPU、ROM、RAM、HDD等からなるコンピュータシステムであり、図1に示したリンク付与装置1の機能を実装している。電子書籍提供サーバ102は、電子書籍閲覧端末101で選択された語句データを受信して、その語句にリンクされている文書データを、記憶部12内のデータベース群から検索し、検索結果等を電子書籍閲覧端末101に送信(提供)する。   The electronic book providing server 102 is a computer system including a CPU, a ROM, a RAM, an HDD, and the like, and has the function of the link providing device 1 shown in FIG. The electronic book providing server 102 receives the phrase data selected by the electronic book browsing terminal 101, searches the database group in the storage unit 12 for the document data linked to the phrase, and displays the search results and the like as electronic data. It is transmitted (provided) to the book browsing terminal 101.

引き続き、図13を参照して、電子書籍提供処理について説明する。   The electronic book providing process will be described with reference to FIG.

ステップS101において、電子書籍閲覧端末101の制御部11は、利用者により所定の電子書籍が選択されると、その電子書籍の送信を要求する。ステップS102において、電子書籍提供サーバ102の制御部11は、電子書籍閲覧端末101の要求に基づいて、リンク付与後リンク元文書DB25から、要求された電子書籍を読み出し、電子書籍閲覧端末101に送信する。   In step S101, when a predetermined electronic book is selected by the user, the control unit 11 of the electronic book viewing terminal 101 requests transmission of the electronic book. In step S <b> 102, the control unit 11 of the electronic book providing server 102 reads out the requested electronic book from the link source document DB 25 after link addition based on a request from the electronic book viewing terminal 101, and transmits it to the electronic book viewing terminal 101. To do.

電子書籍閲覧端末101の制御部は、電子書籍提供サーバ102から受信した電子書籍を表示部W1に表示させる。ステップS103において、電子書籍閲覧端末101の制御部は、表示部W1に表示されている電子書籍において、利用者により、所定の語句が選択されると(図13の例では、「高松城」)、その語句にリンクされている文書の送信を要求する。利用者により選択された語句には、「a href=”http://・・・/takamatsujyo-kagawaken.txt/”」(図7)のリンクが付与されているため、そのリンク先の情報の送信が要求される。   The control unit of the electronic book browsing terminal 101 displays the electronic book received from the electronic book providing server 102 on the display unit W1. In step S103, when a predetermined word / phrase is selected by the user in the electronic book displayed on the display unit W1 in the electronic book browsing terminal 101 (“Takamatsu Castle” in the example of FIG. 13). , Request transmission of the document linked to the phrase. The phrase selected by the user is given a link of “a href =” http: // ・ ・ ・ /takamatsujyo-kagawaken.txt/ ”” (Fig. 7). Send is requested.

ステップS104において、電子書籍提供サーバ102の制御部11は、電子書籍閲覧端末101から受信したリンク先(a href=”http://・・・/takamatsujyo-kagawaken.txt/”)に基づいて、記憶部12のリンク先文書DB21からリンク先文書(図3の例では、NO2のリンク先文書)を読み出し、電子書籍閲覧端末101に送信する。電子書籍閲覧端末101の制御部は、電子書籍提供サーバ102から受信した電子書籍を表示部W2に表示させる。   In step S104, the control unit 11 of the electronic book providing server 102, based on the link destination (a href = ”http: //... /Takamatsujyo-kagawaken.txt/”) received from the electronic book browsing terminal 101, A link destination document (NO2 link destination document in the example of FIG. 3) is read from the link destination document DB 21 of the storage unit 12 and transmitted to the electronic book browsing terminal 101. The control unit of the electronic book browsing terminal 101 displays the electronic book received from the electronic book providing server 102 on the display unit W2.

[本発明の実施の形態]
以上のように電子書籍において、予め、文書内容に基づき、キーワードの意味を考慮した文書の関連付けを行い、関連付けられた情報をデータベースに記憶しておくことにより、ある文書に登場する語句の意味を調べる際、複数の候補文書があった場合にも、適切な文書を提示することができる。
[Embodiments of the present invention]
As described above, in an electronic book, the meaning of a word or phrase appearing in a certain document can be determined by associating the document in consideration of the meaning of the keyword based on the document content in advance and storing the associated information in the database. When checking, even if there are a plurality of candidate documents, an appropriate document can be presented.

[本発明と従来技術の評価比較]
本発明の手法による関連付けの正解率と、従来の手法による関連付けの正解率を比較し、人手により関連付けの正解を判定した場合の評価の一例について説明する。
[Evaluation comparison between the present invention and the prior art]
An example of evaluation in the case where the correct answer of association is determined manually by comparing the correct answer rate of the association by the technique of the present invention with the correct answer rate of the association by the conventional technique will be described.

まず、評価データについて説明する。関連元文書を「青空文庫 新字新仮名150作品」、関連先文書を「日本語版 Wikipedia」、使用キーワード数を「456116種類」、キーワード選定基準を「Wikipedia見出しから、日本語で始まる見出しのうち、ひらがなだけで構成される見出しを除外」、形態素解析器を「茶筌」、キーワードの要素から除外する形態素を「助詞」、「助動詞」、「接頭詞」、「接続詞」、「フィラー」、「感動詞」、「名詞−代名詞」、「名詞−数」、「名詞−非自立」、「名詞−動詞非自立的」、「名詞−接続詞的」,「名詞−引用文字列」、「名詞−特殊」、「名詞−接尾」、「動詞−非自立」、「記号」、「その他」であるとする。   First, evaluation data will be described. The related source document is “Aozora Bunko New Character New Kana 150 works”, the related destination document is “Japanese Wikipedia”, the number of keywords used is “456116 types”, the keyword selection criterion is “Wikipedia heading, heading that starts in Japanese” Among them, exclude headlines composed only of hiragana, morphological analyzer is “tea bowl”, morphemes that are excluded from keyword elements are “particles”, “auxiliary verbs”, “prefixes”, “connectives”, “fillers”, "Noun-pronoun", "noun-number", "noun-independent", "noun-non-independent", "noun-conjunctive", "noun-quoted string", "noun" -Special "," Noun-suffix "," Verb-non-independent "," Symbol "," Other ".

図14は、本発明の手法(実施例)と従来の手法(比較例)の評価結果の一例を示す図である。評価データは、上述したデータを使用する。なお、従来の手法は、関連元キーワードおよび周辺語だけから特徴ベクトルを生成し、キーワードと文書の関連付けを行う。   FIG. 14 is a diagram illustrating an example of evaluation results of the method of the present invention (example) and the conventional method (comparative example). The evaluation data uses the data described above. In the conventional method, a feature vector is generated only from the related source keyword and peripheral words, and the keyword and the document are associated with each other.

図14の例では、人手による正解判定結果のうち、実施例もしくは比較例の一方が正解であったキーワード224件から正解率が算出されている。実施例は、138件が正解し、正解率61.6%であるのに対し、比較例は、86件が正解し、38.4%である。   In the example of FIG. 14, the correct answer rate is calculated from 224 keywords in which one of the example and the comparative example is correct among the correct answer determination results by hand. In the example, 138 cases were correct and the correct rate was 61.6%, while in the comparative example, 86 cases were correct and 38.4%.

図15は、周辺語数毎に正解数を算出した場合の評価結果の一例を示す図である。評価データは、上述したデータを使用する。   FIG. 15 is a diagram illustrating an example of an evaluation result when the number of correct answers is calculated for each number of neighboring words. The evaluation data uses the data described above.

図15の例では、周辺語数が30個以下にあたるキーワードが、91%の正解率を占めており、それらのキーワードにおいて、いずれも、実施例の正解率は、比較例の正解率を上回っている。   In the example of FIG. 15, keywords with the number of surrounding words of 30 or less occupy a correct answer rate of 91%, and in those keywords, the correct answer rate of the example is higher than the correct answer rate of the comparative example. .

以上のように、図14および図15の評価結果から、周辺語数が少ない場合、実施例の正解率が高くなることがわかる。つまり、本実施例を適用することで、電子書籍やウェブページなどに出現するキーワードに適切なリンク先を付与することが可能となる。   As described above, it can be seen from the evaluation results of FIGS. 14 and 15 that the accuracy rate of the example increases when the number of neighboring words is small. That is, by applying the present embodiment, it is possible to give an appropriate link destination to a keyword appearing in an electronic book, a web page, or the like.

以上、添付図面を参照しながら、本発明に係るリンク付与装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。   As mentioned above, although suitable embodiment, such as the link provision apparatus concerning this invention, was described, referring an accompanying drawing, this invention is not limited to this example. It will be apparent to those skilled in the art that various changes or modifications can be conceived within the scope of the technical idea disclosed in the present application, and these naturally belong to the technical scope of the present invention. Understood.

1………リンク付与装置
11………制御部
12………記憶部
21………リンク先文書DB
22………リンク元文書DB
23………キーワードリストファイル
24………選択語とリンク先文書とのリンク情報DB
25………リンク付与後リンク元文書DB
DESCRIPTION OF SYMBOLS 1 ......... Link provision apparatus 11 ......... Control part 12 ......... Storage part 21 ......... Link destination document DB
22 ... Link source document DB
23 ......... Keyword list file 24 ......... Link information DB of selected word and linked document
25 ... …… Link source document DB after link is granted

Claims (5)

リンク先文書の見出しからキーワードリストを作成するキーワードリスト作成手段と、
前記キーワードリストを用いて、リンク先文書及びリンク元文書からキーワードを抽出するキーワード抽出手段と、
前記リンク元文書のキーワードの中で同表記異義語を1つ選択し、選択語を決定する選択語決定手段と、
前記リンク元文書において、前記選択語、周辺語、及び前記周辺語に対するリンク先文書に含まれるキーワードの出現頻度を取得し、各リンク先文書候補において、前記キーワードリストに含まれるキーワードの出現頻度を取得し、前記選択語と前記各リンク先文書候補との類似度を算出する類似度算出手段と、
前記類似度が最大のリンク先文書候補を、前記選択語に対するリンク先文書として決定する選択語リンク先文書決定手段と、
を備えることを特徴とするリンク付与装置。
A keyword list creation means for creating a keyword list from the headings of linked documents;
Using the keyword list, keyword extraction means for extracting keywords from the linked document and the linked document;
A selected word determining means for selecting one of the synonyms in the keyword of the link source document and determining the selected word;
In the link source document, the appearance frequency of the keyword included in the link destination document with respect to the selected word, the peripheral word, and the peripheral word is acquired, and the frequency of appearance of the keyword included in the keyword list is determined for each link destination document candidate. A similarity calculation means for acquiring and calculating a similarity between the selected word and each linked document candidate;
A selected word link destination document determining means for determining a link destination document candidate having the maximum similarity as a link destination document for the selected word;
A link providing device comprising:
前記類似度算出手段は、リンク先文書が一意に定まっていない前記周辺語を類似度算出処理の対象から外す
ことを特徴とする請求項1に記載のリンク付与装置。
The link assignment apparatus according to claim 1, wherein the similarity calculation unit excludes the peripheral words whose link destination documents are not uniquely determined from the target of similarity calculation processing.
前記選択語決定手段は、前記リンク元文書のキーワードの中で、同表記異義語よりも先に一意語を選択し、
前記選択語リンク先文書決定手段は、前記選択語決定手段による選択に従って、同表記異義語に対するリンク先文書よりも先に、一意語に対するリンク先文書を決定する
ことを特徴とする請求項2に記載のリンク付与装置。
The selected word determining means selects a unique word prior to the same notation among the keywords of the link source document,
The selected word link destination document determining means determines the link destination document for the unique word prior to the link destination document for the synonymous heterogeneity according to the selection by the selected word determining means. The link provision apparatus of description.
リンク付与装置が実行するリンク付与方法であって、
前記リンク付与装置の制御部が、リンク先文書の見出しからキーワードリストを作成するキーワードリスト作成ステップと、
前記制御部が、前記キーワードリストを用いて、リンク先文書及びリンク元文書からキーワードを抽出するキーワード抽出ステップと、
前記制御部が、前記リンク元文書のキーワードの中で同表記異義語を1つ選択し、選択語を決定する選択語決定ステップと、
前記制御部が、前記リンク元文書において、前記選択語、周辺語、及び前記周辺語に対するリンク先文書に含まれるキーワードの出現頻度を取得し、各リンク先文書候補において、前記キーワードリストに含まれるキーワードの出現頻度を取得し、前記選択語と前記各リンク先文書候補との類似度を算出する類似度算出ステップと、
前記制御部が、前記類似度が最大のリンク先文書候補を、前記選択語に対するリンク先文書として決定する選択語リンク先文書決定ステップと、
を含むことを特徴とするリンク付与方法。
A link granting method executed by the link granting device,
A control unit of the link providing device, a keyword list creating step of creating a keyword list from a heading of a linked document;
The control unit uses the keyword list to extract a keyword from a link destination document and a link source document;
The control unit selects one of the same synonyms among the keywords of the link source document and determines a selected word;
The control unit obtains the selection word, the peripheral word, and the appearance frequency of the keyword included in the link destination document for the peripheral word in the link source document, and is included in the keyword list in each link destination document candidate A similarity calculation step of acquiring a keyword appearance frequency and calculating a similarity between the selected word and each linked document candidate;
A selection word link destination document determination step in which the control unit determines a link destination document candidate having the maximum similarity as a link destination document for the selection word;
The link provision method characterized by including this.
リンク先文書の見出しからキーワードリストを作成するキーワードリスト作成手段と、
前記キーワードリストを用いて、リンク先文書及びリンク元文書からキーワードを抽出するキーワード抽出手段と、
前記リンク元文書のキーワードの中で同表記異義語を1つ選択し、選択語を決定する選択語決定手段と、
前記リンク元文書において、前記選択語、周辺語、及び前記周辺語に対するリンク先文書に含まれるキーワードの出現頻度を取得し、各リンク先文書候補において、前記キーワードリストに含まれるキーワードの出現頻度を取得し、前記選択語と前記各リンク先文書候補との類似度を算出する類似度算出手段と、
前記類似度が最大のリンク先文書候補を、前記選択語に対するリンク先文書として決定する選択語リンク先文書決定手段と、
を有するリンク付与装置としてコンピュータを機能させるためのプログラム。
A keyword list creation means for creating a keyword list from the headings of linked documents;
Using the keyword list, keyword extraction means for extracting keywords from the linked document and the linked document;
A selected word determining means for selecting one of the synonyms in the keyword of the link source document and determining the selected word;
In the link source document, the appearance frequency of the keyword included in the link destination document with respect to the selected word, the peripheral word, and the peripheral word is acquired, and the frequency of appearance of the keyword included in the keyword list is determined for each link destination document candidate. A similarity calculation means for acquiring and calculating a similarity between the selected word and each linked document candidate;
A selected word link destination document determining means for determining a link destination document candidate having the maximum similarity as a link destination document for the selected word;
A program for causing a computer to function as a link providing device having
JP2012053044A 2012-03-09 2012-03-09 Link granting device, link granting method, and program Active JP5870776B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012053044A JP5870776B2 (en) 2012-03-09 2012-03-09 Link granting device, link granting method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012053044A JP5870776B2 (en) 2012-03-09 2012-03-09 Link granting device, link granting method, and program

Publications (2)

Publication Number Publication Date
JP2013186798A JP2013186798A (en) 2013-09-19
JP5870776B2 true JP5870776B2 (en) 2016-03-01

Family

ID=49388136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012053044A Active JP5870776B2 (en) 2012-03-09 2012-03-09 Link granting device, link granting method, and program

Country Status (1)

Country Link
JP (1) JP5870776B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462126B (en) * 2013-09-22 2018-04-27 富士通株式会社 A kind of entity link method and device
JP7354019B2 (en) * 2020-03-02 2023-10-02 ヤフー株式会社 Information processing device, information processing method, and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3521879B2 (en) * 2001-04-02 2004-04-26 カシオ計算機株式会社 Document data linking device, link destination address display / access device, and linked document data distribution device
US7333966B2 (en) * 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
JP5374938B2 (en) * 2008-06-27 2013-12-25 富士通株式会社 Related information registration apparatus, related information registration method, and related information registration program

Also Published As

Publication number Publication date
JP2013186798A (en) 2013-09-19

Similar Documents

Publication Publication Date Title
JP5761833B2 (en) Dictionary candidates for partial user input
CN107787487B (en) Deconstructing documents into component blocks for reuse in productivity applications
JP5497022B2 (en) Proposal of resource locator from input string
US9483460B2 (en) Automated formation of specialized dictionaries
KR102310650B1 (en) Coherent question answering in search results
KR101505985B1 (en) Automatic search query correction
US9965569B2 (en) Truncated autosuggest on a touchscreen computing device
US9342233B1 (en) Dynamic dictionary based on context
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
US9081765B2 (en) Displaying examples from texts in dictionaries
JP5417471B2 (en) Structured document management apparatus and structured document search method
JP5329540B2 (en) User-centric information search method, computer-readable recording medium, and user-centric information search system
JP5870776B2 (en) Link granting device, link granting method, and program
JP5551795B2 (en) Search result providing system and method
KR20160100316A (en) Entity-based summarization for electronic books
WO2015094702A1 (en) Identifying semantically-meaningful text selections
JP5285491B2 (en) Information retrieval system, method and program, index creation system, method and program,
US11487768B2 (en) Generating search results utilizing access control
US20150186363A1 (en) Search-Powered Language Usage Checks
US20150324073A1 (en) Displaying aligned ebook text in different languages
KR101582155B1 (en) Method, system and recording medium for character input having easy correction function and file distribution system
US20170185681A1 (en) Method of and system for processing a prefix associated with a search query
KR101421819B1 (en) Method for providing keyword search result using balloon in an online environment
JP4574186B2 (en) Important language identification method, important language identification program, important language identification device, document search device, and keyword extraction device
JP5289498B2 (en) Common additional information adding device by category and common additional information adding method by category

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151020

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151228

R150 Certificate of patent or registration of utility model

Ref document number: 5870776

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150