JP5764052B2 - LINK GENERATION DEVICE, LINK GENERATION METHOD, AND LINK GENERATION PROGRAM - Google Patents

LINK GENERATION DEVICE, LINK GENERATION METHOD, AND LINK GENERATION PROGRAM Download PDF

Info

Publication number
JP5764052B2
JP5764052B2 JP2011286478A JP2011286478A JP5764052B2 JP 5764052 B2 JP5764052 B2 JP 5764052B2 JP 2011286478 A JP2011286478 A JP 2011286478A JP 2011286478 A JP2011286478 A JP 2011286478A JP 5764052 B2 JP5764052 B2 JP 5764052B2
Authority
JP
Japan
Prior art keywords
keyword
degree
link
unit
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011286478A
Other languages
Japanese (ja)
Other versions
JP2013134713A (en
Inventor
服部 元
元 服部
正 柳原
正 柳原
小野 智弘
智弘 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2011286478A priority Critical patent/JP5764052B2/en
Publication of JP2013134713A publication Critical patent/JP2013134713A/en
Application granted granted Critical
Publication of JP5764052B2 publication Critical patent/JP5764052B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、リンク生成装置、リンク生成方法及びリンク生成プログラムに関する。   The present invention relates to a link generation device, a link generation method, and a link generation program.

従来、ウェブページ内におけるキーワードに対し、検索エンジンによるそのキーワードの検索結果と連動するようにハイパーリンクを埋め込む技術が存在する。またキーワードに対し、そのキーワードを説明しているウェブページ(例えば、オンライン百科事典におけるキーワードが該当するウェブページ) へ転送するハイパーリンクを埋め込む技術が知られている。   Conventionally, there is a technique for embedding a hyperlink for a keyword in a web page so as to be linked with a search result of the keyword by a search engine. Further, a technique for embedding a hyperlink for transferring a keyword to a web page describing the keyword (for example, a web page corresponding to a keyword in an online encyclopedia) is known.

ハイパーリンクを自動的に埋め込む例として、特許文献1では、事前に定義されたルールに従い、文書内の特定の単語をキーワードとして検出し、それらのキーワードに対してハイパーリンクを埋め込むリンク生成装置が開示されている。   As an example of automatically embedding hyperlinks, Patent Document 1 discloses a link generation device that detects specific words in a document as keywords in accordance with predefined rules and embeds hyperlinks for those keywords. Has been.

特開2008−77227号公報JP 2008-77227 A

しかし、特許文献1の方法では、ハイパーリンクは、読み手にとっては常識的なキーワードに対するリンク表示は目障りである。また、不要なリンクはタッチパネルでの誤操作を誘発する(ハイパーリンクが隣接する場合は指によるタップでは誤る可能性が高い)など、利用者の使い勝手が悪くなってしまう問題がある。逆に特定のコミュニティ(掲示板など)に参加して間もない新人の場合は、未知の単語に辞書サイトや関連サイトへのハイパーリンクが付与されていることは有用である。ただし、この場合でも、既に覚えたキーワードに対するリンク表示は同様に目障りとなる。   However, in the method of Patent Document 1, hyperlinks are annoying the display of links to keywords that are common to readers. In addition, there is a problem that the uselessness of the user is deteriorated, for example, an unnecessary link induces an erroneous operation on the touch panel (when a hyperlink is adjacent, there is a high possibility that an error is caused by a tap with a finger). Conversely, for a newcomer who has just joined a specific community (such as a bulletin board), it is useful to add a hyperlink to a dictionary site or related site to an unknown word. However, even in this case, the link display for the already learned keyword is similarly obstructive.

そこで本発明は、上記問題に鑑みてなされたものであり、利用者の使い勝手を向上させることを可能とするリンク生成装置、リンク生成方法及びリンク生成プログラムを提供することを課題とする。   Therefore, the present invention has been made in view of the above problems, and an object of the present invention is to provide a link generation device, a link generation method, and a link generation program that can improve the user-friendliness.

(1)本発明は前記事情に鑑みなされたもので、本発明の一態様は、コンテンツに含まれる文からキーワードを抽出するキーワード抽出部と、利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度を取得する取得部と、前記取得部が取得した前記参加度及び前記特化度に基づいて、キーワードに対してハイパーリンクを挿入するか否かを判定するリンク要否判定部と、を備えることを特徴とするリンク生成装置である。   (1) The present invention has been made in view of the above circumstances, and one aspect of the present invention includes a keyword extraction unit that extracts a keyword from a sentence included in content, a user's degree of participation in a specific community, and each keyword An acquisition unit that acquires a degree of specialization for a specific community, and a link necessity for determining whether to insert a hyperlink for a keyword based on the degree of participation and the degree of specialization acquired by the acquisition unit And a determination unit.

(2)上記に記載のリンク生成装置において、本発明の一態様は、前記特定コミュニティへの参加度は、利用者のコミュニティへの参加時間の累積値に基づいて決定されたスコアであることを特徴とする。 (2) In the link generation device described above, according to one aspect of the present invention, the degree of participation in the specific community is a score determined based on a cumulative value of user participation time in the community. Features.

(3)上記に記載のリンク生成装置において、本発明の一態様は、前記特定コミュニティへの特化度は、一般コミュニティへの投稿記事に含まれるキーワードと特定コミュニティへの投稿記事に含まれるキーワードとを比較した場合に、特定コミュニティに偏って出現するキーワードに対して高いスコアが付けられていることを特徴とする。 (3) In the link generation device described above, according to one aspect of the present invention, the degree of specialization to the specific community includes a keyword included in an article posted to the general community and a keyword included in an article posted to the specific community. Are compared, a high score is given to a keyword that appears biased to a specific community.

(4)上記に記載のリンク生成装置において、本発明の一態様は、前記リンク要否判定部は、前記参加度が予め決められた参加度以下である場合に、対象キーワードの特定コミュニティへの特化度が予め決められた特化度以上の場合、対象キーワードに対して特定のWebコンテンツへのハイパーリンクを挿入することを特徴とする。 (4) In the link generation device described above, according to one aspect of the present invention, the link necessity determination unit is configured such that the participation degree is assigned to a specific community when the participation degree is equal to or less than a predetermined participation degree. When the degree of specialization is equal to or higher than a predetermined degree of specialization, a hyperlink to a specific Web content is inserted into the target keyword.

(5)上記に記載のリンク生成装置において、本発明の一態様は、前記リンク要否判定部は、リンク要否記憶部を参照してリンク挿入の要否を判定することを特徴とする。   (5) In the link generation device described above, one aspect of the present invention is characterized in that the link necessity determination unit determines whether or not a link needs to be inserted with reference to a link necessity storage unit.

(6)上記に記載のリンク生成装置において、本発明の一態様は、前記リンク要否記憶部は、利用者の識別情報と、キーワードがクリック済みか否かを示す情報と、リンクを張らない単語か否かを示す情報とが関連付けられて記憶されていることを特徴とする。 (6) In the link generation device described above, according to one aspect of the present invention, the link necessity storage unit does not link the user identification information, the information indicating whether the keyword has been clicked, or the like. Information indicating whether or not a word is stored in association with each other.

(7)上記に記載のリンク生成装置において、本発明の一態様は、前記キーワード抽出部は、特定コミュニティ内に投稿されたコンテンツに含まれる文から単語を抽出する単語抽出部と、前記単語抽出部が抽出した単語の中から、隣接している単語を抽出する隣接単語抽出部と、前記隣接単語抽出部が抽出した隣接している単語を連結してキーワードを生成する連結語生成部と、を備えることを特徴とする。   (7) In the link generation device described above, according to one aspect of the present invention, the keyword extraction unit extracts a word from a sentence included in content posted in a specific community, and the word extraction An adjacent word extraction unit that extracts adjacent words from the words extracted by the unit, a connected word generation unit that generates a keyword by connecting adjacent words extracted by the adjacent word extraction unit, It is characterized by providing.

(8)上記に記載のリンク生成装置において、本発明の一態様は、キーワードと、該キーワードの連結規則と、該キーワードの特定コミュニティへの特化度とが関連付けられて記憶されている規則記憶部を備え、前記連結語生成部は、前記キーワードが二つ隣接している場合、前記規則記憶部に記憶されている連結規則に基づいて、2単語を連結または連結せずにキーワードを生成するバイグラム連結決定部と、前記キーワードが三つ隣接している場合、前記規則記憶部に記憶されている連結規則に基づいて、3単語を連結または2単語を連結または連結せずにキーワードを生成するトライグラム決定連結部と、を備えることを特徴とする。   (8) In the link generation device described above, one aspect of the present invention is a rule storage in which a keyword, a rule for connecting the keyword, and a degree of specialization of the keyword to a specific community are stored in association with each other. The connected word generation unit generates a keyword without connecting or connecting two words based on a connection rule stored in the rule storage unit when the two keywords are adjacent to each other. When a bigram connection determination unit and three keywords are adjacent to each other, a keyword is generated based on a connection rule stored in the rule storage unit without connecting three words or connecting or connecting two words. A trigram determination connection unit.

(9)上記に記載のリンク生成装置において、本発明の一態様は、トライグラム連結決定部は、隣接単語数が4以上の場合に、3単語毎に三つの単語の連結規則を適用することにより、4単語以上が連結したキーワードを抽出することを特徴とする。   (9) In the link generation device described above, according to an aspect of the present invention, the trigram connection determination unit applies a connection rule for three words every three words when the number of adjacent words is four or more. Thus, a keyword in which four or more words are connected is extracted.

(10)上記に記載のリンク生成装置において、本発明の一態様は、キーワードと、該キーワードの連結規則と、該キーワードの特定コミュニティへの特化度とが関連付けられて記憶されている規則記憶部を備え、前記取得部は、前記規則記憶部から前記キーワードの特定コミュニティへの特化度を読み出すことにより前記特化度を取得することを特徴とする。   (10) In the link generation device described above, one aspect of the present invention is a rule storage in which a keyword, a connection rule for the keyword, and a degree of specialization of the keyword to a specific community are stored in association with each other. The acquisition unit acquires the specialization degree by reading out the specialization degree of the keyword to a specific community from the rule storage unit.

(11)上記に記載のリンク生成装置において、本発明の一態様は、二単語以上が隣接する場合に、該隣接する単語同士が連結する度合いを示す連結度を統計的に算出し、該算出した連結度に基づいて、単語を連結する連結規則を生成し、該生成した連結規則を前記規則記憶部に記憶させる規則生成部を備えることを特徴とする。   (11) In the link generation device described above, according to one aspect of the present invention, when two or more words are adjacent to each other, the degree of connection indicating the degree to which the adjacent words are connected is statistically calculated, and the calculation is performed. A rule generation unit is provided that generates a connection rule for connecting words based on the connection degree and stores the generated connection rule in the rule storage unit.

(12)上記に記載のリンク生成装置において、本発明の一態様は、前記規則生成部は、二単語が連結する場合と連結しない場合の連結度を算出し、該算出した連結度に基づき、二単語を連結する連結規則を生成するバイグラム連結規則生成部と、三単語が連結する場合と三単語のうちの隣接する二単語が連結する場合と三単語のいずれも連結しない場合の連結度を算出し、該算出した連結度に基づき、三単語を連結する連結規則を生成するトライグラム連結規則生成部と、を備えることを特徴とする。   (12) In the link generation device described above, according to one aspect of the present invention, the rule generation unit calculates a degree of connection when two words are connected and a case where the two words are not connected, and based on the calculated degree of connection, A bigram connection rule generation unit that generates a connection rule for connecting two words, and a degree of connection when three words are connected, when two adjacent words of three words are connected, and when none of the three words are connected And a trigram connection rule generation unit that generates a connection rule for connecting three words based on the calculated connection degree.

(13)上記に記載のリンク生成装置において、本発明の一態様は、前記連結度は、赤池情報量基準であることを特徴とする。   (13) In the link generation device described above, according to one aspect of the present invention, the connectivity is based on an Akaike information amount standard.

(14)上記に記載のリンク生成装置において、本発明の一態様は、前記単語抽出部は、前記文の正規化を行った後に前記単語を抽出することを特徴とする。   (14) In the link generation device described above, one aspect of the present invention is characterized in that the word extraction unit extracts the word after normalizing the sentence.

(15)上記に記載のリンク生成装置において、本発明の一態様は、前記利用者の識別情報と、該利用者の特定コミュニティへの参加度とが関連付けられて記憶されている利用者記憶部を備え、前記取得部は、前記利用者記憶部から前記利用者の特定コミュニティへの参加度を読み出すことにより前記参加度を取得することを特徴とする。   (15) In the link generation device described above, one aspect of the present invention is the user storage unit in which the identification information of the user and the degree of participation of the user in the specific community are stored in association with each other. The acquisition unit acquires the participation degree by reading out the participation degree of the user in the specific community from the user storage unit.

(16)本発明の一態様は、リンク生成方法であって、キーワード抽出部が、コンテンツに含まれる文からキーワードを抽出する手順と、取得部が、利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度を取得する手順と、リンク要否判定部が、前記取得部が取得した前記参加度及び前記特化度に基づいて、キーワードに対してハイパーリンクを挿入するか否かを判定する手順と、を有することを特徴とするリンク生成方法である。   (16) One aspect of the present invention is a link generation method in which a keyword extraction unit extracts a keyword from a sentence included in content, and an acquisition unit determines a user's degree of participation in a specific community and each Whether the procedure for acquiring the degree of specialization of a keyword to a specific community and the link necessity determination unit insert a hyperlink for the keyword based on the degree of participation and the degree of specialization acquired by the acquisition unit And a procedure for determining whether or not.

(17)本発明の一態様は、コンピュータに、コンテンツに含まれる文からキーワードを抽出するキーワード抽出ステップと、利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度を取得する取得ステップと、前記取得ステップにより取得された前記参加度及び前記特化度に基づいて、キーワードに対してハイパーリンクを挿入するか否かを判定するリンク要否判定ステップと、を実行させるためのリンク生成プログラムである。   (17) According to one aspect of the present invention, a keyword extraction step for extracting a keyword from a sentence included in content, a degree of participation of a user in a specific community, and a degree of specialization of each keyword in the specific community are acquired by a computer And a link necessity determination step for determining whether to insert a hyperlink for a keyword based on the participation level and the specialization level acquired in the acquisition step. This is a link generation program.

本発明によれば、利用者の使い勝手を向上させることができる。   According to the present invention, user convenience can be improved.

本実施形態におけるリンク生成装置の概略ブロック図である。It is a schematic block diagram of the link production | generation apparatus in this embodiment. 本実施形態における制御部の概略ブロック図である。It is a schematic block diagram of the control part in this embodiment. 連結規則が構築される処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the process by which a connection rule is constructed | assembled. 組み合わせ{w,w}に対する2x2分割表である。This is a 2 × 2 contingency table for the combination {w i , w j }. 組み合わせ{w,w,w}に対する2x4分割表である。This is a 2 × 4 contingency table for the combination {w i , w j , w k }. 規則記憶部に記憶されている連結規則の一例である。It is an example of the connection rule memorize | stored in the rule memory | storage part. ウェブページにハイパーリンクを挿入する処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of a process which inserts a hyperlink in a web page.

以下、本発明の実施形態について、図面を参照して詳細に説明する。まず、本実施形態のリンク生成装置1の概要について説明する。本実施形態のリンク生成装置1は、利用者のコミュニティへの参加経過時間やコミュニティ内に流通している文書の参照頻度、およびキーワードのコミュニティ特化度合いに基づき、キーワードに対するハイパーリンクの張りと外しを切り替える。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. First, the outline | summary of the link production | generation apparatus 1 of this embodiment is demonstrated. The link generation device 1 according to the present embodiment removes and removes hyperlinks to keywords based on the user's community participation elapsed time, the reference frequency of documents distributed in the community, and the degree of community specialization of keywords. Switch.

図1は、本実施形態におけるリンク生成装置1の概略ブロック図である。リンク生成装置1は、入力部10と、記憶部20と、表示部30と、制御部100とを備える。記憶部20は、第1の第1の文章記憶部21と、第2の文章記憶部22と、規則記憶部23と、利用者記憶部24と、リンク要否記憶部25とを備える。
第1の第1の文章記憶部21には、予め一般の文書集合D1が記憶されている。第2の文章記憶部22には、予め特定のコミュニティの文書集合D2が記憶されている。
FIG. 1 is a schematic block diagram of a link generation device 1 in the present embodiment. The link generation device 1 includes an input unit 10, a storage unit 20, a display unit 30, and a control unit 100. The storage unit 20 includes a first first sentence storage unit 21, a second sentence storage unit 22, a rule storage unit 23, a user storage unit 24, and a link necessity storage unit 25.
The first document storage unit 21 stores a general document set D1 in advance. The second sentence storage unit 22 stores a document set D2 of a specific community in advance.

規則記憶部23は、キーワードと、該キーワードの連結規則と、該キーワードの特定コミュニティへの特化度とが関連付けられて記憶されている。
利用者記憶部24には、利用者の識別情報と、該利用者の特定コミュニティへの参加度とが関連付けられて記憶されている。ここで、特定コミュニティへの参加度は、利用者のコミュニティへの参加時間の累積値に基づいて決定されたスコアである。そして、特定コミュニティへの特化度は、一般コミュニティへの投稿記事に含まれるキーワードと特定コミュニティへの投稿記事に含まれるキーワードとを比較した場合に、特定コミュニティに偏って出現するキーワードに対して高いスコアが付けられている。
リンク要否記憶部25には、利用者毎に、キーワード、クリック済みか否かを示す情報及びリンクを張らないキーワードか否かを示す情報が関連付けられて記憶されている。
The rule storage unit 23 stores a keyword, a concatenation rule for the keyword, and a degree of specialization of the keyword for a specific community in association with each other.
The user storage unit 24 stores user identification information and the degree of participation of the user in a specific community in association with each other. Here, the participation degree in the specific community is a score determined based on a cumulative value of the user's participation time in the community. The degree of specialization for a specific community is determined by comparing the keywords included in articles posted to the general community with the keywords included in articles posted to the specific community. A high score is given.
The link necessity storage unit 25 stores, for each user, a keyword, information indicating whether or not the user has clicked, and information indicating whether or not the keyword is not linked.

入力部10は、第1の文章記憶部21に記憶されている文章集合D1に追加する文章を示す文章情報を受け付け、受け付けた文章情報を制御部100に出力する。
また、入力部10は、ウェブページの入力を受け付け、受け付けたウェブページを制御部100に出力する。
The input unit 10 receives text information indicating text to be added to the text set D <b> 1 stored in the first text storage unit 21, and outputs the received text information to the control unit 100.
In addition, the input unit 10 receives an input of a web page and outputs the received web page to the control unit 100.

制御部100は、入力部10から入力された文章情報を第1の文章記憶部21に記憶されている文章集合D1に追記する。
また、制御部100は、第1の文章記憶部21に記憶されている文章集合D1を読み出し、読み出した文章集合D1に基づいて、単語の連結規則を生成する。そして、制御部100は、生成した単語の連結規則を規則記憶部23に記憶させる。これにより、規則記憶部23には、二単語以上の単語が隣接する場合における該単語の連結規則が、予め記憶されていることになる。
The control unit 100 adds the sentence information input from the input unit 10 to the sentence set D <b> 1 stored in the first sentence storage unit 21.
In addition, the control unit 100 reads the sentence set D1 stored in the first sentence storage unit 21, and generates a word connection rule based on the read sentence set D1. Then, the control unit 100 stores the generated word connection rule in the rule storage unit 23. As a result, the rule storage unit 23 stores in advance a connection rule for the words when two or more words are adjacent to each other.

また、制御部100は、規則記憶部23に記憶されている連結規則を読み出し、読み出した連結規則に基づいて、入力部10から入力されたウェブページに含まれる文から、その文に含まれる重要な連結語を生成し、生成した連結語に対してリンクを埋め込む。そして、制御部100は、リンクを埋め込んだウェブページを表示部30に表示させる。これにより、リンク生成装置1は、ユーザがウェブページを入力するだけで、ウェブページに含まれるキーワードに対して辞書サイトへのリンクが付されたウェブページを表示するので、ユーザは、そのリンクを開くだけで、そのキーワードの意味を知ることができる。   In addition, the control unit 100 reads the connection rule stored in the rule storage unit 23, and based on the read connection rule, the control unit 100 selects an important sentence included in the sentence from the sentence included in the web page input from the input unit 10. A linking word is generated, and a link is embedded in the generated linking word. Then, the control unit 100 causes the display unit 30 to display the web page in which the link is embedded. As a result, the link generation device 1 displays a web page with a link to the dictionary site for the keyword included in the web page simply by the user inputting the web page. You can know the meaning of the keyword just by opening it.

図2は、本実施形態における制御部100の概略ブロック図である。制御部100は、キーワード抽出部104と、規則生成部110と、取得部135と、リンク要否判定部136と、リンク挿入部140とを備える。ここで、キーワード抽出部104は、単語抽出部101と、重要語抽出部102と、隣接単語抽出部103と、連結語生成部130とを備える。   FIG. 2 is a schematic block diagram of the control unit 100 in the present embodiment. The control unit 100 includes a keyword extraction unit 104, a rule generation unit 110, an acquisition unit 135, a link necessity determination unit 136, and a link insertion unit 140. Here, the keyword extraction unit 104 includes a word extraction unit 101, an important word extraction unit 102, an adjacent word extraction unit 103, and a connected word generation unit 130.

続いて、各部の処理の概要について説明する。
キーワード抽出部104は、コンテンツに含まれる文からキーワードを抽出する。
リンク生成装置1が連結規則を生成する場合、単語抽出部101は、第1の文章記憶部21から文章集合Dを読み出し、文章集合Dに含まれる文から単語を抽出する。そして、単語抽出部101は、抽出した単語を隣接単語抽出部103へ出力する。
また、リンク生成装置1がウェブページに含まれるキーワードにハイパーリンクを埋め込む場合、単語抽出部101は、特定コミュニティ内に投稿されたコンテンツに含まれる文から単語を抽出し、抽出した単語を重要語抽出部102へ出力する。
なお、単語抽出部101は、文の正規化を行った後に単語を抽出してもよい。
Next, an outline of processing of each unit will be described.
The keyword extraction unit 104 extracts keywords from sentences included in the content.
When the link generation device 1 generates a connection rule, the word extraction unit 101 reads the sentence set D from the first sentence storage unit 21 and extracts words from sentences included in the sentence set D. Then, the word extraction unit 101 outputs the extracted word to the adjacent word extraction unit 103.
When the link generation device 1 embeds a hyperlink in a keyword included in a web page, the word extraction unit 101 extracts a word from a sentence included in content posted in a specific community, and the extracted word is an important word. The data is output to the extraction unit 102.
Note that the word extraction unit 101 may extract words after normalizing a sentence.

重要語抽出部102は、単語抽出部101が抽出した単語の中からハイパーリンクの埋め込みの候補であるキーワードを抽出し、抽出したキーワードを隣接単語抽出部103へ出力する。   The keyword extraction unit 102 extracts keywords that are candidates for embedding hyperlinks from the words extracted by the word extraction unit 101, and outputs the extracted keywords to the adjacent word extraction unit 103.

リンク生成装置1が連結規則を生成する場合、隣接単語抽出部103は、単語抽出部101が抽出した単語のうち隣接している単語を抽出し、抽出した単語を規則生成部110に出力する。
リンク生成装置1がウェブページに含まれるキーワードにハイパーリンクを埋め込む、隣接単語抽出部103は、重要語抽出部102が抽出したキーワードのうち隣接している単語を抽出し、抽出した単語を連結語生成部130に出力する。
When the link generation device 1 generates a connection rule, the adjacent word extraction unit 103 extracts adjacent words from the words extracted by the word extraction unit 101, and outputs the extracted words to the rule generation unit 110.
The link generation device 1 embeds a hyperlink in a keyword included in a web page, and the adjacent word extraction unit 103 extracts adjacent words from the keywords extracted by the keyword extraction unit 102, and the extracted words are connected words. The data is output to the generation unit 130.

規則生成部110は、隣接する単語同士が連結する度合いを示す連結度を統計的に算出し、該算出した連結度に基づいて、単語を連結する連結規則を生成する。ここで、連結度は、例えば、統計モデルの良さを評価するための指標である公知の赤池情報量基準である。また、連結規則は、例えば、キーワードを連結する条件と、該条件に適合する場合に連結語生成部130が行う処理とが関連付けられたものである。
そして、規則生成部110は、生成した連結規則を規則記憶部23に記憶させる。ここで、規則生成部110は、バイグラム連結規則生成部111とトライグラム連結規則生成部112とを備える。
The rule generation unit 110 statistically calculates the degree of connection indicating the degree to which adjacent words are connected to each other, and generates a connection rule for connecting words based on the calculated degree of connection. Here, the degree of connectivity is, for example, a known Akaike information amount standard that is an index for evaluating the goodness of a statistical model. The concatenation rule associates, for example, a condition for concatenating keywords with processing performed by the concatenated word generation unit 130 when the condition is met.
Then, the rule generation unit 110 stores the generated connection rule in the rule storage unit 23. Here, the rule generation unit 110 includes a bigram connection rule generation unit 111 and a trigram connection rule generation unit 112.

バイグラム連結規則生成部111は、二つの単語の連結度を算出し、該算出した連結度に基づき、二単語を連結する連結規則を生成する。
トライグラム連結規則生成部112は、三つの単語の連結度を算出し、該算出した連結度に基づき、三単語を連結する連結規則を生成する。
The bigram connection rule generation unit 111 calculates a connection degree between two words, and generates a connection rule for connecting two words based on the calculated connection degree.
The trigram connection rule generation unit 112 calculates the connection degree of the three words, and generates a connection rule that connects the three words based on the calculated connection degree.

連結語生成部130は、規則記憶部23に記憶されている連結規則に基づいて、キーワードを連結した連結語を生成し、生成した連結語をリンク挿入部140に出力する。ここで、連結語生成部130は、バイグラム連結決定部131と、トライグラム連結決定部132とを備える。
バイグラム連結決定部131は、キーワードが二つ隣接している場合、規則記憶部23に記憶されている連結規則に基づいて、キーワードを連結するか否か決定する。
Based on the linking rules stored in the rule storage unit 23, the linking word generation unit 130 generates a linking word by linking keywords, and outputs the generated linking word to the link insertion unit 140. Here, the connective word generation unit 130 includes a bigram connection determination unit 131 and a trigram connection determination unit 132.
When two keywords are adjacent to each other, the bigram connection determination unit 131 determines whether or not to connect the keywords based on the connection rules stored in the rule storage unit 23.

トライグラム連結決定部132は、キーワードが三つ隣接している場合、規則記憶部23に記憶されている連結規則に基づいて、三つ隣接しているキーワードのうち三つのキーワードを連結するか二つのキーワードを連結するかあるいはいずれも連結しないか決定する。
また、トライグラム連結決定部132は、キーワードが四つ以上隣接している場合、四つ以上隣接しているキーワードのうち三つ隣接しているキーワードを抽出する毎に、該抽出したキーワードのうち三つのキーワードを連結するか二つのキーワードを連結するかあるいはいずれも連結しないか決定する。
When three keywords are adjacent to each other, the trigram connection determination unit 132 determines whether to connect three keywords out of the three adjacent keywords based on the connection rule stored in the rule storage unit 23. Decide whether to concatenate two keywords or none.
In addition, when there are four or more keywords adjacent to each other, the trigram connection determination unit 132 extracts the three adjacent keywords from the four or more adjacent keywords. Decide whether to link three keywords, two keywords, or neither.

取得部135は、利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度を取得する。具体的には、例えば、取得部135は、利用者の識別情報に対応する利用者の特定コミュニティへの参加度を利用者記憶部24から読み出す。また、例えば、取得部135は、各キーワードの特定コミュニティへの特化度を規則記憶部23から読み出す。そして、取得部135は、取得した利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度をリンク要否判定部136へ出力する。   The acquisition unit 135 acquires the degree of participation of the user in the specific community and the degree of specialization of each keyword in the specific community. Specifically, for example, the acquisition unit 135 reads from the user storage unit 24 the degree of participation of the user in the specific community corresponding to the user identification information. For example, the acquisition unit 135 reads the degree of specialization of each keyword with respect to a specific community from the rule storage unit 23. Then, the acquisition unit 135 outputs the acquired degree of participation of the user in the specific community and the degree of specialization of each keyword to the specific community to the link necessity determination unit 136.

リンク要否判定部136は、取得部135が取得した上記参加度及び上記特化度に基づいて、キーワードに対して別ページへのハイパーリンクを挿入するか否かを判定する。具体的には、例えば、リンク要否判定部136は、参加度が予め決められた参加度以下である場合に、対象キーワードの特定コミュニティへの特化度が予め決められた特化度以上の場合、対象キーワードに対して特定のWebコンテンツへのハイパーリンクを挿入することを決定する。ここで、対象キーワードは、キーワードが連結された連結語あるいは連結していないキーワードの総称である。   The link necessity determination unit 136 determines whether or not to insert a hyperlink to another page for the keyword based on the degree of participation and the degree of specialization acquired by the acquisition unit 135. Specifically, for example, the link necessity determination unit 136, when the participation degree is equal to or less than a predetermined participation degree, the degree of specialization of the target keyword to the specific community is equal to or higher than the predetermined specialization degree. In this case, it is determined to insert a hyperlink to a specific Web content for the target keyword. Here, the target keyword is a generic name of a connected word in which keywords are connected or a keyword that is not connected.

また、リンク要否判定部136は、リンク要否記憶部25を参照してリンク挿入の要否を判定する。具体的には、例えば、リンク要否判定部136は、対象キーワードに対応するクリック済みか否かを示す情報とリンクを張らないキーワードか否かを示す情報とをリンク要否記憶部25から読み出す。リンク要否判定部136は、リンクを張らないキーワードか否かを示す情報がリンクを張らないキーワードである旨を示す場合、その対象キーワードについてリンクを挿入しないと判定する。
また、例えば、リンク要否判定部136は、読み出したクリック済みか否かを示す情報がクリック済みである旨を示す場合、予め決められた時間、その対象キーワードについてリンクを挿入しないと判定する。
そして、リンク要否判定部136は、判定結果をリンク挿入部140へ出力する。
Further, the link necessity determination unit 136 refers to the link necessity storage unit 25 to determine whether or not link insertion is necessary. Specifically, for example, the link necessity determination unit 136 reads, from the link necessity storage unit 25, information indicating whether or not the click corresponding to the target keyword has been completed and information indicating whether or not the keyword is not linked. . The link necessity determination unit 136 determines that the link is not inserted for the target keyword when the information indicating whether or not the keyword does not link is a keyword that does not link.
For example, when the information indicating whether or not the click has been read indicates that the click has been performed, the link necessity determination unit 136 determines that a link is not inserted for the target keyword for a predetermined time.
Then, the link necessity determination unit 136 outputs the determination result to the link insertion unit 140.

リンク挿入部140は、連結語生成部130が生成した連結語または隣接単語抽出部が抽出したキーワードに対して、特定のWebコンテンツへのハイパーリンクを挿入し、挿入後のウェブページを表示部30に表示させる。   The link insertion unit 140 inserts a hyperlink to a specific Web content with respect to the keyword extracted by the concatenated word generated by the concatenated word generation unit 130 or the adjacent word extraction unit, and displays the web page after the insertion as the display unit 30. To display.

続いて、リンク生成装置1の処理の概要を説明する。リンク生成装置1は。ハイパーリンクの対象候補となるキーワードを抽出し、次に、その単語に対してハイパーリンクを張る。このとき、キーワードの抽出方式として、形態素解析器の出力結果に含まれる固有名詞や名詞をキーワードとする単純な方式では、ハイパーリンクを埋め込む上で最適な形でキーワードが得られる保証がないという課題がある。   Next, an outline of processing of the link generation device 1 will be described. The link generation device 1 is. A keyword that is a candidate for a hyperlink is extracted, and then a hyperlink is created for the word. At this time, as a keyword extraction method, a simple method that uses proper nouns or nouns included in the output results of the morphological analyzer as keywords does not guarantee that keywords can be obtained in an optimal form for embedding hyperlinks. There is.

例えば、あるコミュニティに流通している文書に「連結度計算機能」というコミュニティ特有のキーワードがある場合に、この文書を形態素解析した場合、「連結」「度」「計算」「機能」といった形態素で抽出されてしまう。そのため、それらが結合可能な1つのキーワードであることを認識する必要がある。1つはこのようなキーワードをあらかじめ形態素解析辞書に手作業で登録しておく方法があるが、常に新たなキーワードを登録する必要があるなどの管理コストがかかってしまう。そこで、本実施形態におけるリンク生成装置1は、大量の過去の事例を用いて、結合されたキーワードの出現頻度などを用いた統計的な基準に基づく方式で自動的に結合したキーワードを生成する方式を採用する。   For example, if a document distributed in a community has a community-specific keyword “connectivity calculation function”, and if this document is analyzed by morpheme, the morpheme such as “concatenation” “degree” “calculation” “function” It will be extracted. Therefore, it is necessary to recognize that they are one keyword that can be combined. One is a method of manually registering such keywords in the morphological analysis dictionary in advance, but it requires management costs such as the need to always register new keywords. In view of this, the link generation device 1 according to the present embodiment uses a large number of past cases to automatically generate combined keywords by a method based on a statistical criterion using the appearance frequency of the combined keywords. Is adopted.

図3は、連結規則が構築される処理の流れの一例を示すフローチャートである。
まず、ステップS1において、単語抽出部101は、文章集合Dに含まれる文章から単語を抽出する。文書集合Dは、一般の文書集合(例えば、一般ニュースのような誰もが閲覧可能な文書集合)D1と、特定のコミュニティの文書集合(例えば、特定ユーザが参加するコミュニティに属する文書集合)D2とを含む。
FIG. 3 is a flowchart illustrating an example of a flow of processing for constructing a connection rule.
First, in step S1, the word extraction unit 101 extracts words from sentences included in the sentence set D. The document set D includes a general document set (for example, a document set that can be viewed by anyone such as general news) D1 and a document set of a specific community (for example, a document set belonging to a community in which a specific user participates) D2. Including.

具体的には、例えば、単語抽出部101は、文書集合Dに対し、形態素解析器を使うことで単語を抽出する。また、単語抽出部101は、形態素解析器の単語の抽出精度を向上させるために、文章の正規化 (例えば,小文字の英文字を大文字に置き換えること又は表記の揺れを修正すること)を行い、正規化後の文章から単語を抽出してもよい。また、単語抽出部101は、単語を抽出した後に、抽出した単語を正規化してもよい。   Specifically, for example, the word extraction unit 101 extracts words from the document set D by using a morphological analyzer. In addition, the word extraction unit 101 performs normalization of the sentence (for example, replacing lowercase English letters with uppercase letters or correcting notation fluctuations) in order to improve the word extraction accuracy of the morphological analyzer, You may extract a word from the text after normalization. Moreover, the word extraction part 101 may normalize the extracted word, after extracting a word.

次に、ステップS2において、隣接単語抽出部103は、単語抽出部101が抽出した単語のうち、隣接している単語を抽出する。この際、隣接単語抽出部103は、計算処理の時間を削減するために、一般名詞や固有名詞などの特定の品詞に該当する単語に絞り込んだ上で、隣接する単語を抽出してもよい。これにより、隣接単語抽出部103は、単語集合w={W1,W2,W3,…}を取得する。   Next, in step S2, the adjacent word extraction unit 103 extracts adjacent words from the words extracted by the word extraction unit 101. At this time, the adjacent word extraction unit 103 may extract adjacent words after narrowing down to words corresponding to specific parts of speech such as general nouns and proper nouns, in order to reduce the calculation processing time. Thereby, the adjacent word extraction part 103 acquires word set w = {W1, W2, W3, ...}.

次に、ステップS2において、規則生成部110は、単語の連結を行うために、連結度を統計的に算出する。具体的には、例えば、規則生成部110は、赤池情報量基準(AIC)に基づいて、連結度を算出する。なお、規則生成部110は、他の情報量基準(たとえばベイズ情報量基準(BIC))などの尺度のもとで連結度を算出してもよい。   Next, in step S2, the rule generation unit 110 statistically calculates the degree of connection in order to connect words. Specifically, for example, the rule generation unit 110 calculates the connectivity based on the Akaike information criterion (AIC). Note that the rule generation unit 110 may calculate the connectivity based on a scale such as another information criterion (for example, Bayesian information criterion (BIC)).

具体的には、例えば、規則生成部110は、単語W={w1,w2,w3,…}のうち、任意の二つの単語wとwを抽出する。次に、規則生成部110は、文書集合Dにおける各文に対し、文書の先頭から1つ目と二つ目の単語を抽出する。隣接単語抽出部103が品詞の絞り込みを行っている場合、規則生成部110は、これらの単語がいずれも絞り込みの対象の品詞である場合に、これらの単語を抽出する。規則生成部110は、これらの単語をtとtとする。単語wとw、および単語tとtを使い、単語の連結規則を生成する。 Specifically, for example, the rule generation unit 110 extracts two arbitrary words w i and w j from the words W = {w1, w2, w3,. Next, the rule generation unit 110 extracts the first and second words from the beginning of the document for each sentence in the document set D. When the adjacent word extraction unit 103 narrows down the parts of speech, the rule generation unit 110 extracts these words when these words are part of speech to be narrowed down. The rule generation unit 110 sets these words as t 1 and t 2 . A word concatenation rule is generated using the words w i and w j and the words t 1 and t 2 .

ここで、バイグラム連結規則生成部111による2単語を連結する規則である2単語連結規則の生成について説明する。バイグラム連結規則生成部111は、t、t、w及びwを用いて、以下の四つの変数(n11、n12、n21、n22)を算出する。
変数n11は、tがwであり、tがwである、組み合わせの数である。
変数n12は、tがwであり、tがw以外の単語である、組み合わせの数である。
変数n21は、tがw以外の単語であり、tがwである、組み合わせの数である。
変数n22は、tがw以外の単語であり、tがw以外の単語である、組み合わせの数である。
変数zは、全組み合わせの数(n11+ n12 + n21 + n22)である。
Here, generation of a two-word connection rule that is a rule for connecting two words by the bigram connection rule generation unit 111 will be described. The bigram connection rule generation unit 111 calculates the following four variables (n 11 , n 12 , n 21 , n 22 ) using t 1 , t 2 , w i, and w j .
The variable n 11 is the number of combinations where t 1 is w i and t 2 is w j .
The variable n 12 is the number of combinations where t 1 is w i and t 2 is a word other than w j .
The variable n 21 is the number of combinations where t 1 is a word other than w i and t 2 is w j .
The variable n 22 is the number of combinations where t 1 is a word other than w i and t 2 is a word other than w j .
The variable z is the number of all combinations (n 11 + n 12 + n 21 + n 22 ).

これらの値を用いて、図4に示す2x4分割表を作成する。図4は、組み合わせ{w,w}に対する2x2分割表である。ここで、記号¬はその次に続く変数以外を示す記号であり、例えばt=¬wは、tがw以外であることを示している。同図において、上述したtとtの値の組み合わせ毎に、その組み合わせの数を示す変数(n11、n12、n21又はn22)が決められていることが示されている。例えば、1行1列目の変数n11は、tがwであり、tがwである組み合わせの数であることを示している。 The 2 × 4 contingency table shown in FIG. 4 is created using these values. FIG. 4 is a 2 × 2 contingency table for the combination {w i , w j }. Here, the symbol ¬ is a symbol indicating the non-variable following the next, for example, t 1 = ¬w i indicates that t 1 is other than w i. In the figure, it is shown that a variable (n 11 , n 12 , n 21, or n 22 ) indicating the number of combinations is determined for each combination of the values of t 1 and t 2 described above. For example, the variable n 11 in the first row and first column indicates the number of combinations where t 1 is w i and t 2 is w j .

バイグラム連結規則生成部111は、図4における2x2分割表における各種の値を用いて、以下の計算式に従って、以下の二つの情報量基準を生成する。
まず、一つ目の情報量基準は、従属モデル(DM)の情報量基準(以下、従属情報量基準と称す)AIC(DM)である。従属情報量基準AIC(DM)は、単語wと単語wの組み合わせが特定のトピックxに関係ありの度合いを示す。但し、この従属情報量基準AIC(DM)は、値が小さいほど、特定のトピックxに関係ありの度合いが大きい。バイグラム連結規則生成部111は、従属情報量基準AIC(DM)を、以下の式(1)に従って算出する。
The bigram connection rule generation unit 111 generates the following two information amount standards according to the following calculation formula using various values in the 2 × 2 contingency table in FIG. 4.
First, the first information criterion is an information criterion (hereinafter referred to as a dependent information criterion) AIC (DM) of a dependent model (DM). The dependent information criterion AIC (DM) indicates the degree to which the combination of the word w 1 and the word w 2 is related to a specific topic x. However, the degree of the dependency information criterion AIC (DM) is more related to a specific topic x as the value is smaller. The bigram connection rule generation unit 111 calculates the subordinate information criterion AIC (DM) according to the following equation (1).

MLL(DM)=n11log n11+n12log n12+n21log n21+n22log n22−Zlog Z
AIC(DM)=−2×MLL(M2)+2×3 (1)
MLL (DM) = n 11 log n 11 + n 12 log n 12 + n 21 log n 21 + n 22 log n 22 −Zlog Z
AIC (DM) = − 2 × MLL (M2) + 2 × 3 (1)

ここで、従属モデル(DM)は、単語wと単語wは連結するモデルである。この場合、単語wと単語wは従属関係にある。
次に、二つ目の情報量基準は、独立モデル(IM)の情報量基準(以下、独立情報量基準と称す)AIC(IM)である独立情報量基準と称す)AIC(IM)は、単語wも、単語wも、単語wと単語wの組み合わせも、全てが特定のトピックxに関係なしである度合いを示す。但し、この独立情報量基準AIC(IM)は、値が小さいほど、特定のトピックxに関係なしの度合いが大きい。バイグラム連結規則生成部111は、独立情報量基準AIC(IM)を、以下の式(2)に従って、算出する。
Here, the dependency model (DM) is a model in which the word w i and the word w j are connected. In this case, the word w i and the word w j are in a dependency relationship.
Next, the second information criterion is the information criterion (IM) of the independent model (hereinafter referred to as the independent information criterion) AIC (IM) AIC (IM) The word w 1 , the word w 2 , and the combination of the word w 1 and the word w 2 all indicate the degree of irrelevance to the specific topic x. However, the smaller the value of this independent information criterion AIC (IM), the greater the degree of irrelevance to a specific topic x. The bigram connection rule generation unit 111 calculates the independent information criterion AIC (IM) according to the following equation (2).

MLL(IM)=(n11+n12)log (n11+n12)+(n11+n21)log(n11+n21)+(n21+n22)log(n21+n22)+(n12 +n22)log (n12+n22)−2×Zlog Z
AIC(IM)=−2×MLL(M1)+2×2 (2)
MLL (IM) = (n 11 + n 12) log (n 11 + n 12) + (n 11 + n 21) log (n 11 + n 21) + (n 21 + n 22) log (n 21 + n 22) + (n 12 + N 22 ) log (n 12 + n 22 ) −2 × Zlog Z
AIC (IM) = − 2 × MLL (M1) + 2 × 2 (2)

ここで、独立モデル(IM)は、単語wと単語wは連結しないモデルである。この場合、単語wと単語wは従属関係にない。ここで、従属情報量基準AIC(DM)と、独立情報量基準AIC(IM)を総称して、二つの単語の連結度という。
なお、上記の従属情報量基準AIC(DM)の式(1)の「…+2×3」や独立情報量基準AIC(IM)の式(2)の「…+2×2」をそれぞれ、「…+2×log(3)」や「…+2×log(2)」とすることで、BIC情報量基準のもとで、従属モデルの情報量基準BIC(IM)及び独立モデルの情報量基準BIC(DM)を求める計算式となる。
Here, the independent model (IM) is a model in which the word w i and the word w j are not connected. In this case, the word w i and the word w j are not dependent. Here, the dependent information criterion AIC (DM) and the independent information criterion AIC (IM) are collectively referred to as the connectivity of two words.
It should be noted that “... + 2 × 3” in the equation (1) of the dependent information criterion AIC (DM) and “... + 2 × 2” in the equation (2) of the independent information criterion AIC (IM) are respectively “... + 2 × log (3) ”and“... + 2 × log (2) ”, the subordinate model information criterion BIC (IM) and the independent model information criterion BIC ( DM) is obtained.

バイグラム連結規則生成部111は、従属情報量基準AIC(DM)及び独立情報量基準AIC(IM)の二つの値を算出した後、以下の処理により、条件と処理の二つの要素を含む連結規則(以下、ルールともいう)を取得する。
バイグラム連結規則生成部111は、AIC(DM)<AIC(IM)が成り立つ場合すなわち従属情報量基準AIC(DM)が独立従属情報量基準AIC(IM)より小さい場合、以下のルールを生成する。そのルールとは、t1がwでありt2がwである場合、単語wと単語wを連結するというものである。ここで、条件は、「t1がwでありt2がwである場合」であり、処理は、「単語wと単語wを連結する」ことである。
The bigram concatenation rule generation unit 111 calculates two values of the dependent information criterion AIC (DM) and the independent information criterion AIC (IM), and then includes a concatenation rule including two elements, a condition and a processing, by the following processing. (Hereinafter also referred to as a rule).
The bigram connection rule generation unit 111 generates the following rule when AIC (DM) <AIC (IM) holds, that is, when the dependent information criterion AIC (DM) is smaller than the independent dependent information criterion AIC (IM). The rule is that when t1 is w i and t2 is w j , the word w i and the word w j are connected. Here, the condition is “when t1 is w i and t2 is w j ”, and the process is “concatenate the word w i and the word w j ”.

バイグラム連結規則生成部111は、単語連結用ルールを生成するための処理を終えたのちに、文書の先頭から二つ目と三つ目の単語を抽出し、同様の処理を行う。以降、バイグラム連結規則生成部111は、単語を1つずつすらしながら、文の終わりに到達するまで繰り返す。バイグラム連結規則生成部111は、文の終わりまで到達すると、文書集合Dにおける次に文書を読み込み、同じ処理を行う。これらの処理は、文書集合Dにおける全文を処理し終えるまで繰り返す。   After completing the process for generating the word connection rule, the bigram connection rule generation unit 111 extracts the second and third words from the beginning of the document and performs the same process. Thereafter, the bigram connection rule generation unit 111 repeats the word until it reaches the end of the sentence, even by one word at a time. When the bigram connection rule generation unit 111 reaches the end of the sentence, it reads the next document in the document set D and performs the same processing. These processes are repeated until the entire sentence in the document set D is processed.

上記の処理は単語を二つ与えられたときの2単語連結規則の生成処理であるが、トライグラム連結規則生成部112は、この他に隣接する単語を三つ与えられたときに、3単語連結規則を生成する。具体的には、以下の通りである。   The above process is a process for generating a two-word connection rule when two words are given, but the trigram connection rule generation unit 112 receives three words when three other adjacent words are given. Generate a concatenation rule. Specifically, it is as follows.

トライグラム連結規則生成部112は、単語W={w,w,w,…}のうち、任意の三つの単語w、w及びwを抽出する。次に,トライグラム連結規則生成部112は、文書集合Dにおける各文に対し、文書の先頭から1つ目、二つ目、三つ目の単語を抽出する。トライグラム連結規則生成部112は、隣接単語抽出機能で品詞の絞り込みを行っている場合は,三つの単語がすべて隣接しており、かつ絞り込みの対象となる品詞であった場合は,それらの単語を抽出する。これらの単語をt、t及びtとする。トライグラム連結規則生成部112は、単語t、t及びtと単語w、w及びwを用いて、以下の8つの変数を算出する。 The trigram connection rule generation unit 112 extracts arbitrary three words w i , w j, and w k from the words W = {w 1 , w 2 , w 3 ,. Next, the trigram connection rule generation unit 112 extracts the first, second, and third words from the top of the document for each sentence in the document set D. When the trigram connection rule generation unit 112 narrows down the part of speech using the adjacent word extraction function, if all three words are adjacent and are part of speech to be narrowed down, those words are used. To extract. Let these words be t 1 , t 2 and t 3 . The trigram connection rule generation unit 112 calculates the following eight variables using the words t 1 , t 2, and t 3 and the words w i , w j, and w k .

変数n11は、tがwであり、tがwであり、tがwである、組み合わせの数である。
変数n12は、tがwであり、tがw以外の単語であり、tがwである、組み合わせの数である。
変数n13は、tがwであり、tがwであり、tがw以外の単語である、組み合わせの数である。
変数n14は、tがwであり、tがw以外の単語であり、tがw以外の単語である、組み合わせの数である。
変数n21は、tがw以外の単語であり、tがwであり、tがwである、組み合わせの数である。n22は、tがw以外の単語であり、tがw以外の単語であり、tがwである、組み合わせの数である。
変数n23は、tがw以外の単語であり、tがwであり、tがw以外の単語である、組み合わせの数である。
変数n24は、tがw以外の単語であり、tがw以外の単語であり、tがw以外の単語である、組み合わせの数である。
変数zは、全組み合わせの数:(n11+n12+n13+n14+n21+n22+n23+n24)である。
The variable n 11 is the number of combinations where t 1 is w i , t 2 is w j , and t 3 is w k .
The variable n 12 is the number of combinations where t 1 is w i , t 2 is a word other than w j , and t 3 is w k .
The variable n 13 is the number of combinations where t 1 is w i , t 2 is w j , and t 3 is a word other than w k .
The variable n 14 is the number of combinations where t 1 is w i , t 2 is a word other than w j , and t 3 is a word other than w k .
The variable n 21 is the number of combinations where t 1 is a word other than w i , t 2 is w j , and t 3 is w k . n 22 is the number of combinations where t 1 is a word other than w i , t 2 is a word other than w j , and t 3 is w k .
The variable n 23 is the number of combinations where t 1 is a word other than w i , t 2 is w j , and t 3 is a word other than w k .
The variable n 24 is the number of combinations where t 1 is a word other than w i , t 2 is a word other than w j , and t 3 is a word other than w k .
The variable z is the number of all combinations: (n 11 + n 12 + n 13 + n 14 + n 21 + n 22 + n 23 + n 24 ).

これらの値を用いて、図5に示す2x4分割表が作成する。図5は、組み合わせ{w,w,w}に対する2x4分割表である。ここで、記号∧は、「かつ」を意味しており、例えば、(t=w)∧(t=w)は、tがwかつt=wであることを示している。同図の2x4分割表において、上述したtとtとtの値の組み合わせ毎に、その組み合わせの数を示す変数(n11、n12、n13、n14、n21、n22、n23又はn24)が決められていることが示されている。例えば、変数n11は、tがwでt=wかつt=wの場合の組み合わせの数である。 The 2 × 4 contingency table shown in FIG. 5 is created using these values. FIG. 5 is a 2 × 4 contingency table for the combination {w i , w j , w k }. Here, the symbol ∧ means “and”. For example, (t 2 = w j ) ∧ (t 3 = w k ) indicates that t 2 is w j and t 3 = w k. Show. In the 2 × 4 contingency table of the same figure, variables (n 11 , n 12 , n 13 , n 14 , n 21 , n 22) indicating the number of combinations for each combination of the values of t 1 , t 2, and t 3 described above. , N 23 or n 24 ) is determined. For example, the variable n 11 is the number of combinations when t 1 is w i , t 2 = w j and t 3 = w k .

トライグラム連結規則生成部112は、2x4分割表における各種の値を用いて、以下の計算式に従って四つのモデルを生成する。まず、トライグラム連結規則生成部112は、第1のモデルM1の情報量基準(以下、第1の情報量基準と称す)AIC(M1)を以下の式に従って算出する。ここで、第1のモデルM1は、単語wと単語wは連結するが、単語wと単語wは連結しないモデルである。この場合、単語wと単語wは従属関係にある。 The trigram connection rule generation unit 112 generates four models according to the following calculation formula using various values in the 2 × 4 contingency table. First, the trigram connection rule generation unit 112 calculates an information amount criterion (hereinafter referred to as a first information amount criterion) AIC (M1) of the first model M1 according to the following equation. Here, the first model M1 is a model in which the word w i and the word w j are connected, but the word w j and the word w k are not connected. In this case, the word w i and the word w j are in a dependency relationship.

MLL(M1)=(n11+n12)log(n11+n12)+(n13+n14)log(n13+n14)+(n21+n22)log(n21+n22)+(n23+n24)log(n23+n24)+(n11+n13+n21+n23)log(n11+n13+n21+n23)+(n12+n14+n22+n24)log(n12+n14+n21+n23)−2×ZlogZ
AIC(M1)=−2×MLL(M1)+2×4 (3)
MLL (M1) = (n 11 + n 12) log (n 11 + n 12) + (n 13 + n 14) log (n 13 + n 14) + (n 21 + n 22) log (n 21 + n 22) + (n 23 + N 24 ) log (n 23 + n 24 ) + (n 11 + n 13 + n 21 + n 23 ) log (n 11 + n 13 + n 21 + n 23 ) + (n 12 + n 14 + n 22 + n 24 ) log (n 12 + n 14 21 + n 23 ) -2 × ZlogZ
AIC (M1) = − 2 × MLL (M1) + 2 × 4 (3)

次に、トライグラム連結規則生成部112は、第2のモデルM2の情報量基準(以下、第2の情報量基準と称す)AIC(M2)を以下の式に従って算出する。ここで、第2のモデルM2は、単語wと単語wは連結するが、単語wと単語wは連結しないモデルである。この場合、単語wと単語wは従属関係にある。 Next, the trigram connection rule generation unit 112 calculates an information amount criterion (hereinafter referred to as a second information amount criterion) AIC (M2) of the second model M2 according to the following equation. Here, the second model M2 is a model in which the word w j and the word w k are connected, but the word w i and the word w j are not connected. In this case, the word w j and the word w k are dependent.

MLL(M2)=(n11+n12+n13+n14)log(n11+n12+n13+n14)+(n21+n22+n23+n24)log(n21+n22+n23+n24)+(n11+n12)log(n11+n12)+(n12+n22)log(n12+n22)+(n13+n23)log(n13+n13)+(n14+n24)log(n14+n24)−2×Zlog Z
AIC(M2)=−2×MLL(M2)+2×4 (4)
MLL (M2) = (n 11 + n 12 + n 13 + n 14) log (n 11 + n 12 + n 13 + n 14) + (n 21 + n 22 + n 23 + n 24) log (n 21 + n 22 + n 23 + n 24) + ( n 11 + n 12) log ( n 11 + n 12) + (n 12 + n 22) log (n 12 + n 22) + (n 13 + n 23) log (n 13 + n 13) + (n 14 + n 24) log (n 14 + n 24 ) -2 × Zlog Z
AIC (M2) = − 2 × MLL (M2) + 2 × 4 (4)

次に、トライグラム連結規則生成部112は、第3のモデルM3の情報量基準(以下、第3の情報量基準と称す)AIC(M3)を以下の式に従って算出する。ここで、第3のモデルM3は、単語wと単語wと単語wは連結するモデルである。この場合、単語wと単語wと単語wは従属関係にある。 Next, the trigram connection rule generation unit 112 calculates an information amount criterion (hereinafter referred to as a third information amount criterion) AIC (M3) of the third model M3 according to the following equation. Here, the third model M3 is a model in which the word w i , the word w j, and the word w k are connected. In this case, the word w i , the word w j, and the word w k are in a dependency relationship.

MLL(M3)=n11logn11+n12logn12+n13logn13+n14logn14+n21logn21+n22logn22+n23log n23+n24logn24−ZlogZ
AIC(M3)=−2×MLL(M3)+2×7 (5)
MLL (M3) = n 11 logn 11 + n 12 logn 12 + n 13 logn 13 + n 14 logn 14 + n 21 logn 21 + n 22 logn 22 + n 23 log n 23 + n 24 logn 24 -ZlogZ
AIC (M3) = − 2 × MLL (M3) + 2 × 7 (5)

次に、トライグラム連結規則生成部112は、第0のモデルM0の情報量基準(以下、第4の情報量基準と称す)AIC(M0)を以下の式に従って算出する。ここで、第4のモデルM0は、単語wと単語wと単語wを連結しないモデルである。この場合、単語wと単語wと単語wはいずれも独立事象にある。 Next, the trigram connection rule generation unit 112 calculates an information amount criterion (hereinafter referred to as a fourth information amount criterion) AIC (M0) of the 0th model M0 according to the following equation. Here, the fourth model M0 is a model in which the word w i , the word w j, and the word w k are not connected. In this case, the word w i , the word w j, and the word w k are all in independent events.

MLL(M0)=(n11+n12+n13+n14)log(n11+n12+n13+n14)+(n11+n12+n21+n22)log(n11+n12+n21+n22)+(n11+n13+n21+n23)log(n11+n13+n21+n23)+(n21+n22+n23+n24)log(n21+n22+n23+n24)+(n13+n14+n23+n24)log(n13+n14+n23+n24)+ (n12+n14+n22+n24)log(n12+n14+n22+n24)−3×ZlogZ
AIC(M0)=−2×MLL(M0)+2×3 (6)
MLL (M0) = (n 11 + n 12 + n 13 + n 14 ) log (n 11 + n 12 + n 13 + n 14 ) + (n 11 + n 12 + n 21 + n 22 ) log (n 11 + n 12 + n 21 + n 22 ) n 11 + n 13 + n 21 + n 23) log (n 11 + n 13 + n 21 + n 23) + (n 21 + n 22 + n 23 + n 24) log (n 21 + n 22 + n 23 + n 24) + (n 13 + n 14 + n 23 + N 24 ) log (n 13 + n 14 + n 23 + n 24 ) + (n 12 + n 14 + n 22 + n 24 ) log (n 12 + n 14 + n 22 + n 24 ) −3 × ZlogZ
AIC (M0) = − 2 × MLL (M0) + 2 × 3 (6)

次に、トライグラム連結規則生成部112は、以下の処理により、ルールを取得する。そのルールは条件と処理の2部から構成されている。トライグラム連結規則生成部112は、四つの情報量基準のうちで第1の情報量基準AIC(M1)が最も小さい場合、以下のルールを形成する。そのルールとは、「t1がwであり,t2がwであり,t3がwである」という条件で、「単語wと単語wを連結する」という処理を行うというものである。 Next, the trigram connection rule generation unit 112 acquires a rule by the following processing. The rule consists of two parts: condition and processing. The trigram connection rule generation unit 112 forms the following rule when the first information amount criterion AIC (M1) is the smallest among the four information amount criteria. The rule is to perform a process of “linking word w i and word w j ” under the condition “t1 is w i , t2 is w j , and t3 is w k ”. is there.

次に、トライグラム連結規則生成部112は、四つの情報量基準のうちで第2の情報量基準AIC(M2)が最も小さい場合、以下のルールを形成する。そのルールとは、「t1がwであり,t2がwであり,t3がwである」という条件で、「単語wと単語wを連結する」という処理を行うというものである。 Next, the trigram connection rule generation unit 112 forms the following rule when the second information amount criterion AIC (M2) is the smallest among the four information amount criteria. The rule is to perform a process of “linking word w j and word w k ” under the condition “t1 is w i , t2 is w j , and t3 is w k ”. is there.

次に、トライグラム連結規則生成部112は、四つの情報量基準のうちで第3の情報量基準AIC(M3)が最も小さい場合、以下のルールを形成する。そのルールとは、「t1がwであり,t2がwであり,t3がwである」という条件で、「単語wと単語wと単語wを連結する」という処理を行うというものである。 Next, the trigram connection rule generation unit 112 forms the following rule when the third information amount criterion AIC (M3) is the smallest among the four information amount criteria. The rule is a process of “concatenating word w i , word w j, and word w k ” under the condition “t1 is w i , t2 is w j , and t3 is w k ”. Is to do.

次に、トライグラム連結規則生成部112は、四つの情報量基準のうちで第0の情報量基準AIC(M0)が最も小さい場合、ルールを生成せずに終了する。ここで、第1の情報量基準AIC(M1)と第2の情報量基準AIC(M2)と第3の情報量基準AIC(M3)と第0の情報量基準AIC(M0)とを総称して、三つの単語の連結度という。   Next, when the 0th information criterion AIC (M0) is the smallest among the four information criterions, the trigram connection rule generator 112 ends without generating a rule. Here, the first information criterion AIC (M1), the second information criterion AIC (M2), the third information criterion AIC (M3), and the zero information criterion AIC (M0) are collectively referred to. This is called the connectivity of three words.

トライグラム連結規則生成部112は、上記の処理を終えたあと、文書の先頭から二つ目、三つ目、四つ目の単語を抽出し、同様の処理を行う。以降、トライグラム連結規則生成部112は、単語を1つずつすらしながら、文の終わりに到達するまでこの処理を繰り返す。トライグラム連結規則生成部112は、文の終わりまで到達すると、次に文書を読み込み、上記と同じ処理を行う。トライグラム連結規則生成部112は、これらの処理を、文書集合Dにおける全文を処理し終えるまで繰り返す。   After completing the above processing, the trigram connection rule generation unit 112 extracts the second, third, and fourth words from the beginning of the document, and performs the same processing. Thereafter, the trigram connection rule generation unit 112 repeats this process until the end of the sentence is reached while even one word at a time. When the trigram connection rule generation unit 112 reaches the end of the sentence, the trigram connection rule generation unit 112 next reads the document and performs the same processing as described above. The trigram connection rule generation unit 112 repeats these processes until the entire sentence in the document set D is processed.

ステップS4において、規則生成部110は、ステップS3で得られたルールを規則記憶部23に記憶させる。具体的には、例えば、規則生成部110は、ステップS3で得られた各ルールに対しIDを付与したのちに、そのIDと条件と処理とを関連付けて規則記憶部23に記憶させる。   In step S4, the rule generation unit 110 causes the rule storage unit 23 to store the rule obtained in step S3. Specifically, for example, the rule generation unit 110 assigns an ID to each rule obtained in step S3, and then stores the ID, the condition, and the process in association with each other in the rule storage unit 23.

ステップS5において、規則生成部110は、特定コミュニティに特化して出現する単語結合ルールにフラグを付与する。具体的には、規則生成部110は、特定のコミュニティ(例えば、コミュニティA)の文書集合D2から得られた単語結合規則と、一般の文書集合D1(一般)から得られた単語結合規則を比較する。そして、規則生成部110は、特定のコミュティの文書集合D2(コミュニティA)にしか出現しない単語結合規則を抽出する。そして、規則生成部110は、規則記憶部23において、抽出した単語結合規則に特定のコミュティ特化(例えば、コミュニティA特化)のフラグを立てる。これにより、規則生成部110は、キーワードと、該キーワードの連結規則と、該キーワードの特定コミュニティへの特化度とを関連付けられて規則記憶部23に記憶させることができる。以上で、本フローチャートの処理を終了する。   In step S <b> 5, the rule generation unit 110 gives a flag to the word combination rule that appears specifically for the specific community. Specifically, the rule generation unit 110 compares the word combination rule obtained from the document set D2 of a specific community (for example, community A) with the word combination rule obtained from the general document set D1 (general). To do. Then, the rule generation unit 110 extracts word combination rules that appear only in the document set D2 (community A) of a specific community. And the rule production | generation part 110 sets the flag of specific community specialization (for example, community A specialization) in the extracted word coupling rule in the rule memory | storage part 23. FIG. Accordingly, the rule generation unit 110 can store the keyword, the rule for connecting the keyword, and the degree of specialization of the keyword with respect to the specific community in the rule storage unit 23 in association with each other. Above, the process of this flowchart is complete | finished.

図6は、規則記憶部23に記憶されている連結規則の一例である。同図において、IDと条件と処理の組が示されている。例えば、IDが1の場合、条件が、「tがwであり,tがwであり,tがwである」であり、処理が「単語wと単語wを連結する」であることが示されている。 FIG. 6 is an example of a connection rule stored in the rule storage unit 23. In the figure, a set of ID, condition, and processing is shown. For example, when the ID is 1, the condition is “t 1 is w i , t 2 is w j , t 3 is w k ”, and the process is “word w i and word w j It is shown that it is “connected”.

図7は、ウェブページにハイパーリンクを挿入する処理の流れの一例を示すフローチャートである。同図は、図4で連結規則が規則記憶部23に構築された後の処理の流れである。
まず、ステップS6において、単語抽出部101は、入力されたウェブページから単語を抽出する。ここで、そのウェブページには、単語にハイパーリンクが挿入されていないものとする。単語抽出部101は、例えば、形態素解析器を使って単語を抽出する。このときに単語抽出部101は、形態素解析器の単語の抽出精度を向上させるために、抽出前に文の正規化 (例えば,小文字の英文字を大文字に置き換えること又は表記の揺れを修正すること)を行ってもよい。
FIG. 7 is a flowchart showing an example of the flow of processing for inserting a hyperlink into a web page. This figure shows the flow of processing after the connection rule is constructed in the rule storage unit 23 in FIG.
First, in step S6, the word extraction unit 101 extracts words from the input web page. Here, it is assumed that no hyperlink is inserted in the word on the web page. The word extraction unit 101 extracts words using, for example, a morphological analyzer. At this time, in order to improve the word extraction accuracy of the morphological analyzer, the word extraction unit 101 normalizes the sentence (for example, replaces lowercase English letters with uppercase letters or corrects notation fluctuations) before extraction. ) May be performed.

次に、ステップS7において、重要語抽出部102は、文書の中から、ハイパーリンクを埋め込む候補となるキーワードを抽出する。具体的には、例えば、重要語抽出部102は、特定の品詞(例:名詞一般や固有名詞)に該当する単語のみを選定する。なお、重要語抽出部102は、TF−IDF(Term Frequency−Inverse Document Frequency)などを用いて重要な単語を抽出してもよい。   Next, in step S7, the keyword extraction unit 102 extracts keywords that are candidates for embedding hyperlinks from the document. Specifically, for example, the keyword extraction unit 102 selects only words corresponding to a specific part of speech (for example, general nouns or proper nouns). The important word extraction unit 102 may extract an important word using TF-IDF (Term Frequency-Inverse Document Frequency) or the like.

次に、ステップS8において、隣接単語抽出部103は、重要語抽出部102が抽出したキーワードのうち、互いに隣接しているキーワードを抽出し、これらを結合の候補とする。   Next, in step S8, the adjacent word extraction unit 103 extracts keywords that are adjacent to each other from the keywords extracted by the keyword extraction unit 102, and sets these as candidates for combination.

次に、連結語生成部130は、隣接するキーワードのうち、隣接する二つの単語(bi−gram)または三つの単語(tri−gram)が存在した場合に、それらの単語を結合するか否かを判定する。そして、連結語生成部130は、それらの単語を結合すると判定した場合、それらの単語を連結して連結語を生成する。これにより、リンク挿入部140は、適切な単語に対して、ハイパーリンクを挿入ことができる。具体的には、以下の手順に従い、連結語生成部130は、単語を連結する。   Next, when there are two adjacent words (bi-gram) or three words (tri-gram) among the adjacent keywords, the connected word generation unit 130 determines whether to combine these words. Determine. Then, when it is determined that the words are combined, the connected word generation unit 130 connects the words to generate a connected word. Thereby, the link insertion part 140 can insert a hyperlink with respect to an appropriate word. Specifically, the connected word generation unit 130 connects words according to the following procedure.

ステップS9−1において、tがwでtがwの場合を例に、バイグラム連結決定部131の処理を説明する。このときに、バイグラム連結決定部131は、規則記憶部23に記憶されているtとtに関するルールを参照する。その際、条件が「tがwであり、tがwである」で、処理が「単語wと単語wを連結する」というルールが規則記憶部23に記憶されている場合、バイグラム連結決定部131は単語wと単語wを連結する。 In step S9-1, the process of the bigram connection determination unit 131 will be described using a case where t 1 is w i and t 2 is w j as an example. At this time, the bigram connection determination unit 131 refers to the rules regarding t 1 and t 2 stored in the rule storage unit 23. At that time, the rule that the condition is “t 1 is w i and t 2 is w j ” and the process is “concatenate the word w i and the word w j ” is stored in the rule storage unit 23. In this case, the bigram connection determination unit 131 connects the word w i and the word w j .

ステップS9−2において、tがwでtがwでtがwであった場合を例にトライグラム連結決定部132の処理を説明する。トライグラム連結決定部132は、規則記憶部23に記憶されているtとtとtに関するルールを参照する。その際、条件が「tがwであり、tがwであり、tがwである」で、処理が「単語wと単語wと単語wを連結する」というルールが規則記憶部23に記憶されている場合、トライグラム連結決定部132は単語wと単語wと単語wを連結する。 The processing of the trigram connection determination unit 132 will be described by taking as an example a case where t 1 is w i , t 2 is w j and t 3 is w k in step S9-2. The trigram connection determination unit 132 refers to the rules regarding t 1 , t 2, and t 3 stored in the rule storage unit 23. At that time, the condition is “t 1 is w i , t 2 is w j , and t 3 is w k ”, and the process is “concatenate word w i , word w j and word w k ”. Is stored in the rule storage unit 23, the trigram connection determination unit 132 connects the word w i , the word w j, and the word w k .

なお、4単語以上が連続している場合、トライグラム連結決定部132は、その4単語以上が連続しているもののうち先頭から3単語に、三つの単語(tri−gram)のルールを適用する。そして、トライグラム連結決定部132は、続いて1単語ずつ後ろにずらしながら、三つの単語(tri−gram)のルールを順に適用していく。すなわち、トライグラム連結決定部132は、隣接単語数が4以上の場合に、3単語毎に三つの単語の連結規則を適用することにより、4単語以上が連結したキーワードを抽出する。これにより、トライグラム連結決定部132は、三つの単語(tri−gram)のルールを適用する毎に、単語同士を連結するか否か判定する。そして、トライグラム連結決定部132は、単語同士を連結すると判定した場合、それらの単語を連結する。   In addition, when four or more words are continuous, the trigram connection determination unit 132 applies the rule of three words (tri-gram) to the three words from the beginning among the consecutive four or more words. . Then, the trigram connection determination unit 132 successively applies the rules of three words (tri-gram) while shifting backward one word at a time. That is, when the number of adjacent words is four or more, the trigram connection determination unit 132 extracts a keyword in which four or more words are connected by applying a connection rule for three words every three words. Thereby, the trigram connection determination unit 132 determines whether to connect the words each time the rule of three words (tri-gram) is applied. When the trigram connection determination unit 132 determines to connect the words, the trigram connection determination unit 132 connects the words.

次に、ステップS10において、リンク要否判定部136は、対象キーワードに対してハイパーリンクを挿入するか否か判定する。対象キーワードがコミュニティに特化した単語結合規則が適用されて生成された場合、リンク要否判定部136は、コミュニティの新入りが閲覧している場合に限り、その対象キーワードにリンクを挿入すると判定する。一方、対象キーワードがコミュニティに特化しない単語結合規則が適用されて生成された場合、リンク要否判定部136は、コミュニティの全員に対して、その対象キーワードにリンクを挿入すると判定する。   Next, in step S10, the link necessity determination unit 136 determines whether to insert a hyperlink for the target keyword. When the target keyword is generated by applying a word combination rule specialized for the community, the link necessity determination unit 136 determines to insert a link into the target keyword only when a newcomer of the community is browsing. . On the other hand, when the target keyword is generated by applying a word combination rule that is not specific to the community, the link necessity determination unit 136 determines that a link is inserted into the target keyword for all members of the community.

ここで、リンク要否判定部136は、コミュニティでの活動履歴に基づいて、コミュニティの新入りかどうかを判定する。より詳細には、リンク要否判定部136は、(閲覧、発言(投稿)など)から得られる参加継続時間又は/及びその発生頻度に基づき、コミュニティの新入りかどうかを判定する。具体的には、例えば、リンク要否判定部136は、参加継続時間が予め決められた閾値時間以下である場合、コミュニティの新入りであると判定し、それ以外の場合、コミュニティの新入りでないと判定する。   Here, the link necessity determination unit 136 determines whether or not a new community is entered based on the activity history in the community. More specifically, the link necessity determination unit 136 determines whether or not it is a new entry of the community based on the participation duration obtained from (viewing, utterance (posting), etc.) and / or the frequency of occurrence thereof. Specifically, for example, the link necessity determination unit 136 determines that the participation duration is equal to or less than a predetermined threshold time, and determines that the community is new, and otherwise determines that the community is not new. To do.

続いて、利用者に一度表示したキーワードへのリンクに対する処理について説明する。キーワードへのリンクが一度クリックされた場合、リンク要否判定部136は、利用者が一時的に記憶したと判断し、以降はリンクを設定しない。ただし、リンク要否判定部136は、予め決められた時間(例えば、n日)以上空けて再度リンクを提示し、クリックされなければ、そのキーワードはリンクを張らない単語としてリンク要否記憶部25に記憶させる。その場合、リンク生成装置1は、新入りの利用者がキーワードを理解したとみなしたことになる。
これにより、リンク要否記憶部25は、利用者毎に、キーワード、クリック済みか否かを示す情報及びリンクを張らないキーワードか否かを示す情報を1組のデータ(1レコード)として保持する。
Next, processing for a link to a keyword once displayed to the user will be described. When the link to the keyword is clicked once, the link necessity determination unit 136 determines that the user has temporarily stored, and does not set the link thereafter. However, the link necessity determination unit 136 presents the link again after a predetermined time (for example, n days) or more, and if the link is not clicked, the keyword is regarded as a word that does not link, and the link necessity storage unit 25. Remember me. In this case, the link generation device 1 assumes that the new user understands the keyword.
Accordingly, the link necessity storage unit 25 holds, as a set of data (one record), for each user, a keyword, information indicating whether or not the user has clicked, and information indicating whether or not the keyword is not linked. .

次に、ステップS11において、リンク要否判定部136は、対象キーワードに対してハイパーリンクを挿入すると判定した場合(ステップS10 YES)、リンク挿入部140は、対象キーワードに対して、ハイパーリンクを挿入する。
具体的には、例えば、リンク挿入部140は、検索エンジン用のクエリが付与されたハイパーリンクを挿入する。より詳細には、リンク挿入部140は、検索エンジン向けのクエリのテンプレートを予め保持し、検索エンジン向けのクエリのテンプレートに連結語あるいは連結していないキーワードのクエリを示す文字列を組み込んで、ハイパーリンクを生成する。
Next, when the link necessity determination unit 136 determines in step S11 that a hyperlink is to be inserted into the target keyword (YES in step S10), the link insertion unit 140 inserts a hyperlink into the target keyword. To do.
Specifically, for example, the link insertion unit 140 inserts a hyperlink to which a search engine query is assigned. More specifically, the link insertion unit 140 holds a query template for a search engine in advance, incorporates a character string indicating a query of a linked word or a keyword that is not linked into the query template for a search engine, and Generate a link.

例えば、リンク挿入部140は、商用の検索エンジンのサイトURLの後ろに、「/search?q=”<検索対象>”」と言った文字列を付与する。ここで、商用の検索エンジンのサービス(例:サービスの名称がexamplesearch)のURLはhttp://examplesearch.comであると仮定する。   For example, the link insertion unit 140 adds a character string such as “/ search? Q =” <search target> ”after the site URL of a commercial search engine. Here, it is assumed that the URL of a commercial search engine service (eg, service name is examplesearch) is http://examplesearch.com.

リンク挿入部140は、対象キーワードが「国会議事堂」であった場合、「http://examplesearch.com/search?q=国会議事堂」というハイパーリンクを生成する。そして、リンク挿入部140は、ウェブページ内のキーワードに生成したハイパーリンクを埋め込む。例えば、リンク挿入部140は、HTML(hypertext markup language)の場合、<a href></a>のタグで単語を囲むことで、「本日、国会議事堂において、」に対し,「本日、<a href=” http://examplesearch.com/search?q=国会議事堂”>国会議事堂</a>において、」という結果を得る。リンク挿入部140は、ハイパーリンクが埋め込まれたウェブページを表示部30に表示させる。   When the target keyword is “National Diet Building”, the link insertion unit 140 generates a hyperlink “http://examplesearch.com/search?q=National Diet Building”. And the link insertion part 140 embeds the produced | generated hyperlink in the keyword in a web page. For example, in the case of HTML (hypertext markup language), the link insertion unit 140 surrounds a word with a tag <a href> </a>, so that “today, in the National Diet Building” href = ”http://examplesearch.com/search?q=In the Parliament”> In the Parliament </a> The link insertion unit 140 causes the display unit 30 to display the web page in which the hyperlink is embedded.

なお、リンク挿入部140が、予め単語とその単語の意味を示すウェブページへのハイパーリンクとが関連付けられて記憶されている場合、入力された連結語あるいは連結していないキーワードに対応するハイパーリンクを読み出してもよい。そして、リンク挿入部140は、読み出したハイパーリンクをウェブページの当該単語の位置に埋め込んでもよい。
リンク要否判定部136が、対象キーワードに対してハイパーリンクを挿入しないと判定した場合(ステップS10 NO)、リンク生成装置1は、ウェブページを表示部30に表示させる。
以上で、本フローチャートの処理を終了する。
When the link insertion unit 140 stores a word and a hyperlink to a web page indicating the meaning of the word in advance, the hyperlink corresponding to the input connected word or the keyword that is not connected. May be read out. Then, the link insertion unit 140 may embed the read hyperlink at the position of the word on the web page.
When the link necessity determination unit 136 determines not to insert a hyperlink for the target keyword (NO in step S10), the link generation device 1 causes the display unit 30 to display a web page.
Above, the process of this flowchart is complete | finished.

<効果>
以上、本実施形態のリンク生成装置1は、コミュニティでの活動履歴(例えば、コミュニティへの参加経過時間)に基づいて、キーワードに対してリンクを挿入するか否か判定する。これにより、リンク生成装置1は、コミュニティへの参加経過時間が長いベテランの利用者に対しては、コミュニティに特化したキーワードにリンクを張らないようにすることができ、ベテランの利用者の誤操作を防止することができる。その結果、リンク生成装置1は、利用者の使い勝手を向上させることができる。
<Effect>
As described above, the link generation device 1 according to the present embodiment determines whether or not to insert a link for a keyword based on an activity history in the community (for example, an elapsed time of participation in the community). As a result, the link generation device 1 can prevent a veteran user who has been in the community for a long time from joining the community from linking to a keyword specific to the community. Can be prevented. As a result, the link generation device 1 can improve user convenience.

また、リンク生成装置1は、コミュニティへの参加経過時間が短い新入りの利用者に対しては、コミュニティに特化したキーワードにリンクを張るようにすることができ、新入りの利用者の利便性が向上させることができる。その結果、リンク生成装置1は、利用者の使い勝手を向上させることができる。   In addition, the link generation device 1 can link a keyword specific to a community to a new user who has a short elapsed time in participation in the community, thereby improving the convenience of the new user. Can be improved. As a result, the link generation device 1 can improve user convenience.

また、リンク生成装置1は、利用者に対して、キーワードに挿入されたリンクが一度クリックされた場合は、利用者が一時的に記憶したと判断し、以降はリンクを設定しない。そして、リンク生成装置1は、予め決められた時間空けて再度リンクを提示し、クリックされなければ、リンクを張らないキーワードとしてリンク要否記憶部25に記憶させる。その場合、リンク生成装置1は、利用者がキーワードを理解したとみなし、そのキーワードハイパーリンクを外すので、利用者の誤操作を防止することができる。その結果、リンク生成装置1は、利用者の使い勝手を向上させることができる。   Moreover, the link production | generation apparatus 1 judges that the user memorize | stored temporarily, when the link inserted in the keyword once was clicked with respect to the user, and does not set a link after that. Then, the link generation device 1 presents the link again after a predetermined time, and stores the link in the link necessity storage unit 25 as a keyword that does not link if the link is not clicked. In that case, since the link generation device 1 considers that the user has understood the keyword and removes the keyword hyperlink, the user's erroneous operation can be prevented. As a result, the link generation device 1 can improve user convenience.

また、本実施形態のリンク生成装置1は、予め文章集合Dから単語の連結規則を生成し、生成した連結規則を規則記憶部23に記憶させておく。そして、リンク生成装置1は、入力されたウェブページから単語を抽出し、抽出した単語のうちキーワードを抽出する。そして、リンク生成装置1は、抽出したキーワード同士が隣接している場合、予め規則記憶部23に記憶されている連結規則を参照して、それらのキーワードを連結するか否か判定する。   Further, the link generation device 1 of the present embodiment generates a word connection rule from the sentence set D in advance, and stores the generated connection rule in the rule storage unit 23. And the link production | generation apparatus 1 extracts a word from the input web page, and extracts a keyword among the extracted words. When the extracted keywords are adjacent to each other, the link generation device 1 refers to a connection rule stored in advance in the rule storage unit 23 and determines whether or not to connect these keywords.

そして、リンク生成装置1は、それらのキーワードを連結すると判定した場合、それらのキーワードを連結した連結語をキーワードとして生成する。そして、リンク生成装置1は、生成したキーワードに対して、そのキーワードの意味を説明するウェブページへのハイパーリンクを埋め込む。
これにより、ユーザは、ウェブページに含まれるキーワードに埋め込まれたハイバーリンクを開くことにより、その単語の意味を知ることができる。ゆえに、リンク生成装置1は、ウェブページに含まれる単語の意味を知るのにかかる手間を軽減することができる。
When the link generation device 1 determines that the keywords are to be connected, the link generation device 1 generates a connected word obtained by connecting the keywords as a keyword. And the link production | generation apparatus 1 embeds the hyperlink to the web page explaining the meaning of the keyword with respect to the produced | generated keyword.
Thereby, the user can know the meaning of the word by opening the hiberlink embedded in the keyword included in the web page. Therefore, the link generation device 1 can reduce the time and labor required to know the meaning of the words included in the web page.

また、この連結規則は連結度に基づいて決定されているので、リンク生成装置1は、ハイパーリンクを埋め込むのに適したキーワードを生成することができる。ここで、ハイパーリンクを埋め込むのに適したキーワードとは、例えば、ネットの利用者がよく見かけるキーワード、Wikipedia(登録商標)等の辞書サイトに登録される可能性の高いキーワードである。   In addition, since the connection rule is determined based on the degree of connection, the link generation device 1 can generate a keyword suitable for embedding a hyperlink. Here, keywords suitable for embedding hyperlinks are, for example, keywords that are often seen by users of the Internet, and keywords that are highly likely to be registered in a dictionary site such as Wikipedia (registered trademark).

ユーザは、最新の新聞記事又はインターネット上の最新記事を定期的にリンク生成装置1に入力すると、リンク生成装置1は、第1の文章記憶部21に記憶されている文書集合D1にそれらの記事を追記する。これにより、リンク生成装置1は、それらの記事に含まれる最新のキーワードに対する連結規則を生成することができる。その結果、連結規則を生成するのに、ユーザ自らが最新のキーワードを抽出してリンク生成装置1に入力する必要がないので、リンク生成装置1はユーザの処理の手間を軽減することができる。   When the user periodically inputs the latest newspaper article or the latest article on the Internet to the link generation apparatus 1, the link generation apparatus 1 stores those articles in the document set D <b> 1 stored in the first sentence storage unit 21. Is added. Thereby, the link production | generation apparatus 1 can produce | generate the connection rule with respect to the newest keyword contained in those articles. As a result, it is not necessary for the user himself to extract the latest keyword and input it to the link generation device 1 in order to generate the connection rule, so that the link generation device 1 can reduce the user's processing effort.

また、リンク生成装置1は、その最新のキーワードを含むウェブページが入力された場合、その最新のキーワードを抽出し、抽出した最新のキーワードに対してハイパーリンクを埋め込むことができる。これにより、ユーザは、最新のキーワードのハイパーリンクを開くことにより、簡単に、その最新のキーワードの意味を知ることができる。   In addition, when a web page including the latest keyword is input, the link generation device 1 can extract the latest keyword and embed a hyperlink in the extracted latest keyword. Thus, the user can easily know the meaning of the latest keyword by opening the hyperlink of the latest keyword.

また、リンク生成装置1は、1単語でキーワードとなるか、2単語でキーワードとなるか、3単語でキーワードとなるかを一度に比較することができ、最も確率の高いキーワードを高精度に選択できる。   Also, the link generation device 1 can compare at a time whether one word is a keyword, two words are a keyword, or three words are a keyword, and the keyword with the highest probability is selected with high accuracy. it can.

なお、複数の装置を備えるシステムが、本実施形態のリンク生成装置1の各処理を、それらの複数の装置で分散して処理してもよい。
また、本実施形態のリンク生成装置1の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、リンク生成装置1に係る上述した種々の処理を行ってもよい。
Note that a system including a plurality of devices may process each process of the link generation device 1 of this embodiment in a distributed manner by the plurality of devices.
Further, by recording a program for executing each process of the link generation device 1 of the present embodiment on a computer-readable recording medium, causing the computer system to read and execute the program recorded on the recording medium. The various processes described above related to the link generation device 1 may be performed.

なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。   Here, the “computer system” may include an OS and hardware such as peripheral devices. Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   Further, the “computer-readable recording medium” refers to a volatile memory (for example, DRAM (Dynamic) in a computer system serving as a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. Random Access Memory)) that holds a program for a certain period of time is also included. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the concrete structure is not restricted to this embodiment, The design etc. of the range which does not deviate from the summary of this invention are included.

1 リンク生成装置
10 入力部
20 記憶部
21 第1の文章記憶部
22 第2の文章記憶部
23 規則記憶部
24 利用者記憶部
25 リンク要否記憶部
30 表示部
100 制御部
101 単語抽出部
102 重要語抽出部
103 隣接単語抽出部
104 キーワード抽出部
110 規則生成部
111 バイグラム連結規則生成部
112 トライグラム連結規則生成部
130 連結語生成部
131 バイグラム連結決定部
132 トライグラム連結決定部
135 取得部
136 リンク要否判定部
140 リンク挿入部
DESCRIPTION OF SYMBOLS 1 Link production | generation apparatus 10 Input part 20 Storage part 21 1st sentence storage part 22 2nd sentence storage part 23 Rule storage part 24 User storage part 25 Link necessity storage part 30 Display part 100 Control part 101 Word extraction part 102 Key word extraction unit 103 Adjacent word extraction unit 104 Keyword extraction unit 110 Rule generation unit 111 Bigram connection rule generation unit 112 Trigram connection rule generation unit 130 Link word generation unit 131 Bigram connection determination unit 132 Trigram connection determination unit 135 Acquisition unit 136 Link necessity determination unit 140 Link insertion unit

Claims (17)

コンテンツに含まれる文からキーワードを抽出するキーワード抽出部と、
利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度を取得する取得部と、
前記取得部が取得した前記参加度及び前記特化度に基づいて、キーワードに対してハイパーリンクを挿入するか否かを判定するリンク要否判定部と、
を備えることを特徴とするリンク生成装置。
A keyword extraction unit that extracts keywords from sentences included in the content;
An acquisition unit for acquiring the degree of participation of a user in a specific community and the degree of specialization of each keyword in a specific community;
A link necessity determination unit that determines whether to insert a hyperlink for a keyword based on the degree of participation and the degree of specialization acquired by the acquisition unit;
A link generation apparatus comprising:
前記特定コミュニティへの参加度は、利用者のコミュニティへの参加時間の累積値に基づいて決定されたスコアであることを特徴とする請求項1に記載のリンク生成装置。   The link generation apparatus according to claim 1, wherein the participation degree in the specific community is a score determined based on a cumulative value of a user's participation time in the community. 前記特定コミュニティへの特化度は、一般コミュニティへの投稿記事に含まれるキーワードと特定コミュニティへの投稿記事に含まれるキーワードとを比較した場合に、特定コミュニティに偏って出現するキーワードに対して高いスコアが付けられていることを特徴とする請求項1または2に記載のリンク生成装置。   The degree of specialization to the specific community is high with respect to keywords that appear biased in the specific community when comparing keywords included in articles posted to the general community and keywords included in articles posted to the specific community. The link generation device according to claim 1, wherein a score is given. 前記リンク要否判定部は、前記参加度が予め決められた参加度以下である場合に、対象キーワードの特定コミュニティへの特化度が予め決められた特化度以上の場合、対象キーワードに対して特定のWebコンテンツへのハイパーリンクを挿入することを決定することを特徴とする請求項1から3のいずれか一項に記載のリンク生成装置。   When the degree of participation is equal to or less than a predetermined degree of participation and the degree of specialization of the target keyword to a specific community is greater than or equal to a predetermined degree of specialization, the link necessity determination unit 4. The link generation device according to claim 1, further comprising: determining to insert a hyperlink to a specific Web content. 5. 前記リンク要否判定部は、リンク要否記憶部を参照してリンク挿入の要否を判定することを特徴とする請求項1から4のいずれか一項に記載のリンク生成装置。   The link generation apparatus according to any one of claims 1 to 4, wherein the link necessity determination unit determines whether or not a link insertion is necessary with reference to a link necessity storage unit. 前記リンク要否記憶部は、利用者毎に、キーワードと、キーワードがクリック済みか否かを示す情報と、リンクを張らないキーワードか否かを示す情報とが関連付けられて記憶されていることを特徴とする請求項5に記載のリンク生成装置。   The link necessity storage unit stores, for each user, a keyword, information indicating whether or not the keyword has been clicked, and information indicating whether or not the keyword is not linked. The link generation device according to claim 5, characterized in that: 前記キーワード抽出部は、
特定コミュニティ内に投稿されたコンテンツに含まれる文から単語を抽出する単語抽出部と、
前記単語抽出部が抽出した単語の中から、隣接している単語を抽出する隣接単語抽出部と、
前記隣接単語抽出部が抽出した隣接している単語を連結してキーワードを生成する連結語生成部と、
を備えることを特徴とする請求項1から6のいずれか一項に記載のリンク生成装置。
The keyword extraction unit
A word extraction unit that extracts words from sentences included in content posted in a specific community;
An adjacent word extraction unit that extracts adjacent words from the words extracted by the word extraction unit;
A concatenated word generation unit that generates a keyword by concatenating adjacent words extracted by the adjacent word extraction unit;
The link generation device according to any one of claims 1 to 6, further comprising:
キーワードと、該キーワードの連結規則と、該キーワードの特定コミュニティへの特化度とが関連付けられて記憶されている規則記憶部を備え、
前記連結語生成部は、
前記キーワードが二つ隣接している場合、前記規則記憶部に記憶されている連結規則に基づいて、2単語を連結または連結せずにキーワードを生成するバイグラム連結決定部と、
前記キーワードが三つ隣接している場合、前記規則記憶部に記憶されている連結規則に基づいて、3単語を連結または2単語を連結または連結せずにキーワードを生成するトライグラム連結決定部と、
を備えることを特徴とする請求項7に記載のリンク生成装置。
A rule storage unit in which a keyword, a connection rule of the keyword, and a degree of specialization of the keyword to a specific community are associated and stored;
The connective word generation unit
When the two keywords are adjacent to each other, a bigram connection determination unit that generates a keyword without connecting or connecting two words based on a connection rule stored in the rule storage unit;
A trigram connection determination unit that generates keywords without connecting or connecting three words or connecting two words based on a connection rule stored in the rule storage unit when three of the keywords are adjacent to each other; ,
The link generation device according to claim 7, further comprising:
前記トライグラム連結決定部は、隣接単語数が4以上の場合に、3単語毎に三つの単語の連結規則を適用することにより、4単語以上が連結したキーワードを抽出することを特徴とする請求項8に記載のリンク生成装置。   The trigram connection determination unit extracts a keyword in which four or more words are connected by applying a connection rule of three words for every three words when the number of adjacent words is four or more. Item 9. The link generation device according to Item 8. キーワードと、該キーワードの連結規則と、該キーワードの特定コミュニティへの特化度とが関連付けられて記憶されている規則記憶部を備え、
前記取得部は、前記規則記憶部から前記キーワードの特定コミュニティへの特化度を読み出すことにより前記特化度を取得することを特徴とする請求項1から7のいずれか一項に記載のリンク生成装置。
A rule storage unit in which a keyword, a connection rule of the keyword, and a degree of specialization of the keyword to a specific community are associated and stored;
The link according to any one of claims 1 to 7, wherein the acquisition unit acquires the specialization degree by reading out the specialization degree of the keyword to a specific community from the rule storage unit. Generator.
二単語以上が隣接する場合に、該隣接する単語同士が連結する度合いを示す連結度を統計的に算出し、該算出した連結度に基づいて、単語を連結する連結規則を生成し、該生成した連結規則を前記規則記憶部に記憶させる規則生成部を備えることを特徴とする請求項8から10のいずれか一項に記載のリンク生成装置。   When two or more words are adjacent to each other, the degree of connection indicating the degree to which the adjacent words are connected is statistically calculated, and a connection rule for connecting words is generated based on the calculated degree of connection, and the generation The link generation device according to any one of claims 8 to 10, further comprising a rule generation unit that stores the connected rule in the rule storage unit. 前記規則生成部は、
二単語が連結する場合と連結しない場合の連結度を算出し、該算出した連結度に基づき、二単語を連結する連結規則を生成するバイグラム連結規則生成部と、
三単語が連結する場合と三単語のうちの隣接する二単語が連結する場合と三単語のいずれも連結しない場合の連結度を算出し、該算出した連結度に基づき、三単語を連結する連結規則を生成するトライグラム連結規則生成部と、
を備えることを特徴とする請求項11に記載のリンク生成装置。
The rule generator is
A bigram connection rule generating unit for calculating a connection degree when two words are connected and when not connecting, and generating a connection rule for connecting two words based on the calculated connection degree;
Calculate the degree of connection when three words are connected, when two adjacent words of the three words are connected, and when none of the three words are connected, and connect the three words based on the calculated degree of connection A trigram concatenation rule generator for generating rules;
The link generation device according to claim 11, comprising:
前記連結度は、赤池情報量基準であることを特徴とする請求項12に記載のリンク生成装置。   The link generation apparatus according to claim 12, wherein the connectivity is based on an Akaike information amount standard. 前記単語抽出部は、前記文の正規化を行った後に前記単語を抽出することを特徴とする請求項7に記載のリンク生成装置。   The link generation device according to claim 7, wherein the word extraction unit extracts the word after normalizing the sentence. 前記利用者の識別情報と、該利用者の特定コミュニティへの参加度とが関連付けられて記憶されている利用者記憶部を備え、
前記取得部は、前記利用者記憶部から前記利用者の特定コミュニティへの参加度を読み出すことにより前記参加度を取得することを特徴とする請求項1から14のいずれか一項に記載のリンク生成装置。
A user storage unit that stores the identification information of the user and the degree of participation of the user in a specific community in association with each other;
The link according to any one of claims 1 to 14, wherein the acquisition unit acquires the participation degree by reading out the participation degree of the user in a specific community from the user storage unit. Generator.
入力部と記憶部と制御部とを備えたリンク生成装置のリンク生成方法であって、
前記入力部が、コンテンツの入力を受け付ける入力手順と、
前記制御部が、前記入力部から入力されたコンテンツに含まれる文からキーワードを抽出するキーワード抽出手順と、
前記制御部が、利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度を記憶する前記記憶部から、前記参加度および前記特化度を読み出す取得手順と、
前記制御部が、前記記憶部から読み出した前記参加度及び前記特化度に基づいて、キーワードに対してハイパーリンクを挿入するか否かを判定するリンク要否判定手順と、
を有することを特徴とするリンク生成方法。
A link generation method of a link generation device including an input unit, a storage unit, and a control unit ,
An input procedure in which the input unit receives input of content;
A keyword extraction procedure in which the control unit extracts a keyword from a sentence included in the content input from the input unit ;
An acquisition procedure for reading out the degree of participation and the degree of specialization from the storage unit in which the control unit stores a degree of participation in a specific community of a user and a degree of specialization of each keyword in a specific community;
A link necessity determination procedure for determining whether to insert a hyperlink for a keyword based on the participation level and the specialization level read from the storage unit by the control unit ;
A link generation method characterized by comprising:
コンピュータに、
コンテンツに含まれる文からキーワードを抽出するキーワード抽出ステップと、
利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度を取得する取得ステップと、
前記取得ステップにより取得された前記参加度及び前記特化度に基づいて、キーワードに対してハイパーリンクを挿入するか否かを判定するリンク要否判定ステップと、
を実行させるためのリンク生成プログラム。
On the computer,
A keyword extraction step for extracting keywords from sentences contained in the content;
An acquisition step for acquiring the degree of participation of the user in the specific community and the degree of specialization of each keyword in the specific community;
A link necessity determination step for determining whether or not to insert a hyperlink for a keyword based on the participation degree and the specialization degree acquired by the acquisition step;
Link generation program to execute
JP2011286478A 2011-12-27 2011-12-27 LINK GENERATION DEVICE, LINK GENERATION METHOD, AND LINK GENERATION PROGRAM Active JP5764052B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011286478A JP5764052B2 (en) 2011-12-27 2011-12-27 LINK GENERATION DEVICE, LINK GENERATION METHOD, AND LINK GENERATION PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011286478A JP5764052B2 (en) 2011-12-27 2011-12-27 LINK GENERATION DEVICE, LINK GENERATION METHOD, AND LINK GENERATION PROGRAM

Publications (2)

Publication Number Publication Date
JP2013134713A JP2013134713A (en) 2013-07-08
JP5764052B2 true JP5764052B2 (en) 2015-08-12

Family

ID=48911337

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011286478A Active JP5764052B2 (en) 2011-12-27 2011-12-27 LINK GENERATION DEVICE, LINK GENERATION METHOD, AND LINK GENERATION PROGRAM

Country Status (1)

Country Link
JP (1) JP5764052B2 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325827A (en) * 1994-04-07 1995-12-12 Mitsubishi Electric Corp Automatic hyper text generator
JP2008077227A (en) * 2006-09-19 2008-04-03 Access Co Ltd Link generation device, browser program and link generation system
JP4850882B2 (en) * 2007-09-04 2012-01-11 ヤフー株式会社 How to insert a link on a web page
JP5185891B2 (en) * 2009-06-18 2013-04-17 ヤフー株式会社 Content providing apparatus, content providing method, and content providing program
JP5364529B2 (en) * 2009-10-07 2013-12-11 株式会社Kddi研究所 Dictionary registration device, document label determination system, and dictionary registration program
JP2011103059A (en) * 2009-11-11 2011-05-26 Oki Electric Industry Co Ltd Technical term extraction device and program

Also Published As

Publication number Publication date
JP2013134713A (en) 2013-07-08

Similar Documents

Publication Publication Date Title
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
Amjad et al. “Bend the truth”: Benchmark dataset for fake news detection in Urdu language and its evaluation
JP5647508B2 (en) System and method for identifying short text communication topics
US20170185581A1 (en) Systems and methods for suggesting emoji
Savoy Authorship attribution: A comparative study of three text corpora and three languages
JP5143057B2 (en) Important keyword extraction apparatus, method and program
WO2008022581A1 (en) Method and device for obtaining the new words and input method system
US10380248B1 (en) Acronym identification in domain names
CN103733193A (en) Statistical spell checker
CN113204953A (en) Text matching method and device based on semantic recognition and device readable storage medium
JP5427694B2 (en) Related content presentation apparatus and program
JP5629976B2 (en) Patent specification evaluation / creation work support apparatus, method and program
CN114141384A (en) Method, apparatus and medium for retrieving medical data
JP6108212B2 (en) Synonym extraction system, method and program
US9886498B2 (en) Title standardization
JP5179564B2 (en) Query segment position determination device
US9336317B2 (en) System and method for searching aliases associated with an entity
JP5364529B2 (en) Dictionary registration device, document label determination system, and dictionary registration program
JP5764052B2 (en) LINK GENERATION DEVICE, LINK GENERATION METHOD, AND LINK GENERATION PROGRAM
JP5180894B2 (en) Attribute expression acquisition method, apparatus and program
Gobin-Rahimbux et al. KreolStem: A hybrid language-dependent stemmer for Kreol Morisien
JP5739352B2 (en) Dictionary generation apparatus, document label determination system, and computer program
JP5094835B2 (en) Semantic attribute estimation apparatus, method and program
Ghorai An Information Retrieval System for FIRE 2016 Microblog Track.
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140723

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150324

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150427

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150612

R150 Certificate of patent or registration of utility model

Ref document number: 5764052

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150