JP6613833B2 - Information processing apparatus, information processing system, and program - Google Patents
Information processing apparatus, information processing system, and program Download PDFInfo
- Publication number
- JP6613833B2 JP6613833B2 JP2015221548A JP2015221548A JP6613833B2 JP 6613833 B2 JP6613833 B2 JP 6613833B2 JP 2015221548 A JP2015221548 A JP 2015221548A JP 2015221548 A JP2015221548 A JP 2015221548A JP 6613833 B2 JP6613833 B2 JP 6613833B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- document
- information processing
- link
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理装置、情報処理システム、及びプログラムに関し、詳細には、文書間のリンク構造を利用した情報の取得・提示に関する。 The present invention relates to an information processing apparatus, an information processing system, and a program, and more particularly to acquisition / presentation of information using a link structure between documents.
近年、インターネットの普及によりユーザは様々な情報を簡単に検索して取得できるようになっている。例えば、インターネット上のWebサイトの検索エンジンによって、ユーザが入力したキーワードを含むWebページを検索し閲覧することができる。また、リンクが埋め込まれたハイパーテキストであれば、ユーザはWebページを閲覧中に関連するリンク先へジャンプして、別の情報を容易に得ることが可能となっている。 In recent years, with the widespread use of the Internet, users can easily search and acquire various information. For example, a Web page including a keyword input by a user can be searched and browsed by a search engine of a Web site on the Internet. In the case of hypertext with embedded links, the user can jump to a related link destination while browsing a Web page and easily obtain other information.
また、よりユーザの興味を引く文章を検索結果として表示するため、例えば特許文献1には、意外性のある文章を検索結果として提示する手法について記載されている。具体的には、特許文献1の手法では、ドキュメントをカテゴリに分類し、ドキュメントから抽出された各単語についてカテゴリ内で各々の出現頻度に基づいて単語の意外性の指標となる単語スコアを算出し、ドキュメントから抽出された文章について単語スコアに基づいて文章の意外性のスコアとなる文章スコアを算出することが記載されている。これにより、カテゴリ内での単語スコアが高く、希少性が高い単語は意外性が高いとして、ドキュメントから意外性のある文章を抽出できる。
In addition, for example,
しかしながら、上述の特許文献1の手法では、カテゴリを考慮して単語の出現頻度に基づく意外性を計算している。そのため、同じ内容が別のカテゴリでも多く出現する場合には、意外性の指標を正しく算出できないという問題があった。
However, the above-described method of
本発明は、このような課題に鑑みてなされたもので、カテゴリによらず、一般に認知されている関連文書の中からユーザが自分では発見しにくい意外性のある情報を取得し、提示することが可能な情報処理装置、情報処理システム、及びプログラムを提供することを目的とする。 The present invention has been made in view of such problems, and acquires and presents surprising information that is difficult for a user to find by himself / herself from related documents that are generally recognized, regardless of category. It is an object to provide an information processing apparatus, an information processing system, and a program capable of performing the above.
前述した課題を解決するための第1の発明は、キーワードを入力する入力手段と、リンク関係としてリンク先を関連付けられた語句及び前記語句に関する文書を記憶する記憶手段と、入力されたキーワードとリンク関係にある語句を取得するリンク語句取得手段と、前記入力されたキーワードに関する文書及び前記入力されたキーワードとリンク関係にある語句に関する文書を抽出する文書抽出手段と、前記キーワードに関する文書と、前記リンク関係にある語句に関する文書との類似度を用いて文書間の意外度を算出する演算手段と、を備えることを特徴とする情報処理装置である。 According to a first aspect of the present invention, there is provided an input means for inputting a keyword, a storage means for storing a word / phrase associated with a link destination as a link relation and a document related to the phrase, and an input keyword / link. Link phrase acquisition means for acquiring a related phrase, document extraction means for extracting a document related to the input keyword and a phrase related to the input keyword, a document related to the keyword, and the link An information processing apparatus comprising: an operation unit that calculates a degree of unexpectedness between documents using a similarity to a document related to a related phrase.
第1の発明によれば、情報処理装置は、リンク関係としてリンク先を関連付けられた語句及び前記語句に関する文書を記憶する記憶手段を有し、入力されたキーワードとリンク関係のある語句を取得し、前記入力されたキーワードに関する文書及び前記入力されたキーワードとリンク関係にある語句に関する文書を抽出し、前記キーワードに関する文書と、前記リンク関係にある語句に関する文書との類似度を用いて文書間の意外度を算出する。これにより、ユーザは通常の文章閲覧では発見しにくい意外な情報を発見しやすくなる。網羅的な情報の発見やAI自動対話の促進、発想支援等への活用が可能となる。 According to the first invention, the information processing apparatus includes a storage unit that stores a word / phrase associated with a link destination as a link relationship and a document related to the word / phrase, and acquires a word / phrase having a link relationship with the input keyword. , Extracting the document related to the input keyword and the document related to the phrase related to the input keyword, and using the similarity between the document related to the keyword and the document related to the phrase related to the link Calculate the degree of surprise. This makes it easier for the user to find unexpected information that is difficult to find by normal text browsing. It becomes possible to discover comprehensive information, promote AI automatic dialogue, and support ideas.
第1の発明において、前記演算手段の算出結果に応じて前記リンク関係にある語句に関する文書の少なくとも一部を出力する出力手段を備えることが望ましい。これにより、関連する膨大な量の文書から意外性のある部分を抽出して出力できる。ユーザは効率よく意外性のある情報を取得できる。 In the first invention, it is desirable to provide an output means for outputting at least a part of a document related to the phrase having the link relation in accordance with a calculation result of the calculating means. Thereby, an unexpected part can be extracted and output from a huge amount of related documents. The user can efficiently obtain unexpected information.
また第1の発明において、前記記憶手段は、相互に連想関係にある語句を関連付けて記憶し、前記入力されたキーワードに連想関係のある語句を連想語として取得する連想語取得手段を更に備え、前記演算手段は、更に、前記連想語に関する文書についても前記リンク語句取得手段により取得した語句に関する文書との文書間の類似度を用いて意外度を算出することが望ましい。これにより、類似度が高いと予想される語句である連想語を入力キーワード群に含めて入力キーワードとリンク関係がある語句との意外度(非類似度)を算出するため、意外性のある語の抽出精度を向上できる。 In the first invention, the storage means further includes associative word acquisition means for associating and storing words and phrases that are associated with each other, and acquiring phrases that are associated with the input keyword as associated words, It is desirable that the arithmetic means further calculates an unexpected degree of the document relating to the associative word by using the similarity between the document and the document relating to the phrase acquired by the link phrase acquiring means. As a result, an unexpected word (dissimilarity) between an input keyword and a phrase that has a link relationship with an associated word that is expected to have a high similarity is included in the input keyword group. The extraction accuracy can be improved.
また第1の発明において、前記記憶手段は、文書毎の参照された総数を記憶し、前記演算手段は、前記入力されたキーワードに関する文書と、前記リンク語句取得手段により取得した語句に関する文書との文書間の非類似度に、文書の参照数に基づく重み付けをして前記意外度とすることが望ましい。これにより一般により多く認知されている文書の中から、意外性のある情報を抽出することが可能となり、よりユーザの興味を引く情報を出力することが可能となる。 In the first invention, the storage means stores a total number referred to for each document, and the calculation means includes a document related to the input keyword and a document related to the phrase acquired by the link phrase acquisition means. It is desirable to weight the dissimilarity between documents based on the number of document references to obtain the unexpectedness. As a result, it is possible to extract surprising information from a document that is generally recognized more, and to output information that makes the user more interested.
また第1の発明において、前記記憶手段は、語句をカテゴリ毎に関連付けて記憶し、前記演算手段は、語句のカテゴリ毎に前記意外度を算出し、前記出力手段は、前記入力されたキーワードに対して前記カテゴリが意外な語句に関する文書の少なくとも一部を出力することが望ましい。これにより、カテゴリ毎の意外度を計算し、情報提示の際に利用することが可能となり、ユーザにとってより意外な情報を提示できるようになる。 In the first invention, the storage means stores a phrase in association with each category, the calculation means calculates the unexpectedness for each category of the phrase, and the output means sets the inputted keyword to the keyword. On the other hand, it is desirable to output at least a part of a document relating to a phrase whose category is unexpected. As a result, the unexpectedness for each category can be calculated and used when presenting information, and information more surprising to the user can be presented.
第2の発明は、リンク関係としてリンク先を関連付けられた語句及び前記語句に関する文書を記憶する記憶手段を有するサーバと、キーワードを入力する入力手段と、入力されたキーワードとリンク関係にある語句をサーバから取得するリンク語句取得手段と、前記入力されたキーワードに関する文書及び前記入力されたキーワードとリンク関係にある語句に関する文書をサーバから抽出する文書抽出手段と、前記キーワードに関する文書と、前記リンク関係にある語句に関する文書との類似度を用いて文書間の意外度を算出する演算手段と、を有する情報処理装置と、を備えることを特徴とする情報処理システムである。 According to a second aspect of the present invention, there is provided a server having storage means for storing a phrase associated with a link destination as a link relation and a document relating to the phrase, an input means for inputting a keyword, and a phrase having a link relation with the input keyword. Link phrase acquisition means acquired from a server, document extraction means for extracting a document related to the input keyword and a phrase related to the input keyword from the server, a document related to the keyword, and the link relation An information processing system comprising: an information processing apparatus that includes a calculation unit that calculates an unexpected degree between documents using a similarity to a document related to a certain phrase.
第2の発明により、リンク関係としてリンク先を関連付けられた語句及び前記語句に関する文書を記憶する記憶手段を有するサーバを設け、情報処理装置は、入力されたキーワードとリンク関係のある語句をサーバから取得し、前記入力されたキーワードに関する文書及び前記入力されたキーワードとリンク関係にある語句に関する文書をサーバから抽出し、前記キーワードに関する文書と、前記リンク関係にある語句に関する文書との類似度を用いて文書間の意外度を算出する。これにより、ユーザは通常の文章閲覧では発見しにくい意外な情報を発見しやすくなる。網羅的な情報の発見やAI自動対話の促進、発想支援等に活用することが可能となる。 According to a second aspect of the present invention, a server having storage means for storing a phrase associated with a link destination as a link relation and a document related to the phrase is provided, and the information processing apparatus receives a phrase related to the input keyword from the server. Obtaining and extracting a document related to the input keyword and a document related to a phrase related to the input keyword from a server, and using similarity between the document related to the keyword and a document related to the phrase related to the link To calculate the unexpectedness between documents. This makes it easier for the user to find unexpected information that is difficult to find by normal text browsing. It can be used for comprehensive information discovery, AI automatic dialogue promotion, idea support, and the like.
第3の発明は、コンピュータを、第1の発明の情報処理装置として機能させるプログラムである。第3の発明により、コンピュータを第1の発明の情報処理装置として機能させることが可能となる。 A third invention is a program for causing a computer to function as the information processing apparatus of the first invention. According to the third invention, it is possible to cause a computer to function as the information processing apparatus according to the first invention.
本発明により、カテゴリによらず、一般に認知されている関連文書の中からユーザが自分では発見しにくい意外性のある情報を取得し、提示することが可能な情報処理装置、情報処理システム、及びプログラムを提供できる。 According to the present invention, an information processing apparatus, an information processing system, and an information processing apparatus capable of acquiring and presenting unexpected information that is difficult for a user to find out of related documents that are generally recognized regardless of the category, and Can provide a program.
以下、図面に基づいて本発明の好適な実施形態について詳細に説明する。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.
[第1の実施の形態]
まず本発明の第1の実施形態について説明する。図1は、本発明に係る情報処理装置2を利用した情報処理システム1のシステム構成を示す図である。情報処理システム1において、情報処理装置2はネットワーク10を介して文書DB3、リンク構造DB4、連想語DB5等に通信接続される。ネットワーク10は、LAN(Local Area Network)や、より広域に通信接続されたWAN(Wide Area Network)、またはインターネット等の公衆の通信回線、基地局等を含む。ネットワーク10における通信接続は有線、無線を問わない。
[First Embodiment]
First, a first embodiment of the present invention will be described. FIG. 1 is a diagram showing a system configuration of an
情報処理装置2は、任意のアプリケーションプログラムをインストールし、処理を実行可能なコンピュータ等の装置である。例えばスマートフォン、タブレット、ゲーム機、その他の各種の情報端末を含む。 The information processing apparatus 2 is an apparatus such as a computer that can install an arbitrary application program and execute processing. For example, a smart phone, a tablet, a game machine, and other various information terminals are included.
図2は、情報処理装置2のハードウエア構成の一例を示す図である。図2に示すように、情報処理装置2は、制御部21、記憶部22、入力部23、表示部24、通信I/F25、メディア入出力部26、周辺機器I/F部27等がバス29を介して接続されて構成される。
FIG. 2 is a diagram illustrating an example of a hardware configuration of the information processing apparatus 2. As shown in FIG. 2, the information processing apparatus 2 includes a
制御部21は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等により構成される。CPUは、記憶部22、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス29を介して接続された各部を駆動制御する。
The
制御部21のCPUは、入力された任意のキーワードに対し意外性のある情報を取得し出力する情報取得処理を実行する。この情報取得処理の詳細については後述する。
The CPU of the
ROMは、情報処理装置2のブートプログラムやBIOS等のプログラム、データ等を恒久的に保持する。RAMは、ロードしたプログラムやデータを一時的に保持するとともに、制御部21が各種処理を行うために使用するワークエリアを備える。
The ROM permanently stores programs such as a boot program and BIOS for the information processing apparatus 2, data, and the like. The RAM temporarily holds the loaded program and data, and includes a work area used by the
記憶部22は、制御部21が実行するプログラムや、プログラム実行に必要なデータ、OS(オペレーティング・システム)等が格納されている。これらのプログラムコードは、制御部21により必要に応じて読み出されてRAMに移され、CPUに読み出されて実行される。
The
入力部23は、例えば、キーボード、マウス、またはタッチパネル等の入力装置であり、入力されたデータを制御部21へ出力する。
表示部24は、例えば液晶パネル等のディスプレイ装置と、ディスプレイ装置と連携して表示処理を実行するための論理回路で構成され、制御部21の制御により入力された表示情報をディスプレイ装置上に表示させる。なお、入力部23がタッチパネルで構成される場合は、タッチパネルは表示部24のディスプレイと一体的に構成される。
The
The
通信I/F(インターフェース)25は、アンテナ及び通信制御回路等を含み、ネットワーク10との通信を媒介するインターフェースである。
メディア入出力部26は、例えばCDドライブ、DVDドライブ等のメディア入出力装置であり、制御部21の制御に従ってメディアからのデータの読み出し、及びメディアへのデータの書き込みを行う。
The communication I / F (interface) 25 includes an antenna, a communication control circuit, and the like, and is an interface that mediates communication with the network 10.
The media input /
周辺機器I/F(インターフェース)部27は、周辺機器を接続させるためのポートであり、周辺機器I/F部27を介して周辺機器とのデータの送受信を行う。周辺機器との接続形態は有線、無線を問わない。
バス29は、制御信号、データ信号等の授受を媒介する経路である。
The peripheral device I / F (interface)
The
文書DB3は、図3(a)に示すように文書群(複数の文書)を記憶したデータベースであり、例えば図1に示すようにネットワーク10上のWebサーバ等の記憶領域に記憶される。「文書」とは、本明細書では、ある項目について説明等を記載したテキストデータを意味するものとする。文書に含まれるいくつかの語句には、他の項目へのリンク(ハイパーリンク)が設定されているものとする。「文書群」とは、上述の文書を複数集めたものである。例えば、フリー百科事典「ウィキペディア(Wikipedia)」等を文書群と呼び、その各記事を文書と呼ぶ。なお、文書群は、ウィキペディアに限定されるものではなく、その他の辞書や用語辞典、情報記事、ニュース記事等も文書群に含めてもよい。
The
文書DB3には、図3(b)に示すように、「チョコレート」等の語を見出し項目として、各見出し項目についてそれぞれの記事「チョコレート(英:chocolate)は、カカオの種子を発酵・焙煎したカカオマスを主原料とし、…」が本文として格納される。
As shown in FIG. 3B, the
リンク構造DB4は、文書DB3に記憶されている文書群のリンク構造データを格納するデータベースである。リンク構造データとは、リンクが埋め込まれた文書間のリンク関係を抽出したデータであり、ある語に対して設定されたリンク先及びリンク元の語が集約されて格納される。1つの語について複数のリンク先及びリンク元が設定されることがある。リンクとは、文書に埋め込まれるハイパーリンクであり、同じ文書の別の場所や他の文書、或いはまったく別のサイトへ移動するための情報である。
The link structure DB 4 is a database that stores link structure data of document groups stored in the
例えば、図4に示すように、「アイスクリーム」という語は、リンク元として「夏目漱石」、「大和型戦艦」、「チョコレート」、「バニラ」、「クレープ」に関する記事(文書)にリンクが埋め込まれている。つまり、「夏目漱石」、「大和型戦艦」、「チョコレート」、「バニラ」、「クレープ」に関する記事内に「アイスクリーム」へのリンクが埋め込まれている。また、「アイスクリーム」の文書にはリンク先として「バニラ」、「クレープ」等にジャンプするためのリンクが埋め込まれている。この場合、「バニラ」、「クレープ」は「アイスクリーム」と双方向にリンクされている。「夏目漱石」、「大和型戦艦」、「チョコレート」は一方向のリンクである。 For example, as shown in FIG. 4, the word “ice cream” is linked to articles (documents) related to “Natsume Soseki”, “Yamato Battleship”, “Chocolate”, “Vanilla”, and “Crepe” as link sources. Embedded. In other words, links to “Ice Cream” are embedded in articles about “Natsume Soseki”, “Yamato Battleship”, “Chocolate”, “Vanilla”, and “Crepe”. In addition, a link for jumping to “vanilla”, “crepe” or the like is embedded as a link destination in the document “ice cream”. In this case, “vanilla” and “crepe” are linked bidirectionally with “ice cream”. “Natsume Soseki”, “Yamato Battleship” and “Chocolate” are one-way links.
このようなリンク構造DB4としては、例えば、「ウィキペディア(Wikipedia)」のリンク構造を集約した「DBPedia」等がある。「DBPedia」は、「ウィキペディア(Wikipedia)」から情報を抽出したLOD(Linked Open Data)として一般に公開するコミュニティプロジェクトである。なお、本発明で利用するリンク構造データは、「DBPedia」に限定されるものではなく、その他の各種のLODを利用してもよい。 As such a link structure DB 4, for example, there is “DBPedia” in which the link structures of “Wikipedia” are aggregated. “DBPedia” is a community project that is open to the public as LOD (Linked Open Data) obtained by extracting information from “Wikipedia”. The link structure data used in the present invention is not limited to “DBPedia”, and other various LODs may be used.
連想語DB5は、各語についての連想語を複数格納したものである。図5に示すように、例えば語「アイスクリーム」の連想語であれば、「プリン」、「ケーキ」、「キャラメル」等が連想語DB5に格納される。ある語についての連想語は、様々な文書群に含まれる単語の共起回数に基づいて求められる。
The
図6は連想語DB5の生成方法の一例を説明する図である。図6に示すように、各種の様々な文書から抽出した複数の単語の共起回数を計数し、共起回数が予め設定された閾値より多い語が連想語として設定される。例えば図6の共起回数カウンタ51に示すように「アイスクリーム」という語と同じ文書に出現する語は、「プリン」は100回、「ケーキ」は80回、「キャラメル」は70回、「横浜」は20回のように計数される。これらの語のうち出現回数が閾値より多い語である「プリン」、「ケーキ」、「キャラメル」等が「アイスクリーム」の連想語として連想語DB5に格納される。連想語DB5の元となる文書は、ウィキペディア記事の他、一般的なWebサイト等の文書である。
FIG. 6 is a diagram for explaining an example of a method for generating the
次に、情報処理システム1における情報取得処理の流れを説明する。図7は情報処理装置2が実行する情報取得処理の流れを示すフローチャートである。図に示すように、ユーザにより情報処理装置2に任意のキーワードが入力されると(ステップS1)、情報処理装置2の制御部21は、入力キーワードのリンク構造データを取得する(ステップS2)。リンク構造データは、リンク構造DB4に格納されている。例えば、入力キーワードが「アイスクリーム」である場合、制御部21はリンク構造DB4から「アイスクリーム」に関するリンク構造データを取得する。図4に示すように、「アイスクリーム」に関するリンク構造データは、リンク元として「夏目漱石」、「大和型戦艦」、「チョコレート」、「バニラ」、「クレープ」、リンク先として「バニラ」、「クレープ」が紐づけられている。制御部21は、これらのリンク元及びリンク先の語「夏目漱石」、「大和型戦艦」、「チョコレート」、「バニラ」、「クレープ」を取得し、RAMに保持する。
Next, the flow of information acquisition processing in the
続いて、制御部21は、ステップS1で入力されたキーワード「アイスクリーム」の連想語を連想語DB5から取得する(ステップS3)。図8に示すように、連想語DB5にキーワード「アイスクリーム」の連想語として「プリン」、「ケーキ」、「キャラメル」等が格納されているものとする。制御部21は、入力キーワード「アイスクリーム」の連想語として「プリン」、「ケーキ」、「キャラメル」を取得し、入力キーワードとともに入力キーワード群52としてRAMに保持する。
Subsequently, the
入力キーワード群52に連想語を加えるのは、容易に関連付けが予想される語句は意外性に欠けるため、そのような連想語についての意外度(非類似度)のスコアを下げ、出力結果の精度向上を図るためである。よって出力結果の精度よりもシステムの簡易化や演算量の軽減等を重視する場合にはステップS3の工程を省略してもよい。 The reason why an associative word is added to the input keyword group 52 is that a word or phrase that is expected to be easily associated is not surprising, so the score of the unexpectedness (dissimilarity) for such an associative word is lowered, and the accuracy of the output result This is for improvement. Therefore, when importance is attached to simplification of the system and reduction of the calculation amount rather than the accuracy of the output result, the step S3 may be omitted.
続いて、制御部21は、入力キーワード及び連想語(入力キーワード群52)の文書と、ステップS2で取得したリンク関係のある語句の文書との意外度(非類似度)を計算する(ステップS4)。ここで、図9及び図10を参照して意外度の算出方法について説明する。図9は意外度(非類似度)の算出について説明する図であり、図10は類似度の算出例を示す図である。
Subsequently, the
図9に示すように、制御部21は、まず入力キーワード群52の各単語についての文書7a,7b,7c,…と、ステップS2で取得したリンク構造データにより得られるリンク関係がある語についての文書8a,…を文書DB3から読み出し、これらの文書間でそれぞれ類似度を算出する。類似度は例えばコサイン類似度等を用いて算出することができる。
As shown in FIG. 9, the
図10に示すように、コサイン類似度は各文書の特徴を表す指標である文書ベクトルA,Bを用いて、式(1)により算出される。 As shown in FIG. 10, the cosine similarity is calculated by Expression (1) using document vectors A and B that are indexes representing the characteristics of each document.
文書ベクトルは、文書から抽出される単語の出現頻度を基に生成される。例えば、文書ベクトルAは、入力キーワード「アイスクリーム」に関する文書7aから抽出される各単語「アイスクリーム」、「牛乳」「原料」、「空気」、…等の出現頻度に基づいて各単語のTF−IDF値(1.2,2.0,1.25,0.55,…)を求め、これらの値を要素とするベクトルである。なお、TF−IDF値の代わりにTF値を用いてもよい。同様に、文書ベクトルBは、リンク関係がある語「チョコレート」に関する文書8aから抽出される各単語「チョコレート」、「カカオ」、「種子」「発酵」、…等の出現頻度に基づいて各単語のTF−IDF値(1.4,1.5,0.6,0.2,…)を求め、これらの値を要素とするベクトルである。なお同一の抽出単語がベクトル中で同一の順番となるように文書ベクトルA、文書ベクトルBの各要素が整列される。
The document vector is generated based on the appearance frequency of words extracted from the document. For example, the document vector A is TF of each word based on the appearance frequency of each word “ice cream”, “milk” “raw material”, “air”,... Extracted from the
図9に示すように、制御部21は、入力キーワード群52の「アイスクリーム」の文書7a、「プリン」(連想語)の文書7b、「ケーキ」(連想語)の文書7c、…等についてそれぞれ文書ベクトルを求め、リンク関係がある語「チョコレート」の文書8aの文書ベクトルBとの類似度を算出する。更に、算出した類似度の平均値を求める。類似度の平均を数値「1」から減算し、非類似度を求める。
これにより、入力キーワード群52とリンク関係がある語「チョコレート」との非類似度が求められる。
As shown in FIG. 9, the
Thereby, the dissimilarity with the word “chocolate” linked to the input keyword group 52 is obtained.
同様に、別のリンク関係がある語「夏目漱石」、「大和型戦艦」、「バニラ」、「クレープ」、…等についても、それぞれ入力キーワード群52との非類似度を求める。第1の実施の形態では、非類似度そのものを意外度とする。 Similarly, the dissimilarity with the input keyword group 52 is also obtained for the words “Natsume Soseki”, “Yamato type battleship”, “vanilla”, “crepe”,. In the first embodiment, the dissimilarity itself is regarded as an unexpected degree.
制御部21は、ステップS4の演算により入力キーワード群52との意外度の高い語をいくつか求める。そして、意外語の高い語に関する情報を取得し(ステップS5)、出力する(ステップS6)。
The
図11に示すように、入力キーワード群52とリンク関係がある語についてそれぞれ意外度が求められるものとする。例えば、「夏目漱石」の意外度は0.8、「小笠原諸島」の意外度は0.64、「田中角栄」の意外度は0.5、「安倍晋三」の意外度は0.4、…のように、入力キーワード群52(「チョコレート」等)との意外度が求められているとする。制御部21は、意外度のスコアが予め設定された閾値より高い語、或いは意外度のスコアが上位である語を1つ以上取得し、これらの意外度が高い語に関する文書9を文書DB3から取得する。更に、意外度の高い語に関する文書9から、入力キーワード「アイスクリーム」が含まれる文「大の甘党で、療養中には当時貴重品だったアイスクリームを欲しがり周囲を困らせたこともある。」を抽出する。
As shown in FIG. 11, it is assumed that the degree of surprise is obtained for each word that has a link relationship with the input keyword group 52. For example, “Natsume Soseki” has an unexpected degree of 0.8, “Ogasawara Islands” has an unexpected degree of 0.64, “Tanaka Kakuei” has an unexpected degree of 0.5, “Abe Shinzo” has an unexpected degree of 0.4, Suppose that the unexpectedness with the input keyword group 52 (such as “chocolate”) is calculated as shown in FIG. The
制御部21は、抽出した文を、意外度の高い語に関する情報として、出力する。出力は、表示部24への表示、記憶部22への記憶等である。また、周辺機器I/F部27に接続された印刷装置への印刷や音声出力部(不図示)からの音声出力等としてもよい。出力の際、制御部21は所定の出力フォーマットに従って意外度の高い語に関する情報を出力する。例えば、図11に示すように、“「アイスクリーム」といえば、「夏目漱石」は「大の甘党で、療養中には当時貴重品だったアイスクリームを欲しがり周囲を困らせたこともある。」らしいですよ”のように所定の出力形式に意外性のある情報を合成して出力する。
The
以上説明したように、情報処理装置2は、入力部23を介して任意のキーワードが入力されると、制御部21は、入力されたキーワードとリンク関係のある語句を、文書群のリンク構造データに基づいて取得し、入力されたキーワードに関する文書7aと、リンク関係のある語句に関する文書8aとの文書間の意外度を算出し、算出された意外度に基づいて、入力されたキーワードについての意外性のある情報を取得し、出力する。これにより、ユーザは、通常の文書検索や閲覧では発見しにくい意外な情報を発見しやすくなる。網羅的な情報の発見、AI自動対話の促進、発想支援等に活用することが可能となる。
As described above, when an arbitrary keyword is input via the
また、制御部21は、入力されたキーワードの連想語を取得し、連想語に関する文書についてもリンク関係がある語の文書との文書間の意外度を算出するため、容易に関連付けが予想される語の意外度(非類似度)のスコアを確実に下げ、精度よく出力結果を得ることができる。
Moreover, since the
なお、上述の説明では情報処理装置2は、図1に示すように、ネットワーク10を介して通信接続された文書DB3、リンク構造DB4、連想語DB5から文書やリンク構造データや連想語等を取得するものとしたが、これに限定されない。文書DB3、リンク構造DB4、連想語DB5は情報処理装置2内の記憶部22に記憶され、情報処理装置2の制御部21は、記憶部22から文書データやリンク構造データや連想語等を取得する構成としてもよい。
In the above description, as shown in FIG. 1, the information processing apparatus 2 acquires documents, link structure data, associative words, and the like from the
また、リンク構造データには、互いにリンク元及びリンク先となる双方向リンクの関係である語句と、リンク元またはリンク先データとなる一方向リンクの語句とがあるが、双方向リンクの語句は互いに類似する関係であると推定し、意外度の算出対象から除外してもよい。 In addition, the link structure data includes a phrase that is a relation of a bidirectional link that is a link source and a link destination and a unidirectional link phrase that is a link source or a link destination data. You may estimate that it is a relationship similar to each other, and you may exclude from the calculation object of an unexpected degree.
[第2の実施の形態]
次に、本発明の第2の実施形態について説明する。第2の実施形態では、情報処理装置2が意外度を算出する際、第1の実施の形態で説明した非類似度に加え、文書の参照数を考慮して意外度を算出する。参照数とは、文書が参照された回数であり、該当記事(文書)へのアクセスログから得ることができる。参照数は情報取得処理を実行する都度、随時ネットワーク10を介して取得してもよいし、予め情報処理装置2内の記憶部22に参照数として記憶しておくものとしてもよい。
[Second Embodiment]
Next, a second embodiment of the present invention will be described. In the second embodiment, when the information processing apparatus 2 calculates the unexpectedness, the unexpectedness is calculated in consideration of the number of document references in addition to the dissimilarity described in the first embodiment. The reference number is the number of times a document is referred to and can be obtained from an access log to the corresponding article (document). The reference number may be acquired via the network 10 whenever the information acquisition process is executed, or may be stored in advance in the
図12の意外度算出テーブル6に示すように、第2の実施の形態では、非類似度に参照数(正規化参照数)を乗じた値を意外度とする。非類似度は、第1の実施の形態と同様の手順で求められる。正規化参照数とは、単語の参照数を全参照数で正規化した値(0〜1の数値)である。 As shown in the unexpectedness calculation table 6 of FIG. 12, in the second embodiment, a value obtained by multiplying the dissimilarity by the reference number (normalized reference number) is set as the unexpectedness. The dissimilarity is obtained by the same procedure as in the first embodiment. The normalized reference number is a value (numerical value of 0 to 1) obtained by normalizing the number of word references with the total number of references.
例えば、入力キーワード群52に対して、語「チョコレート」の非類似度が「0.2」、正規化参照数が「0.7」の場合、意外度は「0.14」である。また、語「夏目漱石」の非類似度が「0.8」、正規化参照数が「0.8」の場合、意外度は「0.64」であり、語「大和型戦艦」の非類似度が「0.9」、正規化参照数が「0.3」の場合、意外度は「0.27」である。 For example, when the dissimilarity of the word “chocolate” is “0.2” and the normalized reference number is “0.7” for the input keyword group 52, the unexpectedness is “0.14”. Also, if the dissimilarity of the word “Natsume Soseki” is “0.8” and the normalized reference number is “0.8”, the unexpectedness is “0.64”, and the word “Yamato-type battleship” When the similarity is “0.9” and the normalized reference number is “0.3”, the unexpectedness is “0.27”.
制御部21は、入力キーワード群52についての文書と、リンク関係がある語についての文書との非類似度を第1の実施の形態と同様の手順で求め、求めた非類似度にリンク関係がある語についての文書の正規化参照数を乗じ、意外度を求める。その後、第1の実施の形態と同様に、意外度が高い語に関する情報を文書群(文書DB3等)から取得し、出力する。
The
以上説明したように、第2の実施の形態の情報処理装置2は、文書の参照数を考慮して語の意外度を算出する。参照数を考慮することにより、より多く認知されている語の中から意外性のある情報を抽出することが可能となり、よりユーザの興味を引くことが可能となる。 As described above, the information processing apparatus 2 according to the second embodiment calculates the word unexpectedness in consideration of the number of document references. By considering the number of references, it is possible to extract surprising information from more recognized words, and to attract more users' interest.
[第3の実施の形態]
次に、本発明の第3の実施形態について説明する。第3の実施形態では、情報処理装置2が各語の意外度を算出する際に、語句のカテゴリ毎に意外度を算出し、カテゴリを考慮した情報出力を行う。
[Third Embodiment]
Next, a third embodiment of the present invention will be described. In the third embodiment, when the information processing device 2 calculates the unexpectedness of each word, the unexpectedness is calculated for each category of words and the information is output in consideration of the category.
例えば図13に示すように、制御部21は入力されたキーワードのリンク関係がある語句をリンク構造データから取得し、取得した語句をカテゴリ別に分類する。語句がどのカテゴリに所属するかといった情報については、語句もしくはカテゴリに対して予め与えておく。また、各語句の入力キーワード群52からの意外度を求め、カテゴリ毎に意外度の平均を求め、カテゴリの意外度とする。そして例えば、意外度が高いカテゴリの中から意外度の高い語句に関する情報を取得し、出力する。
For example, as illustrated in FIG. 13, the
図13は、入力キーワードとリンク関係がある語を(a)カテゴリ「菓子」、(b)カテゴリ「人」、(c)カテゴリ「場所」に分類した状態を示す図である。図13(a)に示すように、カテゴリ「菓子」には、「チョコレート」、「シュークリーム」、「チーズケーキ」等が分類される。また図13(b)に示すように、カテゴリ「人」には、「夏目漱石」、「田中角栄」、「安倍晋三」等が分類される。また図13(c)に示すように、カテゴリ「場所」には、「小笠原諸島」、「ユタ州立大学」、「田町駅」等が分類される。 FIG. 13 is a diagram illustrating a state in which words having a link relationship with the input keyword are classified into (a) category “confectionery”, (b) category “person”, and (c) category “place”. As shown in FIG. 13A, the category “confectionery” includes “chocolate”, “puff cream”, “cheese cake”, and the like. As shown in FIG. 13B, the category “people” includes “Natsume Soseki”, “Tanaka Kakuei”, “Abe Shinzo”, and the like. As shown in FIG. 13C, the category “place” includes “Ogasawara Islands”, “Utah State University”, “Tamachi Station”, and the like.
そして、各語についてそれぞれ入力キーワード群52との意外度が求められる。例えば、図13(a)に示すように、カテゴリ「菓子」に含まれる語「チョコレート」の意外度は0.14であり、語「シュークリーム」の意外度は0.3であり、語「チーズケーキ」の意外度は0.3である。その他のカテゴリ「菓子」に含まれる各語の意外度を求め、意外度の平均値からカテゴリの意外度が「0.3」のように求められる。 Then, the degree of surprise with the input keyword group 52 is obtained for each word. For example, as shown in FIG. 13A, the word “chocolate” included in the category “confectionery” has an unexpected degree of 0.14, the word “puff cream” has an unexpected degree of 0.3, and the word “cheese”. The unexpectedness of “cake” is 0.3. The unexpectedness of each word included in the other category “confectionery” is obtained, and the unexpectedness of the category is obtained as “0.3” from the average value of the unexpectedness.
また図13(b)に示すように、カテゴリ「人」の意外度が「0.6」と求められ、図13(c)に示すように、カテゴリ「場所」の意外度が「0.5」と求められる。この場合、これらのカテゴリの中では図13(b)の「人」のカテゴリが最も意外度が高いため、制御部21は、カテゴリ「人」の中から意外度の高い語「夏目漱石」についての情報を、意外性のある情報として出力する。
Further, as shown in FIG. 13B, the unexpected degree of the category “person” is obtained as “0.6”, and as shown in FIG. 13C, the unexpected degree of the category “place” is “0.5”. " In this case, since the category “person” in FIG. 13B has the highest degree of unexpectedness among these categories, the
或いは、ユーザがカテゴリを選択可能としてもよい。この場合、ユーザがカテゴリを選択するためのインターフェースとして、制御部21はカテゴリ選択画面等を表示部24に表示する。ユーザがカテゴリを選択すると、制御部21は、ユーザにより選択されたカテゴリの中で意外度の高い語句に関する情報を取得し、意外性のある情報として出力する。
Alternatively, the user may be able to select a category. In this case, the
以上説明したように、第3の実施の形態の情報処理装置2は、第1または第2の実施の形態の情報処理装置2において、更にカテゴリ毎の意外度を計算し、情報提示の際に利用する。これにより、ユーザにとってより意外な情報を提示することが可能となる。 As described above, the information processing apparatus 2 according to the third embodiment further calculates the unexpectedness for each category in the information processing apparatus 2 according to the first or second embodiment and presents the information. Use. This makes it possible to present information that is more surprising to the user.
以上、添付図面を参照して、本発明に係る情報処理装置、情報処理システム、及びプログラムの好適な実施形態について説明したが、本発明は係る例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。 The preferred embodiments of the information processing apparatus, the information processing system, and the program according to the present invention have been described above with reference to the accompanying drawings, but the present invention is not limited to such examples. It will be apparent to those skilled in the art that various changes or modifications can be conceived within the scope of the technical idea disclosed in the present application, and these are naturally within the technical scope of the present invention. Understood.
1……………………情報処理システム
2……………………情報処理装置
21…………………制御部
22…………………記憶部
23…………………入力部
24…………………表示部
25…………………通信I/F
26…………………メディア入出力部
27…………………周辺機器I/F部
29…………………バス
3……………………文書DB
4……………………リンク構造DB
5……………………連想語DB
51…………………共起回数カウンタ
6……………………意外度算出テーブル
52…………………入力キーワード群
7a、7b、7c…文書
8a…………………文書
9……………………意外度が高い語についての文書
10……………………ネットワーク
1 …………………… Information Processing System 2 ……………………
26 …………………… Media Input /
4 …………………… Link structure DB
5 …………………… Associative Word DB
51 ..............
Claims (7)
リンク関係としてリンク先を関連付けられた語句及び前記語句に関する文書を記憶する記憶手段と、
入力されたキーワードとリンク関係にある語句を取得するリンク語句取得手段と、
前記入力されたキーワードに関する文書及び前記入力されたキーワードとリンク関係にある語句に関する文書を抽出する文書抽出手段と、
前記キーワードに関する文書と、前記リンク関係にある語句に関する文書との類似度を用いて文書間の意外度を算出する演算手段と、
を備えることを特徴とする情報処理装置。 An input means for inputting a keyword;
Storage means for storing a phrase associated with a link destination as a link relation and a document related to the phrase;
Link phrase acquisition means for acquiring a phrase that is linked to the input keyword,
Document extracting means for extracting a document related to the input keyword and a document related to a phrase linked to the input keyword;
Computing means for calculating the degree of surprise between documents using the similarity between the document related to the keyword and the document related to the phrase related to the link;
An information processing apparatus comprising:
前記入力されたキーワードに連想関係のある語句を連想語として取得する連想語取得手段を更に備え、
前記演算手段は、更に、前記連想語に関する文書についても前記リンク語句取得手段により取得した語句に関する文書との文書間の類似度を用いて意外度を算出することを特徴とする請求項1または請求項2に記載の情報処理装置。 The storage means stores words associated with each other in association with each other,
An associative word acquisition means for acquiring, as an associative word, a phrase associated with the input keyword;
The calculation means further calculates an unexpected degree of a document related to the associative word using a similarity between documents with a document related to the phrase acquired by the link phrase acquisition means. Item 3. The information processing device according to Item 2.
前記演算手段は、前記入力されたキーワードに関する文書と、前記リンク語句取得手段により取得した語句に関する文書との文書間の非類似度に、文書の参照数に基づく重み付けをして前記意外度とすることを特徴とする請求項1から請求項3のいずれかに記載の情報処理装置。 The storage means stores the total number referred to for each document;
The calculation means weights the dissimilarity between the document related to the input keyword and the document related to the phrase acquired by the link phrase acquisition means based on the number of references of the document to obtain the unexpected degree. The information processing apparatus according to claim 1, wherein the information processing apparatus is an information processing apparatus.
前記演算手段は、語句のカテゴリ毎に前記意外度を算出し、
前記出力手段は、前記入力されたキーワードに対して前記カテゴリが意外な語句に関する文書の少なくとも一部を出力することを特徴とする請求項2に記載の情報処理装置。 The storage means stores a phrase in association with each category,
The computing means calculates the unexpectedness for each category of words,
The information processing apparatus according to claim 2, wherein the output unit outputs at least a part of a document related to a phrase whose category is unexpected for the input keyword.
キーワードを入力する入力手段と、
入力されたキーワードとリンク関係にある語句をサーバから取得するリンク語句取得手段と、
前記入力されたキーワードに関する文書及び前記入力されたキーワードとリンク関係にある語句に関する文書をサーバから抽出する文書抽出手段と、
前記キーワードに関する文書と、前記リンク関係にある語句に関する文書との類似度を用いて文書間の意外度を算出する演算手段と、を有する情報処理装置と、
を備えることを特徴とする情報処理システム。 A server having storage means for storing a phrase associated with a link destination as a link relation and a document related to the phrase;
An input means for inputting a keyword;
Link phrase acquisition means for acquiring a phrase linked to the input keyword from the server,
Document extracting means for extracting from the server a document related to the input keyword and a document related to a phrase linked to the input keyword;
An information processing apparatus comprising: an operation unit that calculates a degree of unexpectedness between documents using a similarity between the document related to the keyword and the document related to the phrase related to the link;
An information processing system comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015221548A JP6613833B2 (en) | 2015-11-11 | 2015-11-11 | Information processing apparatus, information processing system, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015221548A JP6613833B2 (en) | 2015-11-11 | 2015-11-11 | Information processing apparatus, information processing system, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017091270A JP2017091270A (en) | 2017-05-25 |
JP6613833B2 true JP6613833B2 (en) | 2019-12-04 |
Family
ID=58770603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015221548A Active JP6613833B2 (en) | 2015-11-11 | 2015-11-11 | Information processing apparatus, information processing system, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6613833B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933789B (en) * | 2019-02-27 | 2021-04-13 | 中国地质大学(武汉) | Neural network-based judicial domain relation extraction method and system |
CN112002415B (en) * | 2020-08-23 | 2024-03-01 | 吾征智能技术(北京)有限公司 | Intelligent cognitive disease system based on human excrement |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011095905A (en) * | 2009-10-28 | 2011-05-12 | Sony Corp | Information processing apparatus and method, and program |
JP5565568B2 (en) * | 2010-03-30 | 2014-08-06 | 日本電気株式会社 | Information recommendation device, information recommendation method and program |
JP2015069386A (en) * | 2013-09-27 | 2015-04-13 | 大日本印刷株式会社 | Server device, program, and communication method |
JP6390139B2 (en) * | 2014-03-31 | 2018-09-19 | 大日本印刷株式会社 | Document search device, document search method, program, and document search system |
-
2015
- 2015-11-11 JP JP2015221548A patent/JP6613833B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017091270A (en) | 2017-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866496B (en) | method and device for determining morpheme importance analysis model | |
CN105069102B (en) | Information push method and apparatus | |
US9864747B2 (en) | Content recommendation device, recommended content search method, and program | |
CN103198057B (en) | One kind adds tagged method and apparatus to document automatically | |
JP5494126B2 (en) | Document recommendation system, document recommendation device, document recommendation method, and program | |
US9721309B2 (en) | Ranking of discussion threads in a question-and-answer forum | |
US20180039633A1 (en) | Information processing system and information processing method | |
JP5043209B2 (en) | Collective expansion processing device, collective expansion processing method, program, and recording medium | |
CN103186556B (en) | Obtain the method with searching structure semantic knowledge and corresponding intrument | |
JP2011095905A (en) | Information processing apparatus and method, and program | |
JP2018156473A (en) | Analysis device, analysis method, and program | |
JP6613833B2 (en) | Information processing apparatus, information processing system, and program | |
JP2017045196A (en) | Ambiguity evaluation device, ambiguity evaluation method, and ambiguity evaluation program | |
CN108280081B (en) | Method and device for generating webpage | |
JP2018194922A (en) | Advertisement effect estimation device, advertisement effect estimation method, and advertisement effect estimation program | |
JP2017072964A (en) | Information analyzing apparatus and information analyzing method | |
US20140122527A1 (en) | Sensitivity retrieval apparatus, method and program | |
JP5252343B2 (en) | Health guidance support system | |
JP6542963B1 (en) | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM | |
JP6246271B1 (en) | Attribute evaluation apparatus, sales system, attribute evaluation method, and attribute evaluation program | |
JP5411802B2 (en) | Representative word extraction device, representative word extraction method, and representative word extraction program | |
CN113892110A (en) | Image-based dish recognition device and method | |
JP4808181B2 (en) | Web page information processing apparatus, web page information processing method, and web page information processing program | |
WO2022176374A1 (en) | Recommendation information presentation device, operation method for recommendation information presentation device, and operation program for recommendation information presentation device | |
JP2018092367A (en) | Related word extracting device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180925 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191008 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6613833 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |