JP5533272B2 - データ出力装置、データ出力方法およびデータ出力プログラム - Google Patents
データ出力装置、データ出力方法およびデータ出力プログラム Download PDFInfo
- Publication number
- JP5533272B2 JP5533272B2 JP2010122967A JP2010122967A JP5533272B2 JP 5533272 B2 JP5533272 B2 JP 5533272B2 JP 2010122967 A JP2010122967 A JP 2010122967A JP 2010122967 A JP2010122967 A JP 2010122967A JP 5533272 B2 JP5533272 B2 JP 5533272B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- similarity
- calculation formula
- database
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
φa(xa)・・・式(1)
式(1)に示すように、あるデータxは、φの像空間にマップされる。そして、異なる空間のデータである空間aのデータxiと空間bのデータxjとの間の類似度σab(xi,xj)は以下の式(2)で定義される。
σab(xi,xj)=σ(φa(xa i),φb(xb j))・・・式(2)
ここで、xa iは、xiが空間aのデータであることを示し、xb jは、xjが空間bのデータであることを示している。また、σ(x,y)は2つのベクトル間の類似度を算出するための関数である。
φa(xa)=Waxa・・・式(3)
そして、式(4)に示すように、データxとデータyとの類似度もマップされた空間における内積で定義できる。
σ(x,y)=xTy・・・式(4)
σab(xi,xj)=σ(Waxa i,Wbxb j)=xa i TWaTWbxb j・・・式(5)
loss(ζijk)=ζijk+・・・式(8)
loss(ζijk)=ζijk 2・・・式(9)
なお、式(8)におけるζijk+は、ζijkが負の値である場合に0となり、ζijkが正の値である場合にζijkとなる関数である。
loss(ζij∈S)=(ζS−ζij)+
loss(ζij∈D)=(ζij−ζD)+
・・・(式11)
loss(ζij∈S)=(ζS−ζij)2
loss(ζij∈D)=(ζij−ζD)2
・・・(式12)
(a)公知の数理計画法で用いられるように、制約条件を満たさないフィードバックデータを重点的に抽出する。具体的には式(15)を計算する。
σab(xi,xj)−σab(xi,xk)・・・式(15)
そして、計算結果の値が小さい順に、所定の数の組を抽出する。なお、全ての組について式(15)に示す計算を行うのではなく、例えば、ユーザによって指定された組(類似組のはずであるが類似度が低い組や、類似度が低いはずであるが現在の類似度(Wの初期値またはWを用いないで計算された内積を類似度として計算した結果)が高い組)を組み合わせて式(15)の計算結果の値が小さい組を抽出する。
ユーザインタフェース500は、事前に類似度適用データベース400に、過去に作成された分析結果を示すグラフと当該グラフの説明文を含む複合データである分析レポートのデータを入力する。そして、類似度適用データベース400は、分析レポートや、当該分析レポートが掲載されたウェブサイトのデータを用いて、類似度学習部300によって既に更新された類似度計算式を記憶しているとする。
線形変換の行列の初期値、または線形変換を用いない類似度(ベクトル間の内積またはベクトル間の内積をcosineのようにベクトルの長さで正規化した値)を用いて、一の分析レポートに含まれる文書間およびグラフ間の類似度が高い分析レポートの信頼度を高く設定する。そして、類似−非類似選択部220は、文書とグラフとの間の類似度が高い類似組に含まれる当該文書を含む類似組に含まれる文書と、当該類似組に含まれる当該グラフを含む類似組に含まれるグラフとの類似度を調べる。そして、類似−非類似選択部220は、調べた類似度が所定の値以上である類似度である場合に、調べた類似度が所定の値未満である場合に比べて、当該類似組の信頼度を高く設定する。また、類似−非類似選択部220は、文書とグラフとの間の類似度が低い非類似組に含まれる当該文書を含む非類似組に含まれる文書と、当該非類似組に含まれる当該グラフを含む非類似組に含まれるグラフとの類似度を調べる。そして、類似−非類似選択部220は、調べた類似度が所定の値未満である類似度である場合に、調べた類似度が所定の値以上である場合に比べて、当該非類似組の信頼度を高く設定する。そうすると、類似−非類似選択部220は、信頼度が高い類似組および非類似組を選択することが可能になる。
類似−非類似抽出部210が、実験計画法を用いて、文書のデータの集合から重要な文書のデータを抽出する。また、類似−非類似抽出部210が、実験計画法を用いて、グラフ(画像であってもよい)のデータの集合から重要なグラフのデータを抽出する。類似−非類似抽出部210は、抽出した文書のデータとグラフのデータとの類似度を調べて、調べた類似度に応じて、文書のデータとグラフのデータとを含む類似組または非類似組を生成する。そして、類似−非類似選択部220は、上述した方法1を用いて信頼度を推定し、推定した信頼度が所定の値以上である類似組または非類似組を抽出する。なお、類似−非類似選択部220は、類似度を計算するための類似度計算式に予め信頼できる初期行列が与えられている場合に、上述した方法2を用いて、重要な文書とグラフとを含む類似組および非類似組を抽出することができる。また、類似−非類似選択部220は、上述した類似度学習部300が、フィードバックデータを抽出して類似度学習を高効率化する方法を用いて、類似組および非類似組を選択することができる。
ユーザインタフェース500は、類似度適用データベース400に、新規な分析レポートのデータを入力する。そして、類似度適用データベース400は、入力された分析レポートに含まれるグラフの特徴ベクトルを抽出する。類似度適用データベース400は、抽出した特徴ベクトルにマッピングおよび線形変換を適用する。そして、類似度学習部300は、マッピングおよび線形変換を適用された当該特徴ベクトルと、入力された分析レポートに含まれている文書との類似度を計算する。データベース類似度適用部400は、計算結果の類似度が高い順に、ユーザインタフェース500に、文書を当該グラフの説明文に推薦する文書としてユーザへの提示を指示する。
類似度学習部300は、ユーザによってユーザインタフェース500に入力されたキーワードを文書として扱い、分析レポートに含まれている文書およびグラフとの類似度を計算する。データベース類似度適用部400は、計算結果の類似度が高い順に、ユーザインタフェース500に、文書またはグラフを検索結果としてユーザへの提示を指示する。
20 データ抽出手段
30 データ出力手段
40 フィードバック情報入力手段
50 類似度更新手段
100 類似度学習装置
101 CPU
102 ROM
103 RAM
105 入出力インタフェース
106 ハードディスク
200 フィードバック変換部
210 類似−非類似抽出部
220 類似−非類似選択部
300 類似度学習部
400 類似度適用データベース
500 ユーザインタフェース
Claims (7)
- データの間の類似度にもとづいて、入力されたキーワードに応じたデータを出力するデータ出力装置であって、
複数の異なる属性のデータと、前記複数の異なる属性のデータを全て単一の属性のデータに変換した上で各データ間の類似度を計算するための類似度計算式とを記憶するデータベースと、
前記入力されたキーワードに応じたデータを前記データベースから抽出するデータ抽出手段と、
前記データ抽出手段が抽出したデータを出力するデータ出力手段と、
前記データ出力手段が出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力するフィードバック情報入力手段と、
前記フィードバック情報入力手段が入力したフィードバック情報にもとづいて、前記データベースに記憶されているデータと前記入力されたキーワードとの間の類似度を計算するための類似度計算式を更新し、更新後の類似度計算式を前記データベースに記憶する類似度更新手段とを備え、
前記データ抽出手段は、前記データベースに記憶されている類似度計算式であって、前記キーワードに応じた類似度計算式の計算結果にもとづいて、前記キーワードに応じたデータを抽出する
ことを特徴とするデータ出力装置。 - 類似度更新手段は、フィードバック情報入力手段が入力したフィードバック情報によって示されるユーザによって選択操作がなされたデータと、入力されたキーワードとの間の類似度を計算するための類似度計算式を更新する
請求項1記載のデータ出力装置。 - データ抽出手段は、データベースに記憶されている類似度計算式を用いて、入力されたキーワードにもとづくベクトルとユーザによって選択操作がなされたデータにもとづくベクトルとを線形変換し、線形変換後のベクトルの内積によって示される各データ間の類似度を計算し、
類似度更新手段は、前記類似度計算式において、前記入力されたキーワードにもとづくベクトルと、フィードバック情報によって示される前記ユーザによって選択操作がなされたデータにもとづくベクトルとを、それぞれのベクトルに応じて線形変換するための行列を更新する
請求項1または請求項2記載のデータ出力装置。 - データベースは、属性がグラフのデータと属性が文書のデータとを含む複数の複合データを記憶し、
前記データベースに記憶されている前記複数の複合データに含まれる前記グラフのデータと前記文書のデータとの組のうち、所定の条件を満たす組のデータを類似するデータであると設定する類似組設定手段を含み、
類似度更新手段は、前記類似組設定手段によって類似するデータであると設定された組に含まれるデータの間の類似度を計算するための類似度計算式を更新する
請求項1から請求項3のうちいずれか1項記載のデータ出力装置。 - データベースは、属性がグラフのデータと属性が文書のデータとを含む複数の複合データを記憶し、
フィードバック情報入力手段が入力したフィードバック情報にもとづいて、入力されたキーワードと、ユーザによって選択操作がなされたデータとの組のデータを類似するデータであると設定する類似組設定手段を含み、
類似度更新手段は、前記類似組設定手段によって類似するデータであると設定された組に含まれるデータの間の類似度を計算するための類似度計算式を更新する
請求項1から請求項3のうちいずれか1項記載のデータ出力装置。 - データの間の類似度にもとづいて、入力されたキーワードに応じたデータを出力するデータ出力方法であって、
複数の異なる属性のデータと、前記複数の異なる属性のデータを全て単一の属性のデータに変換した上で各データ間の類似度を計算するための類似度計算式とを記憶するデータベースから、前記入力されたキーワードに応じたデータを抽出し、
抽出したデータを出力し、
出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力し、
入力したフィードバック情報にもとづいて、前記データベースに記憶されているデータと前記入力されたキーワードとの間の類似度を計算するための類似度計算式を更新し、更新後の類似度計算式を前記データベースに記憶し、
新たにキーワードが入力された場合に、更新されて前記データベースに記憶されている類似度計算式であって、前記キーワードに応じた類似度計算式の計算結果にもとづいて、前記キーワードに応じたデータを抽出する
ことを特徴とするデータ出力方法。 - コンピュータに、データの間の類似度にもとづいて、入力されたキーワードに応じたデータを出力させるためのデータ出力プログラムであって、
コンピュータに、
複数の異なる属性のデータと、前記複数の異なる属性のデータを全て単一の属性のデータに変換した上で各データ間の類似度を計算するための類似度計算式とを記憶するデータベースから、前記入力されたキーワードに応じたデータを抽出するデータ抽出処理と、
前記データ抽出処理で抽出したデータを出力するデータ出力処理と、
前記データ出力処理で出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力するフィードバック情報入力処理と、
前記フィードバック情報入力処理で入力したフィードバック情報にもとづいて、前記データベースに記憶されているデータと前記入力されたキーワードとの間の類似度を計算するための類似度計算式を更新し、更新後の類似度計算式を前記データベースに記憶する類似度更新処理とを実行させ、
前記データ抽出処理で、前記データベースに記憶されている類似度計算式であって、前記キーワードに応じた類似度計算式の計算結果にもとづいて、前記キーワードに応じたデータを抽出させる
ためのデータ出力プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010122967A JP5533272B2 (ja) | 2010-05-28 | 2010-05-28 | データ出力装置、データ出力方法およびデータ出力プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010122967A JP5533272B2 (ja) | 2010-05-28 | 2010-05-28 | データ出力装置、データ出力方法およびデータ出力プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011248740A JP2011248740A (ja) | 2011-12-08 |
JP5533272B2 true JP5533272B2 (ja) | 2014-06-25 |
Family
ID=45413895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010122967A Active JP5533272B2 (ja) | 2010-05-28 | 2010-05-28 | データ出力装置、データ出力方法およびデータ出力プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5533272B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130204811A1 (en) * | 2012-02-08 | 2013-08-08 | Nec Corporation | Optimized query generating device and method, and discriminant model learning method |
US8832006B2 (en) * | 2012-02-08 | 2014-09-09 | Nec Corporation | Discriminant model learning device, method and program |
CN110083774B (zh) * | 2019-05-10 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 应用推荐列表的确定方法、装置、计算机设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3611913B2 (ja) * | 1995-11-29 | 2005-01-19 | 沖電気工業株式会社 | 類似検索方法および装置 |
JP2001306612A (ja) * | 2000-04-26 | 2001-11-02 | Sharp Corp | 情報提供装置、情報提供方法およびその方法を実現するプログラムを記録した機械読取可能な記録媒体 |
JP4636734B2 (ja) * | 2001-06-04 | 2011-02-23 | Kddi株式会社 | 情報検索システム、情報検索方法、情報検索プログラム、情報検索プログラムを記録した記録媒体、出力情報選択装置、出力情報選択方法、出力情報選択プログラム及び出力情報選択プログラムを記録した記録媒体 |
JP4967133B2 (ja) * | 2007-03-28 | 2012-07-04 | 国立大学法人九州工業大学 | 情報取得装置、そのプログラム及び方法 |
JPWO2009104324A1 (ja) * | 2008-02-22 | 2011-06-16 | 日本電気株式会社 | 能動計量学習装置、能動計量学習方法およびプログラム |
JP5056695B2 (ja) * | 2008-09-24 | 2012-10-24 | 富士ゼロックス株式会社 | 類似画像提示装置及びプログラム |
-
2010
- 2010-05-28 JP JP2010122967A patent/JP5533272B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011248740A (ja) | 2011-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2017345199B2 (en) | Methods and systems for identifying a level of similarity between a plurality of data representations | |
KR102371167B1 (ko) | 데이터 아이템을 성긴 분포 표현으로 매핑하는 방법 및 시스템 | |
Noh et al. | Keyword selection and processing strategy for applying text mining to patent analysis | |
AU2016311039B2 (en) | Methods and systems for identifying a level of similarity between a filtering criterion and a data item within a set of streamed documents | |
WO2020143184A1 (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
US11900064B2 (en) | Neural network-based semantic information retrieval | |
JP5477297B2 (ja) | 能動計量学習装置、能動計量学習方法および能動計量学習プログラム | |
JP2020500371A (ja) | 意味的検索のための装置および方法 | |
Bleik et al. | Text categorization of biomedical data sets using graph kernels and a controlled vocabulary | |
JP2014059754A (ja) | 情報処理システム、及び、情報処理方法 | |
CN112988980A (zh) | 目标产品查询方法、装置、计算机设备和存储介质 | |
WO2015145981A1 (ja) | 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、記憶媒体 | |
JP5533272B2 (ja) | データ出力装置、データ出力方法およびデータ出力プログラム | |
JP2016018286A (ja) | 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム | |
JP4750628B2 (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP7388256B2 (ja) | 情報処理装置及び情報処理方法 | |
CN114969371A (zh) | 一种联合知识图谱的热度排序方法及装置 | |
Skaruz et al. | Evolutionary algorithms for abstract planning | |
CN111090743A (zh) | 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置 | |
Wang et al. | Common topic group mining for web service discovery | |
Manek et al. | Classification of drugs reviews using W-LRSVM model | |
Oo et al. | Correlated Topic Modeling for Big Data with MapReduce | |
US20210209095A1 (en) | Apparatus and Method for Combining Free-Text and Extracted Numerical Data for Predictive Modeling with Explanations | |
Alsarem et al. | Ranking entities in the age of two webs, an application to semantic snippets | |
WO2023281691A1 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130405 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5533272 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140414 |