JP2015114681A - キーワード付与装置、キーワード付与方法及びプログラム - Google Patents
キーワード付与装置、キーワード付与方法及びプログラム Download PDFInfo
- Publication number
- JP2015114681A JP2015114681A JP2013253817A JP2013253817A JP2015114681A JP 2015114681 A JP2015114681 A JP 2015114681A JP 2013253817 A JP2013253817 A JP 2013253817A JP 2013253817 A JP2013253817 A JP 2013253817A JP 2015114681 A JP2015114681 A JP 2015114681A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- graph
- score
- parameter
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、膨大な数(例えば百万個程度)のキーワードの中から、入力文書に関連するキーワードを高速に選択できるようにするものである。この発明によれば、膨大な数のキーワードを扱えるようになるにも関わらず、キーワード群は事前に人間が用意するものであるため、意味のないキーワードの付与を防止できる。
1.モデルパラメータ間の親類度に基づきグラフを構築しておき、そのグラフを利用して入力文書に関連するキーワードを高速に探索する。
2.グラフ探索時に優先すべきキーワードにバイアスを設定できるようにする。
分類器(以下、モデルとも呼ぶ)は、ある文書が与えられた場合に、各キーワードがどれだけその文書に相応しいかを判断する装置である。具体的には、分類器は文書dとキーワードラベルλに対してスコアS_Φ_λ(d)を返す。すべてのキーワードラベルλについて分類器を用いてスコアS_Φ_λ(d)を算出し、スコアS_Φ_λ(d)が上位のキーワードを文書dに付与する。
〔参考文献1〕白川真澄、中山浩太郎、原隆浩、西尾章治郎、“ナイーブベイズによる文書分類のためのWikipediaカテゴリグラフ解析”、第26回人工知能学会全国大会論文集、第26回人工知能学会全国大会、2012年06月
グラフ探索は、ある距離空間上において、大量のサンプルが存在する中で、ある入力サンプルと最近傍のサンプルを高速に見つけるための手法である。
〔参考文献2〕岩崎雅二郎、“近似k最近傍グラフによる距離空間の近傍検索”、情報処理学会論文誌.データベース、vol. 3、no. 1、pp. 18-28、2010
〔参考文献3〕Kazuo Aoyama, Kazumi Saito, Hiroshi Sawada, Naonori Ueda, “Fast approximate similarity search based on degree-reduced neighborhood graphs”, Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 1055-1063, 2011
この発明の第一実施形態は、分類器に基づくキーワード付与技術にグラフ探索技術を適用したキーワード付与装置である。これによりキーワード数の大幅な増加と高速なキーワード付与が同時に達成できる。
データベース記憶部10には、キーワードが付与された複数の文書からなるデータベースが記憶されている。
ステップS20において、クエリ入力部20には、キーワード付与の対象となる文書が入力される。以下、入力文書のことをクエリとも呼ぶ。
キーワード付与装置1は、図1に点線で示すように、パラメータ改変部12を含むように構成してもよい。パラメータ改変部12は、パラメータ算出部11が出力したモデルパラメータを改変して類似物を生成する。改変されたモデルパラメータは、グラフ構築部13へ入力される。類似物とは、モデルパラメータの一部分の要素からなるパラメータや、量子化されたパラメータなどである。
膨大な数のキーワードを取り扱うような汎用的なキーワード付与装置を構築する場合、状況に応じて優先的に付与したいキーワードを変更したい場合がある。例えば、人名キーワードを優先したい場合や、政治やスポーツといった比較的抽象度の高い概念キーワードを優先したい場合などである。予めグラフをそのように構成しておくことで特定のキーワードを優先することは可能であるが、その都度グラフを構成し直すことは処理コストが高くなり現実的ではない。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
10 データベース記憶部
11 パラメータ算出部
12 パラメータ改変部
13 グラフ構築部
14 グラフ記憶部
15 バイアス記憶部
20 クエリ入力部
21 初期化部
22 スコア算出部
23 グラフ走査部
24 上位キーワード記憶部
25 結果出力部
26 バイアス加算部
Claims (6)
- キーワードが付与された複数の文書を用いて上記キーワード毎のモデルパラメータを算出するパラメータ算出部と、
上記モデルパラメータ間の親類度を計算し、上記モデルパラメータを各ノードとし上記モデルパラメータ間の親類度に基づいて互いに近傍に存在するノード間でリンクを張ったグラフを構築するグラフ構築部と、
上記モデルパラメータを用いて入力文書のスコアを算出するスコア算出部と、
上記スコアに基づいて上記グラフを探索して上記入力文書と最近傍の上記ノードに対応する上記キーワードを特定するグラフ走査部と、
を含むキーワード付与装置。 - 請求項1に記載のキーワード付与装置であって、
上記モデルパラメータの一部分の要素を選択し、もしくは上記モデルパラメータを量子化し、上記モデルパラメータを改変するパラメータ改変部をさらに含み、
上記グラフ構築部は、上記改変されたモデルパラメータ間の親類度を計算し、上記グラフを構築するものである
キーワード付与装置。 - 請求項2に記載のキーワード付与装置であって、
上記パラメータ算出部は、上記入力文書の素性ベクトルの平均と共分散行列を上記モデルパラメータとするものであり、
上記グラフ構築部は、上記素性ベクトルの平均間のユークリッド距離を上記親類度とするものであり、
上記スコア算出部は、上記入力文書と上記モデルパラメータとのマハラノビス距離を上記スコアとするものである
キーワード付与装置。 - 請求項1から3のいずれかに記載のキーワード付与装置であって、
上記キーワードに対して予め定めたバイアスを上記スコアに加えるバイアス加算部
をさらに含むキーワード付与装置。 - パラメータ算出部が、キーワードが付与された複数の文書を用いて上記キーワード毎のモデルパラメータを算出するパラメータ算出ステップと、
グラフ構築部が、上記モデルパラメータ間の親類度を計算し、上記モデルパラメータを各ノードとし上記モデルパラメータ間の親類度に基づいて互いに近傍に存在するノード間でリンクを張ったグラフを構築するグラフ構築ステップと、
スコア算出部が、上記モデルパラメータを用いて入力文書のスコアを算出するスコア算出ステップと、
グラフ走査部が、上記スコアに基づいて上記グラフを探索して上記入力文書と最も近い上記ノードに対応する上記キーワードを特定するグラフ走査ステップと、
を含むキーワード付与方法。 - 請求項1から4のいずれかに記載のキーワード付与装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013253817A JP6040141B2 (ja) | 2013-12-09 | 2013-12-09 | キーワード付与装置、キーワード付与方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013253817A JP6040141B2 (ja) | 2013-12-09 | 2013-12-09 | キーワード付与装置、キーワード付与方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015114681A true JP2015114681A (ja) | 2015-06-22 |
JP6040141B2 JP6040141B2 (ja) | 2016-12-07 |
Family
ID=53528479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013253817A Active JP6040141B2 (ja) | 2013-12-09 | 2013-12-09 | キーワード付与装置、キーワード付与方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6040141B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017059950A (ja) * | 2015-09-15 | 2017-03-23 | 日本電信電話株式会社 | パス予約支援装置、パス予約支援プログラム及びパス予約支援方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338263A (ja) * | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体 |
JP2010079871A (ja) * | 2008-06-09 | 2010-04-08 | Yahoo Japan Corp | ベクトルデータ検索装置 |
JP2013101441A (ja) * | 2011-11-08 | 2013-05-23 | Yahoo Japan Corp | グラフインデックス更新装置 |
-
2013
- 2013-12-09 JP JP2013253817A patent/JP6040141B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338263A (ja) * | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体 |
JP2010079871A (ja) * | 2008-06-09 | 2010-04-08 | Yahoo Japan Corp | ベクトルデータ検索装置 |
JP2013101441A (ja) * | 2011-11-08 | 2013-05-23 | Yahoo Japan Corp | グラフインデックス更新装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017059950A (ja) * | 2015-09-15 | 2017-03-23 | 日本電信電話株式会社 | パス予約支援装置、パス予約支援プログラム及びパス予約支援方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6040141B2 (ja) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5749279B2 (ja) | アイテム関連付けのための結合埋込 | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
WO2018049960A1 (zh) | 一种为文本信息匹配资源的方法及装置 | |
JP5995409B2 (ja) | コンピュータ解析のためにテキスト文書を表現するためのグラフィカル・モデル | |
JP5346279B2 (ja) | 検索による注釈付与 | |
US20190347281A1 (en) | Apparatus and method for semantic search | |
US20150142708A1 (en) | Retrieval of similar images to a query image | |
RU2583716C2 (ru) | Метод построения и обнаружения тематической структуры корпуса | |
US11580119B2 (en) | System and method for automatic persona generation using small text components | |
WO2013129580A1 (ja) | 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム | |
US8243988B1 (en) | Clustering images using an image region graph | |
CN111159343A (zh) | 基于文本嵌入的文本相似性搜索方法、装置、设备和介质 | |
US20210350082A1 (en) | Creating and Interacting with Data Records having Semantic Vectors and Natural Language Expressions Produced by a Machine-Trained Model | |
Semberecki et al. | Distributed classification of text documents on Apache Spark platform | |
KR20190118744A (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
CN106933824A (zh) | 在多个文档中确定与目标文档相似的文档集合的方法和装置 | |
US20230076923A1 (en) | Semantic search based on a graph database | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
Allani et al. | Pattern graph-based image retrieval system combining semantic and visual features | |
Lydia et al. | Clustering and indexing of multiple documents using feature extraction through apache hadoop on big data | |
JP6040141B2 (ja) | キーワード付与装置、キーワード付与方法及びプログラム | |
CN112445905A (zh) | 一种信息处理方法和装置 | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
US20210049206A1 (en) | Computer implemented method and a computer system for document clustering and text mining | |
JP2021152751A (ja) | 分析支援装置及び分析支援方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161107 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6040141 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |