JP6040141B2 - Keyword assigning device, keyword assigning method, and program - Google Patents

Keyword assigning device, keyword assigning method, and program Download PDF

Info

Publication number
JP6040141B2
JP6040141B2 JP2013253817A JP2013253817A JP6040141B2 JP 6040141 B2 JP6040141 B2 JP 6040141B2 JP 2013253817 A JP2013253817 A JP 2013253817A JP 2013253817 A JP2013253817 A JP 2013253817A JP 6040141 B2 JP6040141 B2 JP 6040141B2
Authority
JP
Japan
Prior art keywords
keyword
graph
score
parameter
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013253817A
Other languages
Japanese (ja)
Other versions
JP2015114681A (en
Inventor
隆伸 大庭
隆伸 大庭
一生 青山
一生 青山
祥子 山畠
祥子 山畠
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013253817A priority Critical patent/JP6040141B2/en
Publication of JP2015114681A publication Critical patent/JP2015114681A/en
Application granted granted Critical
Publication of JP6040141B2 publication Critical patent/JP6040141B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、文書に対して関連するキーワードを付与する技術に関する。   The present invention relates to a technique for assigning a related keyword to a document.

文書に対して関連するキーワードを付与することは、例えば、データ解析やドキュメント検索において極めて重要である。例えば、学術論文では、本文に加えて、関連するキーワードを人手で付与しておくことが通例となっている。これらのキーワードは、頻度を分析するだけで研究動向の推移を知ることができるなど、有用な情報となっている。   Giving relevant keywords to a document is extremely important in data analysis and document search, for example. For example, in academic papers, in addition to the main text, related keywords are usually assigned manually. These keywords are useful information, such as knowing the trend of research trends simply by analyzing the frequency.

人手で文書を作成する場合であれば、関連するいくつかのキーワードを人手で付与することは容易である。しかし、既に作成された大量の文書や音声アーカイブを音声認識技術によりテキスト化した文書に対して、キーワードを人手で付与するためには多くの時間と労力が必要とされ、極めてコストが高い。そこで、文書に対して自動的にキーワードを付与する技術が求められている。このような技術は文書分類やテキスト分類とも呼ばれる(非特許文献1参照)。   If a document is created manually, it is easy to manually assign some related keywords. However, it takes a lot of time and labor to manually assign keywords to a large number of documents already created or a document obtained by converting a voice archive into a text using a voice recognition technology, which is extremely expensive. Therefore, a technique for automatically assigning keywords to documents is required. Such a technique is also called document classification or text classification (see Non-Patent Document 1).

キーワードの自動付与には大きく二通りの方法がある。一つの方法は、潜在的意味インデキシングと呼ばれる種類の方法である。潜在的意味インデキシングの代表的な方法には、確率的潜在意味解析(Probabilistic Latent Semantic Analysis、pLSA)や潜在的ディリクレ配分法(Latent Dirichlet Allocation、LDA)などがある(非特許文献2参照)。潜在的意味インデキシングは、様々なキーワードを付与することができる反面、人にとって意味のあるキーワードが付与されるとは限らないという問題点がある。   There are two main methods for automatically assigning keywords. One method is a type of method called latent semantic indexing. Typical methods of latent semantic indexing include probabilistic latent semantic analysis (Probabilistic Latent Semantic Analysis, pLSA) and latent Dirichlet Allocation (Latent Dirichlet Allocation, LDA) (see Non-Patent Document 2). Although latent semantic indexing can give various keywords, there is a problem that keywords meaningful to people are not always given.

もう一つの方法は、分類器を用いる方法である(非特許文献1参照)。事前にいくつかのキーワードを決め、各キーワードに関して、ある文書が当該キーワードに関連があるかないかを判定する分類器を用意しておく。入力文書を各分類器に適用し、関連があると判定されたキーワードが付与される。分類器を用いる方法であれば、事前にキーワードを決めておくことができるので、人にとって意味のあるキーワードを設定できる。   Another method is a method using a classifier (see Non-Patent Document 1). A number of keywords are determined in advance, and for each keyword, a classifier is prepared for determining whether a certain document is related to the keyword. The input document is applied to each classifier, and a keyword determined to be relevant is assigned. If the method uses a classifier, keywords can be determined in advance, and keywords that are meaningful to people can be set.

永田昌明、平博順、“テキスト分類 --学習理論の「見本市」--”、“特集 情報論的学習理論とその応用”、情報処理、Vol. 42、No. 1、pp. 32-37、2001Nagata, Masaaki, Hirahiro Jun, “Text Classification:“ Trade Fair of Learning Theory ””, “Special Issue: Information Theory of Learning and Its Applications”, Information Processing, Vol. 42, No. 1, pp. 32-37 , 2001 岩田具治、山田武士、上田修功、“トピックモデルに基づく文書群の可視化”、情報処理学会論文誌、Vol. 50、No. 6、pp. 1649-1659、2009Tomoharu Iwata, Takeshi Yamada, Nobuo Ueda, “Visualization of Documents Based on Topic Models”, IPSJ Transactions, Vol. 50, No. 6, pp. 1649-1659, 2009

分類器を用いたキーワード付与技術では、キーワードの数だけ分類器を用意しておき、入力文書に対して総当り的に分類器を適用する必要があるため、キーワードの数に比例した処理時間が必要となる。その結果、計算に掛かる時間の制約上、実用的にはキーワードが数十から数百、数千といった規模に制限されるという課題がある。   In the keyword assignment technique using a classifier, it is necessary to prepare as many classifiers as the number of keywords and apply the classifier to the input document brute force, so the processing time proportional to the number of keywords is required. Necessary. As a result, there is a problem that the number of keywords is practically limited to several tens to several hundreds or thousands due to time constraints for calculation.

一方で、状況に応じて優先的に付与したいキーワードを変更したい場合もある。例えば、人名や地名に関するキーワードを優先的に付与したいという場合もあるであろう。汎用的なキーワード付与技術を考える場合には、このような要求への対応も必要とされる。   On the other hand, there is a case where it is desired to change a keyword to be preferentially given according to the situation. For example, there may be a case where a keyword related to a person name or a place name is given priority. When considering general-purpose keyword assignment technology, it is necessary to respond to such a request.

この発明の目的は、文書に対して付与できるキーワード数を飛躍的に増加させることである。さらに、状況に応じて特定のキーワードを優先的に付与することである。   An object of the present invention is to dramatically increase the number of keywords that can be assigned to a document. Furthermore, a specific keyword is preferentially given according to the situation.

上記の課題を解決するために、この発明のキーワード付与装置は、パラメータ算出部、グラフ構築部、スコア算出部及びグラフ走査部を含む。パラメータ算出部は、キーワードが付与された複数の文書を用いてキーワード毎のモデルパラメータを算出する。グラフ構築部は、モデルパラメータ間の親類度を計算し、モデルパラメータを各ノードとしモデルパラメータ間の親類度に基づいて互いに近傍に存在するノード間でリンクを張ったグラフを構築する。スコア算出部は、モデルパラメータを用いて入力文書のスコアを算出する。グラフ走査部は、スコアに基づいてグラフを探索して入力文書と最近傍のノードに対応するキーワードを特定する。   In order to solve the above problems, the keyword assignment device of the present invention includes a parameter calculation unit, a graph construction unit, a score calculation unit, and a graph scanning unit. The parameter calculation unit calculates a model parameter for each keyword using a plurality of documents to which the keyword is assigned. The graph construction unit calculates the degree of relativeity between the model parameters, and constructs a graph with links between nodes existing in the vicinity based on the degree of relativeity between the model parameters with the model parameter as each node. The score calculation unit calculates the score of the input document using the model parameter. The graph scanning unit searches the graph based on the score and identifies a keyword corresponding to the input document and the nearest node.

この発明によれば、文書に対して付与できるキーワード数を飛躍的に増加させることができる。さらに、状況に応じて特定のキーワードを優先的に付与することができる。   According to the present invention, the number of keywords that can be assigned to a document can be dramatically increased. Furthermore, a specific keyword can be preferentially given according to the situation.

図1は、グラフ探索技術を説明する図である。FIG. 1 is a diagram for explaining a graph search technique. 図2は、第一実施形態に係るキーワード付与装置の機能構成を例示する図である。FIG. 2 is a diagram illustrating a functional configuration of the keyword assigning apparatus according to the first embodiment. 図3は、第一実施形態に係るキーワード付与方法の処理フローを例示する図である。FIG. 3 is a diagram illustrating a processing flow of the keyword assigning method according to the first embodiment. 図4は、第二実施形態に係るキーワード付与装置の機能構成を例示する図である。FIG. 4 is a diagram illustrating a functional configuration of the keyword assigning apparatus according to the second embodiment. 図5は、第二実施形態に係るキーワード付与方法の処理フローを例示する図である。FIG. 5 is a diagram illustrating a processing flow of the keyword assigning method according to the second embodiment.

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function in drawing, and duplication description is abbreviate | omitted.

[発明のポイント]
この発明は、膨大な数(例えば百万個程度)のキーワードの中から、入力文書に関連するキーワードを高速に選択できるようにするものである。この発明によれば、膨大な数のキーワードを扱えるようになるにも関わらず、キーワード群は事前に人間が用意するものであるため、意味のないキーワードの付与を防止できる。
[Points of Invention]
The present invention enables a keyword related to an input document to be selected at a high speed from a huge number (for example, about one million) of keywords. According to this invention, although a huge number of keywords can be handled, since a keyword group is prepared in advance by a human, it is possible to prevent assignment of meaningless keywords.

この発明では、グラフ探索技術を分類器に基づくキーワード付与技術に適用する。これによりキーワード数の大幅な増加と高速なキーワード付与が同時に達成できる。   In the present invention, the graph search technique is applied to a keyword assignment technique based on a classifier. Thereby, a large increase in the number of keywords and high-speed keyword assignment can be achieved at the same time.

この発明の基本的なポイントは以下の二点である。
1.モデルパラメータ間の親類度に基づきグラフを構築しておき、そのグラフを利用して入力文書に関連するキーワードを高速に探索する。
2.グラフ探索時に優先すべきキーワードにバイアスを設定できるようにする。
The basic points of the present invention are the following two points.
1. A graph is constructed based on the degree of relativeity between model parameters, and keywords related to the input document are searched at high speed using the graph.
2. Bias can be set for keywords that should be prioritized during graph search.

前者はキーワード数を飛躍的に増やすための技術的ポイントであり、後者は優先的に付与したいキーワードを変更するための技術的ポイントである。   The former is a technical point for dramatically increasing the number of keywords, and the latter is a technical point for changing keywords to be preferentially assigned.

[分類器によるキーワード付与技術]
分類器(以下、モデルとも呼ぶ)は、ある文書が与えられた場合に、各キーワードがどれだけその文書に相応しいかを判断する装置である。具体的には、分類器は文書dとキーワードラベルλに対してスコアS_Φ_λ(d)を返す。すべてのキーワードラベルλについて分類器を用いてスコアS_Φ_λ(d)を算出し、スコアS_Φ_λ(d)が上位のキーワードを文書dに付与する。
[Keyword assignment technology by classifier]
A classifier (hereinafter also referred to as a model) is a device that determines how much each keyword is appropriate for a given document. Specifically, the classifier returns a score S_Φ_λ (d) for document d and keyword label λ. A score S_Φ_λ (d) is calculated using a classifier for all keyword labels λ, and a keyword having a higher score S_Φ_λ (d) is assigned to the document d.

Φ_λはモデルパラメータであり、スコアS_Φ_λ(d)の具体的な算術式はモデル固有である。文書へのキーワード付与で使用されるモデルとしては、代表的なものに、サポートベクターマシン(Support Vector Machine、SVM)、ブースティング(Boosting)、ナイーブベイズ(Naive Bayes)などがある。サポートベクターマシン及びブースティングについては、上記の非特許文献1に記載されている。ナイーブベイズについては、下記の参考文献1に記載されている。
〔参考文献1〕白川真澄、中山浩太郎、原隆浩、西尾章治郎、“ナイーブベイズによる文書分類のためのWikipediaカテゴリグラフ解析”、第26回人工知能学会全国大会論文集、第26回人工知能学会全国大会、2012年06月
Φ_λ is a model parameter, and a specific arithmetic expression of the score S_Φ_λ (d) is unique to the model. Typical models used for assigning keywords to documents include Support Vector Machine (SVM), Boosting, Naive Bayes, and the like. The support vector machine and boosting are described in Non-Patent Document 1 above. Naive Bayes is described in Reference 1 below.
[Reference 1] Masumi Shirakawa, Kotaro Nakayama, Takahiro Hara, Shojiro Nishio, “Wikipedia Category Graph Analysis for Document Classification by Naive Bayes”, Proceedings of the 26th Annual Conference of the Japanese Society for Artificial Intelligence, 26th Japan Society for Artificial Intelligence National Convention, June 2012

モデルの学習には、キーワードが付与された複数の文書からなるデータベースが必要である。学習とは、文書のデータベースを利用してモデルパラメータΦ_λの値を推定することである。具体的にはまず、各文書から所定の統計量(素性ベクトル)、例えば、単語の頻度やtf-idf値などを得ておく。これらの統計量とキーワードラベルλを用いてモデルパラメータΦ_λを決定する。パラメータ推定の具体的な手順はモデルの種類に依存するものであり、既知の技術で実施可能である。   To learn a model, a database consisting of a plurality of documents with keywords is required. Learning is to estimate the value of the model parameter Φ_λ using a document database. Specifically, first, a predetermined statistic (feature vector) such as a word frequency or a tf-idf value is obtained from each document. The model parameter Φ_λ is determined using these statistics and the keyword label λ. The specific procedure for parameter estimation depends on the type of model and can be implemented by known techniques.

なお、キーワード推定時のスコアS_Φ_λ(d)の算出においても、文書から得られた統計量(素性ベクトル)、すなわち文書を数値化したものを利用する。   In calculating the score S_Φ_λ (d) at the time of keyword estimation, a statistic (feature vector) obtained from the document, that is, a numerical value of the document is used.

スコアS_Φ_λ(d)の算出式の具体的な例を以下に示す。   A specific example of a calculation formula for the score S_Φ_λ (d) is shown below.

線形モデル(例えば、サポートベクターマシン、ブースティングなど)の場合には、下記の式(1)によりスコアS_Φ_λ(d)を算出することができる。   In the case of a linear model (for example, support vector machine, boosting, etc.), the score S_Φ_λ (d) can be calculated by the following equation (1).

Figure 0006040141
Figure 0006040141

ここで、・は内積演算子であり、f(d)は文書dから得られる素性ベクトルである。 Here, · is an inner product operator, and f (d) is a feature vector obtained from the document d.

ナイーブベイズモデルの場合には、下記の式(2)によりスコアS_Φ_λ(d)を算出することができる。   In the case of the naive Bayes model, the score S_Φ_λ (d) can be calculated by the following equation (2).

Figure 0006040141
Figure 0006040141

ここで、Pは確率を表し、f_k(d)は素性ベクトルf(d)のk番目の要素である。式(2)においては、P(λ)及び{P_k(x|λ)}がモデルパラメータΦ_λに相当する。 Here, P represents a probability, and f_k (d) is the kth element of the feature vector f (d). In Equation (2), P (λ) and {P_k (x | λ)} correspond to the model parameter Φ_λ.

確率Pは一般に最尤推定で得られる。例えば、P(λ)はキーワードλの頻度をすべてのキーワードの頻度の総数で除算することで求めることができる。P_k(f_k(d)|λ)は、キーワードλに関するすべての文書D_λから得られる統計量の全要素に関する総和Σkf_k(D_λ)に対するf_k(D_λ)の比率を用いて、下記の式(3)のように算出すればよい。 The probability P is generally obtained by maximum likelihood estimation. For example, P (λ) can be obtained by dividing the frequency of the keyword λ by the total number of frequencies of all keywords. P_k (f_k (d) | λ) is expressed by the following equation (3) using the ratio of f_k (D_λ) to the sum Σ k f_k (D_λ) for all the elements of the statistics obtained from all documents D_λ relating to the keyword λ. ).

Figure 0006040141
Figure 0006040141

上記の方法に加えて、キーワード付与には次のような方法もある。まず、キーワードλに関する文書集合D_λから所定の算術式でモデルパラメータΦ_λを得る。モデルパラメータΦ_λは、例えば、文書集合D_λの素性ベクトルそのものであってもよいし、各文書から得られる素性ベクトルの平均と共分散行列であってもよい。次に、所定の類似度(ないしは距離尺度)で入力文書dと文書集合D_λの類似性を評価する。そして、最終的に入力文書dとの類似性が高いキーワードを付与する。類似度(ないしは距離尺度)としては、例えば、コサイン類似度、ユークリッド距離又はマハラノビス距離などが広く用いられる。   In addition to the above methods, there are the following methods for assigning keywords. First, a model parameter Φ_λ is obtained by a predetermined arithmetic expression from the document set D_λ related to the keyword λ. The model parameter Φ_λ may be, for example, the feature vector itself of the document set D_λ, or may be an average of feature vectors obtained from each document and a covariance matrix. Next, the similarity between the input document d and the document set D_λ is evaluated with a predetermined similarity (or distance scale). Finally, a keyword having high similarity with the input document d is assigned. As the similarity (or distance scale), for example, cosine similarity, Euclidean distance or Mahalanobis distance is widely used.

この方法は、モデルの学習時にモデルパラメータΦ_λを推定する処理を含まない点において、上述の一般的な分類器とは異なる。しかし、所定のモデルパラメータΦ_λで定義される所定のスコアS_Φ_λ(d)をもとに分類する点では共通であるため、ここでは分類器の一種として扱う。   This method is different from the above-described general classifier in that it does not include a process of estimating the model parameter Φ_λ during model learning. However, since it is common to classify based on a predetermined score S_Φ_λ (d) defined by a predetermined model parameter Φ_λ, it is treated as a kind of classifier here.

[グラフ探索技術]
グラフ探索は、ある距離空間上において、大量のサンプルが存在する中で、ある入力サンプルと最近傍のサンプルを高速に見つけるための手法である。
[Graph Search Technology]
The graph search is a technique for finding a certain input sample and the nearest sample at high speed in the presence of a large number of samples in a certain metric space.

まず、検索対象である大量のサンプルをノードと見立て、事前に互いに近傍に存在するノードにリンクを張っておく。検索時は、入力サンプル(以下、クエリと呼ぶ)とノードとの距離の計測を、リンクを辿りながら順に行う。はじめに、初期ノードを選び、初期ノードとクエリとの距離を計測する。次に、初期ノードからリンクが張られているノードとクエリとの距離を計測する。初期ノードにリンクが複数あれば、接続されているすべてのノードとクエリとの距離を計測する。貪欲法により探索を行う場合、距離を計測したノードのうちクエリとの距離が最も近いノードを選択し、そこから伸びるリンク先のノードとクエリとの距離をさらに計測する。よりクエリに近いノードが見つかる限りこの処理を繰り返す。そして、最終的に発見した最近傍のノードに対応するサンプルを検索結果とする。必要に応じて、初期ノードを変更して探索を行ってもよい。また、貪欲法により探索を行う以外に、複数の上位ノードを考慮しながら検索を行ってもよい。   First, a large number of samples to be searched are regarded as nodes, and links are established in advance to nodes that are close to each other. When searching, the distance between the input sample (hereinafter referred to as a query) and the node is measured in order while following the link. First, an initial node is selected, and the distance between the initial node and the query is measured. Next, the distance between the node linked to the initial node and the query is measured. If there are multiple links in the initial node, the distance between all connected nodes and the query is measured. When searching by the greedy method, the node having the closest distance to the query is selected from the nodes whose distances are measured, and the distance between the link destination node extending from the node and the query is further measured. This process is repeated as long as a node closer to the query is found. Then, a sample corresponding to the nearest node finally found is used as a search result. If necessary, the initial node may be changed for searching. In addition to searching by the greedy method, the search may be performed while considering a plurality of upper nodes.

厳密にクエリの最近傍サンプルを見つけるには、すべてのサンプルとの距離を計測しなければならない。しかし、グラフを適切に構成することで、多くの場合、わずかな計測回数で最近傍サンプルに到達できる。代表的なグラフ構造として、k近傍グラフ(k-neighborhood graph)(下記の参考文献2参照)、k近傍グラフから冗長なリンクを削減したk次削減近傍グラフ(k-degree reduced neighborhood graph)(下記の参考文献3参照)などがある。
〔参考文献2〕岩崎雅二郎、“近似k最近傍グラフによる距離空間の近傍検索”、情報処理学会論文誌.データベース、vol. 3、no. 1、pp. 18-28、2010
〔参考文献3〕Kazuo Aoyama, Kazumi Saito, Hiroshi Sawada, Naonori Ueda, “Fast approximate similarity search based on degree-reduced neighborhood graphs”, Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 1055-1063, 2011
To find the nearest sample in the query exactly, the distance to all samples must be measured. However, by configuring the graph appropriately, in many cases, the nearest sample can be reached with a small number of measurements. Typical graph structures include k-neighborhood graph (see Reference 2 below), k-degree reduced neighborhood graph (k-degree reduced neighborhood graph) with redundant links reduced from k-neighbor graph (see below) Reference 3)).
[Reference 2] Masajiro Iwasaki, “Neighbor search of metric space using approximate k nearest neighbor graph”, Transactions of Information Processing Society of Japan. Database, vol. 3, no. 1, pp. 18-28, 2010
[Reference 3] Kazuo Aoyama, Kazumi Saito, Hiroshi Sawada, Naonori Ueda, “Fast approximate similarity search based on degree-reduced neighborhood graphs”, Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 1055- 1063, 2011

図1に、k=2としたk近傍グラフを用いた貪欲法によるグラフ探索の例を示す。太線で描かれハッチングが付された円が初期ノードSであり、太線で描かれた白い円がクエリd(すなわち入力文書)である。はじめに、初期ノードSとクエリdの距離を計測する。次に、初期ノードSとリンクのあるノードN1,N2,N3についても同様にクエリdとの距離を計測する(点線矢印)。距離を計測したノードS,N1,N2,N3のうち最近傍のノードN3に遷移し(太線矢印)、リンク先のノードN4,N5について再度クエリdとの距離を計測する。図1の例では、太線矢印を三回辿ると、リンク先にそれ以上にクエリdに近いノードが見つけられないノードN6に辿り着く。ここで探索を終了し、ノードN6を最近傍のノードとして出力する。   FIG. 1 shows an example of a graph search by a greedy method using a k neighborhood graph with k = 2. A circle drawn with a bold line and hatched is an initial node S, and a white circle drawn with a bold line is a query d (that is, an input document). First, the distance between the initial node S and the query d is measured. Next, the distance to the query d is similarly measured for the nodes N1, N2, and N3 linked to the initial node S (dotted arrow). Among the nodes S, N1, N2, and N3 whose distances are measured, the transition is made to the nearest node N3 (thick arrow), and the distance to the query d is measured again for the linked nodes N4 and N5. In the example of FIG. 1, when the bold arrow is traced three times, the node N6 in which no node closer to the query d can be found at the link destination is reached. Here, the search is terminated, and the node N6 is output as the nearest node.

[第一実施形態]
この発明の第一実施形態は、分類器に基づくキーワード付与技術にグラフ探索技術を適用したキーワード付与装置である。これによりキーワード数の大幅な増加と高速なキーワード付与が同時に達成できる。
[First embodiment]
1st Embodiment of this invention is the keyword provision apparatus which applied the graph search technique to the keyword provision technique based on a classifier. Thereby, a large increase in the number of keywords and high-speed keyword assignment can be achieved simultaneously.

図2を参照して、第一実施形態に係るキーワード付与装置1の機能構成の一例を説明する。キーワード付与装置1は、データベース記憶部10、パラメータ算出部11、グラフ構築部13、グラフ記憶部14、クエリ入力部20、初期化部21、スコア算出部22、グラフ走査部23、上位キーワード記憶部24及び結果出力部25を含む。キーワード付与装置1は、パラメータ改変部12を含むように構成してもよい。パラメータ改変部12を含む変形例については後述する。キーワード付与装置1は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。キーワード付与装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。キーワード付与装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。キーワード付与装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。キーワード付与装置1が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。   With reference to FIG. 2, an example of a functional configuration of the keyword assigning apparatus 1 according to the first embodiment will be described. The keyword assigning apparatus 1 includes a database storage unit 10, a parameter calculation unit 11, a graph construction unit 13, a graph storage unit 14, a query input unit 20, an initialization unit 21, a score calculation unit 22, a graph scanning unit 23, and an upper keyword storage unit. 24 and a result output unit 25. The keyword assigning device 1 may be configured to include the parameter modifying unit 12. A modification including the parameter modification unit 12 will be described later. The keyword assigning device 1 is, for example, a special program configured by reading a special program into a known or dedicated computer having a central processing unit (CPU), a main storage device (Random Access Memory, RAM), and the like. Device. For example, the keyword assigning apparatus 1 executes each process under the control of the central processing unit. The data input to the keyword assigning device 1 and the data obtained in each process are stored in, for example, the main storage device, and the data stored in the main storage device is read out as needed and used for other processing. Is done. Each storage unit included in the keyword assigning device 1 includes, for example, a main storage device such as a RAM (Random Access Memory), an auxiliary storage device configured by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory, or It can be configured with middleware such as a relational database or key-value store. Each storage unit included in the keyword assigning device 1 only needs to be logically divided, and may be stored in one physical storage device.

図3を参照しながら、第一実施形態に係るキーワード付与装置1が実行するキーワード付与方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。   With reference to FIG. 3, an example of the processing flow of the keyword assignment method executed by the keyword assignment apparatus 1 according to the first embodiment will be described according to the order of procedures actually performed.

<グラフ構築処理>
データベース記憶部10には、キーワードが付与された複数の文書からなるデータベースが記憶されている。
<Graph construction processing>
The database storage unit 10 stores a database including a plurality of documents to which keywords are assigned.

ステップS11において、パラメータ算出部11は、データベース記憶部10に記憶されている複数の文書を用いて、文書に付されているすべてのキーワードについてモデルパラメータを算出する。モデルパラメータの算出方法は、上述した従来の分類器によるキーワード付与技術におけるモデルの学習方法と同様である。算出したモデルパラメータはグラフ構築部13へ入力される。   In step S11, the parameter calculation unit 11 uses the plurality of documents stored in the database storage unit 10 to calculate model parameters for all keywords attached to the document. The model parameter calculation method is the same as the model learning method in the keyword assignment technique using the conventional classifier described above. The calculated model parameter is input to the graph construction unit 13.

ステップS13において、グラフ構築部13は、モデルパラメータ間の親類度を計算し、モデルパラメータを各ノードとし互いに近傍に存在するノード間でリンクを張ったグラフを構築する。   In step S <b> 13, the graph construction unit 13 calculates the degree of relativeity between the model parameters, and constructs a graph in which the model parameters are used as nodes and links are established between nodes that are close to each other.

従来の分類器に基づくキーワード付与技術では、キーワードλに関するモデルパラメータΦ_λにおける入力文書dの類似性をスコアS_Φ_λ(d)により評価しさえすればよかった。つまり、モデルパラメータΦ_λと入力文書dの関数にのみ着目すればよかった。しかし、本発明においてグラフを構築する際に、入力文書dが存在しない。モデルパラメータに関してグラフを構築しなければならず、その際、任意の二つのモデルパラメータ間の親類度をなす空間を定義しなければならない。この点は、従来のキーワード付与技術では登場しない新しい点である。   In the conventional keyword assignment technique based on the classifier, it is only necessary to evaluate the similarity of the input document d in the model parameter Φ_λ related to the keyword λ using the score S_Φ_λ (d). That is, it is only necessary to focus on the function of the model parameter Φ_λ and the input document d. However, when constructing a graph in the present invention, there is no input document d. A graph must be constructed with respect to model parameters, in which case a space is defined that defines the degree of affinity between any two model parameters. This is a new point that does not appear in conventional keyword assignment techniques.

モデルパラメータ間の親類度は、具体的には以下のように構成する。モデルパラメータ間の距離は非親類度であり、正負反転などして親類度として用いる。以下では、二つのモデルパラメータΦ_λ及びΦ_λ'間の親類度をF(Φ_λ||Φ_λ’)と表す。   Specifically, the degree of relativeity between model parameters is configured as follows. The distance between the model parameters is non-relative, and is used as the relative degree by reversing the sign. In the following, the degree of affinity between the two model parameters Φ_λ and Φ_λ ′ is expressed as F (Φ_λ || Φ_λ ′).

ナイーブベイズモデルなど、確率モデルを用いる場合には、一般的に確率モデルで用いられる類似度尺度を用いればよい。このような類似度尺度としては、例えば、Kullback-Leibler divergence、f-divergence、ピアソン関数、Lpノルム距離などを用いることができる。   When a probability model such as a naive Bayes model is used, a similarity measure generally used in the probability model may be used. As such a similarity measure, for example, Kullback-Leibler divergence, f-divergence, Pearson function, Lp norm distance, and the like can be used.

Kullback-Leibler divergenceを用いる場合には、以下の式(4)により親類度F(Φ_λ||Φ_λ’)を算出する。   When Kullback-Leibler divergence is used, the degree of relative F (Φ_λ || Φ_λ ′) is calculated by the following equation (4).

Figure 0006040141
Figure 0006040141

ここで、PはΦ_λをパラメータに持つ確率であり、P’はΦ_λ’をパラメータに持つ確率を表す。文書ドキュメントの場合、xは単語の場合が多い。このとき積分は離散シンボルの加算に対応する。 Here, P is the probability of having Φ_λ as a parameter, and P ′ represents the probability of having Φ_λ ′ as a parameter. In the case of a document document, x is often a word. At this time, integration corresponds to addition of discrete symbols.

f-divergenceを用いる場合には、以下の式(5)により親類度F(Φ_λ||Φ_λ’)を算出する。   When f-divergence is used, the degree of relativeity F (Φ_λ || Φ_λ ′) is calculated by the following equation (5).

Figure 0006040141
Figure 0006040141

ここで、gは任意の関数である。 Here, g is an arbitrary function.

ピアソン関数を用いる場合には、以下の式(6)により親類度F(Φ_λ||Φ_λ’)を算出する。   When the Pearson function is used, the degree of relative F (Φ_λ || Φ_λ ′) is calculated by the following equation (6).

Figure 0006040141
Figure 0006040141

Lpノルム距離を用いる場合には、以下の式(7)により親類度F(Φ_λ||Φ_λ’)を算出する。   When the Lp norm distance is used, the degree of relative F (Φ_λ || Φ_λ ′) is calculated by the following equation (7).

Figure 0006040141
Figure 0006040141

モデルパラメータがベクトルの場合、もしくはベクトルとみなす場合には、一般的にベクトルに対して用いられる類似度尺度を用いればよい。このような類似度尺度としては、例えば、ミンコフスキー距離(ユークリッド距離、Lpノルム距離を含む)、マハラノビス距離、マンハッタン距離、チェビシェフ距離、標準ユークリッド距離、コサイン類似度、ピアソンの相関係数などを利用することができる。なお、ピアソンの相関係数とは、ベクトルのコサイン類似度を平均値で除算したものである。   When the model parameter is a vector or when it is regarded as a vector, a similarity measure generally used for a vector may be used. As such a similarity measure, for example, Minkowski distance (including Euclidean distance and Lp norm distance), Mahalanobis distance, Manhattan distance, Chebyshev distance, standard Euclidean distance, cosine similarity, Pearson correlation coefficient, etc. are used. be able to. The Pearson correlation coefficient is obtained by dividing the cosine similarity of a vector by an average value.

パラメータ同士の親類度を定義しさえすれば、グラフの構築方法自体は、従来のグラフ構築技術を適用すればよい。構築したグラフはグラフ記憶部14へ記憶される。   As long as the degree of relativeity between parameters is defined, the graph construction method itself may be applied with a conventional graph construction technique. The constructed graph is stored in the graph storage unit 14.

<グラフ探索処理>
ステップS20において、クエリ入力部20には、キーワード付与の対象となる文書が入力される。以下、入力文書のことをクエリとも呼ぶ。
<Graph search processing>
In step S <b> 20, the query input unit 20 receives a document to which a keyword is assigned. Hereinafter, the input document is also called a query.

ステップS21において、初期化部21は、グラフ探索処理で利用する情報の初期化を行う。具体的には、グラフ探索の初期ノードの決定、上位キーワード記憶部24の初期化、入力文書の素性ベクトル化などを行う。   In step S21, the initialization unit 21 initializes information used in the graph search process. Specifically, determination of an initial node for graph search, initialization of the upper keyword storage unit 24, feature vectorization of the input document, and the like are performed.

ステップS22において、スコア算出部22は、グラフ記憶部14に記憶されているグラフにおいて、所定のノード及び所定のノードのリンク先のノードそれぞれに対応するモデルパラメータを用いて、入力文書のスコアを計算する。所定のノードとは、一回目の処理においては初期化部21が決定した初期ノードであり、二回目以降の処理においては直前の処理により遷移した先のノードである。算出したスコアはグラフ走査部23へ入力される。   In step S22, the score calculation unit 22 calculates the score of the input document using the model parameters corresponding to each of the predetermined node and the link destination node of the predetermined node in the graph stored in the graph storage unit 14. To do. The predetermined node is an initial node determined by the initialization unit 21 in the first process, and a node that has been transitioned by the immediately preceding process in the second and subsequent processes. The calculated score is input to the graph scanning unit 23.

ステップS23aにおいて、グラフ走査部23は、入力されたスコアに基づいて、グラフ記憶部14に記憶されたグラフを探索する。   In step S23a, the graph scanning unit 23 searches the graph stored in the graph storage unit 14 based on the input score.

グラフ上での探索には従来のグラフ探索技術に対して一工夫必要である。グラフの各ノードはモデルパラメータに対応しているが、キーワード付与装置への入力(クエリ)は文書である。従来のグラフ探索では、ノードとクエリは同一の事象に対応していることが前提である。より適切に説明すると、グラフ探索は、グラフ構築時とグラフ探索時とで同一の親類度空間を用いることを前提とした技術である。   The search on the graph requires a contrivance with respect to the conventional graph search technique. Each node of the graph corresponds to a model parameter, but the input (query) to the keyword assigning device is a document. In the conventional graph search, it is assumed that the node and the query correspond to the same event. More specifically, the graph search is a technique based on the premise that the same relativeity space is used for the graph construction and the graph search.

この発明では、工学的近似として、上記の前提を取り除く。すなわち、グラフ構築はパラメータ間の親類度F(Φ_λ||Φ_λ’)に基づいて実施するが、グラフ探索はモデルパラメータΦ_λと文書dとを用いて算出されたスコアS_Φ_λ(d)に基づいて実施する。この背景には、キーワード付与技術で用いるモデルパラメータΦ_λの要素は、ある単語やnグラムに対応したものがほとんどであるという事実がある。モデルパラメータ間の関数F(Φ_λ||Φ_λ’)も、モデルパラメータΦ_λと文書dとの関数S_Φ_λ(d)も、所詮は各要素が単語やnグラムに対応しているベクトル(ないしは集合)同士の関係を表した関数である。すなわち、両関数は全く異なる空間をなしているわけではない。この発明では、この点を利用し、グラフ構築時とグラフ探索時に異なる親類度空間を用いる。   In the present invention, the above assumption is removed as an engineering approximation. That is, the graph construction is performed based on the degree of affinity F (Φ_λ || Φ_λ ′) between parameters, but the graph search is performed based on the score S_Φ_λ (d) calculated using the model parameter Φ_λ and the document d. To do. This is due to the fact that most of the elements of the model parameter Φ_λ used in the keyword assignment technique correspond to a certain word or n-gram. Both the function F (Φ_λ || Φ_λ ') between model parameters and the function S_Φ_λ (d) between the model parameter Φ_λ and the document d are, as expected, vectors (or sets) whose elements correspond to words or n-grams. It is a function that expresses the relationship. That is, both functions do not form completely different spaces. In the present invention, this point is utilized, and different degree-of-kindness spaces are used at the time of graph construction and graph search.

グラフ構築時は類似度空間を定義する必要があるが、構築されたグラフは、あるノードの近傍ノードはどれかという情報だけを持ち、どのくらい近傍にあるかといった情報は保持していない。つまり、グラフ探索時にグラフ構築時に用いた類似度空間は不要であり、グラフ探索時における距離空間から見ても、最近傍ではないにせよ概ね近傍にあるノードにリンクが張られてさえいれば、妥当な検索結果が得られるものと期待できる。   When constructing a graph, it is necessary to define a similarity space, but the constructed graph has only information about which neighboring nodes of a certain node, and does not hold information such as how close it is. In other words, the similarity space used at the time of graph construction at the time of graph search is unnecessary, and even if it is not a nearest neighbor even if it is viewed from the distance space at the time of graph search, a link is established to a node in the vicinity, It can be expected that reasonable search results will be obtained.

ただし当然、モデルパラメータ間の親類度F(Φ_λ||Φ_λ’)とスコアS_Φ_λ(d)とが一致する場合もある。例えば、上述のようにモデルパラメータが素性ベクトルそのものであるような場合である。例えば、入力文書から得られたtf-idfベクトルのコサイン類似度に基づきキーワード付与を行う手法がある。この場合、モデルパラメータΦも文書dから得られる素性ベクトルf(d)も共にtf-idfベクトルであるため、グラフ構築時とグラフ探索時とでいずれもコサイン類似度を用いれば、モデルパラメータ間の親類度F(Φ_λ||Φ_λ’)とスコアS_Φ_λ(d)とが一致する。この例は、この発明における特殊な形態ではあるが、この発明を逸脱するものではない。   However, as a matter of course, the degree of closeness F (Φ_λ || Φ_λ ′) between model parameters may coincide with the score S_Φ_λ (d). For example, as described above, the model parameter is the feature vector itself. For example, there is a technique for assigning keywords based on the cosine similarity of the tf-idf vector obtained from the input document. In this case, both the model parameter Φ and the feature vector f (d) obtained from the document d are tf-idf vectors, so if the cosine similarity is used for both the graph construction and the graph search, The degree of relative F (Φ_λ || Φ_λ ′) and the score S_Φ_λ (d) match. This example is a special form of the present invention, but does not depart from the present invention.

グラフ走査部23は、そのノードのリンク先を順に辿ったり、リンク先によりクエリに近づくノードが見つからなければ別な初期ノードを与えて探索をし直したり、もしくは二位候補から探索を開始し直したりと、複雑な処理を実行する。このようなグラフを探索する方法は従来のグラフ探索技術と同様である。   The graph scanning unit 23 sequentially traces the link destinations of the nodes, and if a node approaching the query is not found by the link destination, the graph scanning unit 23 gives another initial node to perform the search again, or restarts the search from the second candidate. Or, complicated processing is executed. A method for searching for such a graph is the same as the conventional graph search technique.

グラフ走査部23は、上記のようにして探索した入力文書と最近傍のノードに対応するキーワードを特定する。特定したキーワードとスコアは上位キーワード記憶部24へ記憶される。上位キーワード記憶部24において、キーワード及びスコアはスコアが高い順に記憶される。   The graph scanning unit 23 specifies a keyword corresponding to the input document searched as described above and the nearest node. The identified keyword and score are stored in the upper keyword storage unit 24. In the upper keyword storage unit 24, keywords and scores are stored in descending order of score.

ステップS23bにおいて、グラフ走査部23は、グラフ探索を終了するか否かを判定する。グラフ探索の終了条件は、例えば、クエリと各ノードとの距離の計測回数が予め定めた上限値に達しているかどうか、頂点ノードに達した回数が予め定めた上限値に達したかどうか、などである。頂点ノードとは、そのノードのリンク先に更にクエリに近づくノードがないノードのことである。   In step S23b, the graph scanning unit 23 determines whether to end the graph search. The end condition of the graph search is, for example, whether the number of measurements of the distance between the query and each node has reached a predetermined upper limit, whether the number of times to reach the vertex node has reached a predetermined upper limit, etc. It is. A vertex node is a node where there is no node closer to the query at the link destination of the node.

ステップS25において、結果出力部25は、上位キーワード記憶部24に記憶されているキーワードとスコアの組を、スコアが高い順に予め定めた数だけ出力する。   In step S25, the result output unit 25 outputs a predetermined number of keyword / score pairs stored in the higher keyword storage unit 24 in descending order of score.

このように第一実施形態に係るキーワード付与装置1は、モデルパラメータ間の親類度に基づいてモデルパラメータを各ノードとするグラフを構築し、入力文書と各モデルパラメータを用いて算出するスコアに基づいてグラフを探索することで、効率的に入力文書へ付与すべきキーワードを検索することができる。その結果、従来の分類器を用いたキーワード付与技術と比較してキーワード数を飛躍的に増加させることができる。   As described above, the keyword assigning apparatus 1 according to the first embodiment constructs a graph having the model parameter as each node based on the degree of relativeity between the model parameters, and based on the score calculated using the input document and each model parameter. By searching the graph, it is possible to efficiently search for a keyword to be given to the input document. As a result, the number of keywords can be dramatically increased as compared with the keyword assignment technique using the conventional classifier.

[変形例]
キーワード付与装置1は、図1に点線で示すように、パラメータ改変部12を含むように構成してもよい。パラメータ改変部12は、パラメータ算出部11が出力したモデルパラメータを改変して類似物を生成する。改変されたモデルパラメータは、グラフ構築部13へ入力される。類似物とは、モデルパラメータの一部分の要素からなるパラメータや、量子化されたパラメータなどである。
[Modification]
The keyword assigning device 1 may be configured to include a parameter modifying unit 12 as indicated by a dotted line in FIG. The parameter modification unit 12 modifies the model parameter output from the parameter calculation unit 11 to generate an analog. The modified model parameter is input to the graph construction unit 13. The analog is a parameter made up of a part of model parameters, a quantized parameter, or the like.

モデルパラメータΦ_λと似て非なるパラメータΨ_λを考える。例えば、パラメータΨ_λがモデルパラメータΦ_λの一部の要素からなる場合がこれにあたる。この場合、グラフ構築時はモデルパラメータ間の親類度F(Ψ_λ||Ψ_λ’)を用い、グラフ探索時はスコアS_Φ_λ(d)を用いることになる。   Consider a parameter Ψ_λ that is similar to the model parameter Φ_λ. For example, this is the case when the parameter Ψ_λ is composed of a part of the model parameter Φ_λ. In this case, the degree of relativeity F (Ψ_λ || Ψ_λ ′) between model parameters is used at the time of graph construction, and the score S_Φ_λ (d) is used at the time of graph search.

例えば、スコアS_Φ_λ(d)がマハラノビス距離であった場合、モデルパラメータΦ_λは素性ベクトルの平均と共分散行列である。しかし、共分散行列間の親類度(距離)の定義方法は必ずしも明確ではない。また、仮に定義した場合でも、行列の要素数の多さから、計算コストの増大が容易に想像できる。そこで、平均ベクトル間のユークリッド距離でグラフを構築し、マハラノビス距離で探索を行うといった使い方をする。   For example, when the score S_Φ_λ (d) is the Mahalanobis distance, the model parameter Φ_λ is an average of feature vectors and a covariance matrix. However, the method of defining the degree of relativeity (distance) between covariance matrices is not always clear. Even if it is defined, an increase in calculation cost can be easily imagined from the large number of elements in the matrix. Therefore, the graph is constructed with the Euclidean distance between the mean vectors, and the search is performed with the Mahalanobis distance.

キーワード付与装置1は、パラメータ改変部12を含むように構成することで、計算コストが本質的に高いグラフ構築の処理コストを軽減することができるといった利点が得られる。   By configuring the keyword assigning apparatus 1 so as to include the parameter modifying unit 12, it is possible to obtain an advantage that the processing cost for constructing a graph having a high calculation cost can be reduced.

[第二実施形態]
膨大な数のキーワードを取り扱うような汎用的なキーワード付与装置を構築する場合、状況に応じて優先的に付与したいキーワードを変更したい場合がある。例えば、人名キーワードを優先したい場合や、政治やスポーツといった比較的抽象度の高い概念キーワードを優先したい場合などである。予めグラフをそのように構成しておくことで特定のキーワードを優先することは可能であるが、その都度グラフを構成し直すことは処理コストが高くなり現実的ではない。
[Second Embodiment]
When constructing a general-purpose keyword assigning apparatus that handles a huge number of keywords, there is a case where it is desired to change a keyword to be given preferentially according to the situation. For example, there is a case where priority is given to a person name keyword, or a case where priority is given to a concept keyword having a relatively high degree of abstraction such as politics or sports. Although it is possible to prioritize specific keywords by configuring the graph in this way in advance, it is not practical to reconfigure the graph each time because the processing cost increases.

この発明の第二実施形態では、第一実施形態に係るキーワード付与装置を、状況に応じて特定のキーワードを優先的に付与することができるように構成する。   In the second embodiment of the present invention, the keyword assignment device according to the first embodiment is configured so that a specific keyword can be given preferentially according to the situation.

図4を参照して、第二実施形態に係るキーワード付与装置2の機能構成の一例を説明する。キーワード付与装置2は、第一実施形態に係るキーワード付与装置1と同様に、データベース記憶部10、パラメータ算出部11、グラフ構築部13、グラフ記憶部14、クエリ入力部20、初期化部21、スコア算出部22、グラフ走査部23、上位キーワード記憶部24及び結果出力部25を含む。キーワード付与装置2は、さらにバイアス記憶部15及びバイアス加算部26を含む。キーワード付与装置2は、第一実施形態に係るキーワード付与装置1と同様に、パラメータ改変部12を含むように構成してもよい。   With reference to FIG. 4, an example of a functional configuration of the keyword assigning apparatus 2 according to the second embodiment will be described. Similar to the keyword assignment device 1 according to the first embodiment, the keyword assignment device 2 is a database storage unit 10, a parameter calculation unit 11, a graph construction unit 13, a graph storage unit 14, a query input unit 20, an initialization unit 21, A score calculation unit 22, a graph scanning unit 23, an upper keyword storage unit 24, and a result output unit 25 are included. The keyword assigning device 2 further includes a bias storage unit 15 and a bias addition unit 26. The keyword assigning device 2 may be configured to include the parameter modifying unit 12 as in the keyword assigning device 1 according to the first embodiment.

バイアス記憶部15には、優先的に付与したいキーワードとその優先度を表すバイアスとが組にして記憶されている。バイアスの値の定め方は様々な方法が考えられるが、例えば、以下の三通りの方法が挙げられる。   The bias storage unit 15 stores a keyword to be preferentially assigned and a bias indicating the priority as a set. There are various methods for determining the bias value. For example, the following three methods can be mentioned.

一つ目の方法は、検索語と検索回数を利用する方法である。インターネット上で提供される検索エンジン(例えば、GOOGLE(登録商標)、YAHOO!(登録商標)など)で検索頻度が高いキーワードを抽出し、検索回数に応じて任意に定めた値をそのキーワードに対するバイアスとして設定する。例えば、検索回数が多いキーワードに大きいバイアスを与えることで、世間で話題となっているホットトピックを優先的に付与することが可能となる。   The first method uses a search word and the number of searches. A keyword with high search frequency is extracted by a search engine provided on the Internet (for example, GOOGLE (registered trademark), YAHOO! (Registered trademark), etc.), and an arbitrary value is determined according to the number of searches. Set as. For example, it is possible to preferentially assign hot topics that are popular in the world by giving a large bias to keywords that are frequently searched.

二つ目の方法は、シソーラスの階層情報を利用する方法である。シソーラスとは、語彙の関係を木構造で表現したものであり、一般に階層が上位であるほど抽象的な概念が付与されている。シソーラスに登録されているキーワードに対して、シソーラスの階層に応じて任意に定めた値をバイアスとして設定する。利用するシソーラスは優先的に付与したいキーワードの分野に応じて適宜決定すればよい。例えば、シソーラスの階層が低いキーワードほど大きいバイアスを与えることで、細分化されたキーワードを優先的に付与することが可能となる。逆に、シソーラスの階層が高いキーワードほど大きいバイアスを与えることで、抽象的なキーワードを優先的に付与することも可能である。   The second method uses the thesaurus hierarchy information. The thesaurus is a representation of vocabulary relationships in a tree structure. Generally, the higher the hierarchy, the more abstract concepts are given. A value arbitrarily determined according to the thesaurus hierarchy is set as a bias for the keyword registered in the thesaurus. The thesaurus to be used may be appropriately determined according to the field of the keyword to be given with priority. For example, by giving a larger bias to a keyword with a lower thesaurus hierarchy, it becomes possible to preferentially assign the subdivided keywords. On the other hand, it is possible to give an abstract keyword preferentially by giving a larger bias to a keyword having a higher thesaurus hierarchy.

三つ目の方法は、品詞等によるルールを利用する方法である。人名や地名などのキーワードの属性に応じてバイアスを与える。バイアスを与えるキーワード及びそのキーワードに与えるバイアスの値は任意に定めればよい。   The third method uses a rule based on part of speech or the like. Give bias according to keyword attributes such as names of people and places. The keyword that gives the bias and the value of the bias that is given to the keyword may be determined arbitrarily.

図5を参照しながら、第二実施形態に係るキーワード付与装置2が実行するキーワード付与方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。   With reference to FIG. 5, an example of the processing flow of the keyword assigning method executed by the keyword assigning apparatus 2 according to the second embodiment will be described according to the order of procedures actually performed.

ステップS11からステップS22までの処理は、第一実施形態に係るキーワード付与装置1におけるグラフ構築処理と同様である。   The processing from step S11 to step S22 is the same as the graph construction processing in the keyword assigning apparatus 1 according to the first embodiment.

ステップS26において、バイアス加算部26は、バイアス記憶部15に記憶されたキーワードλに対するバイアスb_λを、スコア算出部22により算出されたスコアS_Φ_λ(d)に加える。具体的には、スコアS_Φ_λ(d)にバイアスb_λを加算する。もしくは、スコアS_Φ_λ(d)にバイアスb_λを乗算する。これにより、大きなバイアスを与えられたキーワードが優先的に探索結果の上位に割り当てられることになる。   In step S <b> 26, the bias addition unit 26 adds the bias b_λ for the keyword λ stored in the bias storage unit 15 to the score S_Φ_λ (d) calculated by the score calculation unit 22. Specifically, the bias b_λ is added to the score S_Φ_λ (d). Alternatively, the score S_Φ_λ (d) is multiplied by the bias b_λ. As a result, a keyword given a large bias is preferentially assigned to the top of the search result.

ステップS23aからステップS25までの処理は、第一実施形態に係るキーワード付与装置1におけるグラフ構築処理と同様である。   The processing from step S23a to step S25 is the same as the graph construction processing in the keyword assigning apparatus 1 according to the first embodiment.

このようにして、第二実施形態に係るキーワード付与装置2は、第一実施形態に係るキーワード付与装置1と同様に膨大な数のキーワードを取り扱いながら、状況に応じて特定のキーワードを優先的に付与することができる。その結果、利用者のニーズに合わせたきめ細かいキーワード付与を実現することができる。   In this way, the keyword assignment device 2 according to the second embodiment preferentially assigns a specific keyword according to the situation while handling an enormous number of keywords like the keyword assignment device 1 according to the first embodiment. Can be granted. As a result, it is possible to achieve detailed keyword assignment that matches the user's needs.

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。   The present invention is not limited to the above-described embodiment, and it goes without saying that modifications can be made as appropriate without departing from the spirit of the present invention. The various processes described in the above embodiment may be executed not only in time series according to the order of description, but also in parallel or individually as required by the processing capability of the apparatus that executes the processes or as necessary.

[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
[Program, recording medium]
When various processing functions in each device described in the above embodiment are realized by a computer, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

1、2 キーワード付与装置
10 データベース記憶部
11 パラメータ算出部
12 パラメータ改変部
13 グラフ構築部
14 グラフ記憶部
15 バイアス記憶部
20 クエリ入力部
21 初期化部
22 スコア算出部
23 グラフ走査部
24 上位キーワード記憶部
25 結果出力部
26 バイアス加算部
DESCRIPTION OF SYMBOLS 1, 2 Keyword assignment apparatus 10 Database storage part 11 Parameter calculation part 12 Parameter modification part 13 Graph construction part 14 Graph storage part 15 Bias storage part 20 Query input part 21 Initialization part 22 Score calculation part 23 Graph scanning part 24 Upper keyword storage Unit 25 result output unit 26 bias addition unit

Claims (6)

キーワードが付与された複数の文書を用いて上記キーワード毎のモデルパラメータを算出するパラメータ算出部と、
上記モデルパラメータ間の親類度を計算し、上記モデルパラメータを各ノードとし上記モデルパラメータ間の親類度に基づいて互いに近傍に存在するノード間でリンクを張ったグラフを構築するグラフ構築部と、
上記モデルパラメータを用いて入力文書のスコアを算出するスコア算出部と、
上記スコアに基づいて上記グラフを探索して上記入力文書と最近傍の上記ノードに対応する上記キーワードを特定するグラフ走査部と、
を含むキーワード付与装置。
A parameter calculation unit that calculates a model parameter for each keyword using a plurality of documents to which the keyword is assigned;
A graph construction unit that calculates a degree of relativeity between the model parameters, and constructs a graph in which links are established between nodes that are adjacent to each other based on the degree of relativeity between the model parameters, with the model parameter as each node;
A score calculation unit for calculating the score of the input document using the model parameters;
A graph scanning unit that searches the graph based on the score and identifies the keyword corresponding to the input document and the nearest node;
Keyword assignment device including
請求項1に記載のキーワード付与装置であって、
上記モデルパラメータの一部分の要素を選択し、もしくは上記モデルパラメータを量子化し、上記モデルパラメータを改変するパラメータ改変部をさらに含み、
上記グラフ構築部は、上記改変されたモデルパラメータ間の親類度を計算し、上記グラフを構築するものである
キーワード付与装置。
The keyword assigning device according to claim 1,
A parameter modifying unit that selects a part of the model parameter or quantizes the model parameter and modifies the model parameter;
The said keyword construction part calculates the relative degree between the said modified model parameters, and construct | assembles the said graph The keyword provision apparatus.
請求項2に記載のキーワード付与装置であって、
上記パラメータ算出部は、上記入力文書の素性ベクトルの平均と共分散行列を上記モデルパラメータとするものであり、
上記グラフ構築部は、上記素性ベクトルの平均間のユークリッド距離を上記親類度とするものであり、
上記スコア算出部は、上記入力文書と上記モデルパラメータとのマハラノビス距離を上記スコアとするものである
キーワード付与装置。
The keyword assignment device according to claim 2,
The parameter calculation unit uses the mean and covariance matrix of the feature vectors of the input document as the model parameters,
The graph construction unit uses the Euclidean distance between the mean of the feature vectors as the relative degree,
The said score calculation part uses the Mahalanobis distance of the said input document and the said model parameter as said score, The keyword provision apparatus.
請求項1から3のいずれかに記載のキーワード付与装置であって、
上記キーワードに対して予め定めたバイアスを上記スコアに加えるバイアス加算部
をさらに含むキーワード付与装置。
It is a keyword provision apparatus in any one of Claim 1 to 3,
A keyword adding device further comprising: a bias adding unit that applies a predetermined bias to the score to the keyword.
パラメータ算出部が、キーワードが付与された複数の文書を用いて上記キーワード毎のモデルパラメータを算出するパラメータ算出ステップと、
グラフ構築部が、上記モデルパラメータ間の親類度を計算し、上記モデルパラメータを各ノードとし上記モデルパラメータ間の親類度に基づいて互いに近傍に存在するノード間でリンクを張ったグラフを構築するグラフ構築ステップと、
スコア算出部が、上記モデルパラメータを用いて入力文書のスコアを算出するスコア算出ステップと、
グラフ走査部が、上記スコアに基づいて上記グラフを探索して上記入力文書と最も近い上記ノードに対応する上記キーワードを特定するグラフ走査ステップと、
を含むキーワード付与方法。
A parameter calculating step for calculating a model parameter for each keyword using a plurality of documents to which the keyword is assigned;
The graph construction unit calculates the degree of relativeity between the model parameters, and constructs a graph with links between nodes existing in the vicinity based on the degree of affinity between the model parameters, with the model parameters as nodes. Construction steps and
A score calculation step in which the score calculation unit calculates the score of the input document using the model parameters;
A graph scanning step in which the graph scanning unit searches the graph based on the score and identifies the keyword corresponding to the node closest to the input document;
Keyword assignment method including
請求項1から4のいずれかに記載のキーワード付与装置としてコンピュータを機能させるためのプログラム。   The program for functioning a computer as a keyword provision apparatus in any one of Claim 1 to 4.
JP2013253817A 2013-12-09 2013-12-09 Keyword assigning device, keyword assigning method, and program Active JP6040141B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013253817A JP6040141B2 (en) 2013-12-09 2013-12-09 Keyword assigning device, keyword assigning method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013253817A JP6040141B2 (en) 2013-12-09 2013-12-09 Keyword assigning device, keyword assigning method, and program

Publications (2)

Publication Number Publication Date
JP2015114681A JP2015114681A (en) 2015-06-22
JP6040141B2 true JP6040141B2 (en) 2016-12-07

Family

ID=53528479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013253817A Active JP6040141B2 (en) 2013-12-09 2013-12-09 Keyword assigning device, keyword assigning method, and program

Country Status (1)

Country Link
JP (1) JP6040141B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6553996B2 (en) * 2015-09-15 2019-07-31 日本電信電話株式会社 Path reservation support apparatus, path reservation support program, and path reservation support method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4490876B2 (en) * 2005-06-01 2010-06-30 日本電信電話株式会社 Content classification method, content classification device, content classification program, and recording medium on which content classification program is recorded
JP5208001B2 (en) * 2008-06-09 2013-06-12 ヤフー株式会社 Vector data retrieval device
JP5383776B2 (en) * 2011-11-08 2014-01-08 ヤフー株式会社 Graph index update device

Also Published As

Publication number Publication date
JP2015114681A (en) 2015-06-22

Similar Documents

Publication Publication Date Title
JP5749279B2 (en) Join embedding for item association
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
WO2018049960A1 (en) Method and apparatus for matching resource for text information
JP5346279B2 (en) Annotation by search
JP5995409B2 (en) Graphical model for representing text documents for computer analysis
US8909563B1 (en) Methods, systems, and programming for annotating an image including scoring using a plurality of trained classifiers corresponding to a plurality of clustered image groups associated with a set of weighted labels
US20190347281A1 (en) Apparatus and method for semantic search
WO2013129580A1 (en) Approximate nearest neighbor search device, approximate nearest neighbor search method, and program
US11580119B2 (en) System and method for automatic persona generation using small text components
US8243988B1 (en) Clustering images using an image region graph
CN111159343A (en) Text similarity searching method, device, equipment and medium based on text embedding
CN110019669A (en) A kind of text searching method and device
KR20190118744A (en) Method and system for providing biomedical passage retrieval using deep-learning based knowledge structure construction
CN106933824A (en) The method and apparatus that the collection of document similar to destination document is determined in multiple documents
US20230076923A1 (en) Semantic search based on a graph database
CN114491079A (en) Knowledge graph construction and query method, device, equipment and medium
WO2023246849A1 (en) Feedback data graph generation method and refrigerator
Allani et al. Pattern graph-based image retrieval system combining semantic and visual features
JP6040141B2 (en) Keyword assigning device, keyword assigning method, and program
US9026540B1 (en) Systems and methods for information match scoring
Peikert et al. Objective functions to determine the number of topics for topic modeling
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
US20210049206A1 (en) Computer implemented method and a computer system for document clustering and text mining
JP5342574B2 (en) Topic modeling apparatus, topic modeling method, and program
JP2021152751A (en) Analysis support device and analysis support method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161107

R150 Certificate of patent or registration of utility model

Ref document number: 6040141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150