JP2009277100A - 文書特徴表現計算装置、及びプログラム - Google Patents
文書特徴表現計算装置、及びプログラム Download PDFInfo
- Publication number
- JP2009277100A JP2009277100A JP2008128857A JP2008128857A JP2009277100A JP 2009277100 A JP2009277100 A JP 2009277100A JP 2008128857 A JP2008128857 A JP 2008128857A JP 2008128857 A JP2008128857 A JP 2008128857A JP 2009277100 A JP2009277100 A JP 2009277100A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- document
- index word
- word
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書特徴表現計算装置において、索引語と、それに対応するベクトルとを含む概念ベースを格納する概念ベース格納手段と、前記文書から各索引語を抽出する索引語抽出手段と、前記概念ベース格納手段から、前記索引語抽出手段で抽出された各索引語に対応するベクトルを入力ベクトルとして取得し、当該入力ベクトルの集合を入力ベクトル集合格納手段に格納する入力ベクトル集合算出手段と、前記入力ベクトル集合格納手段に格納された入力ベクトルの集合に対する各代表ベクトルを、前記概念ベース格納手段に格納されたベクトルの集合から選択することにより算出する代表ベクトル集合算出手段と、前記代表ベクトル算出手段により算出された各代表ベクトルに対応する索引語と、その重みとを算出し、それらを出力する索引語重み算出手段と、を備える。
【選択図】図1
Description
北研二、津田和彦、獅々堀正幹、"情報検索アルゴリズム"、pp.60-63、共立出版、2002
まず、本発明の第1の実施の形態について説明する。
本実施の形態では、文書の特徴を限られた数の単語と、その単語に付与した重みによって表すこととしている。単語は人間にとって分かりやすく、また、その数を限られたものとしたために、本実施の形態によれば人間にとって文書の全体の特徴を把握することが容易になる。
図1に、本発明の第1の実施の形態における文書特徴表現計算装置10の機能構成図を示す。図1に示すように、本実施の形態における文書特徴表現計算装置10は、入力部11、単語頻度算出部12、入力ベクトル集合算出部13、代表ベクトル集合算出部14、単語・重み算出部15、出力部16、単語概念ベース格納部17、入力ベクトル集合格納部18、代表ベクトル集合格納部19を有する。
次に、文書特徴表現計算装置10の処理動作について、図2、図3に示すフローチャートを参照して説明する。
以上のステップ104〜ステップ108の学習処理を繰り返し、部分回数rが検査回数Cに達し、代表ベクトル数qがベクトル量子化数nよりも小さい場合は、ステップ151からの代表ベクトル生成処理を行う。
次に、本発明の第2の実施の形態について説明する。本実施の形態は、文書中の単語の概念ベクトルを全ての単語について平均した平均ベクトルである文書ベクトル(特許文献2参照)が文書の特徴を表していることに着目し、この文書ベクトルを単語と重みによって近似するという考えに基づいている。
図8に、第2の実施の形態における文書特徴表現計算装置20の機能構成図を示す。図8に示すように、本実施の形態における文書特徴表現計算装置20は、入力部21、単語頻度算出部22、文書ベクトル算出部23、重み算出部24、出力部25、単語概念ベース格納部26、単語集合格納部27を有する。
次に、文書特徴表現計算装置20の処理動作を、図9に示すフローチャートに沿って説明する。
y≒Ax 式(1)
のように近似できる。ここで単語基底を特異値分解すると、
A=UΣVt 式(2)
と表せる。そして、Aの擬似逆行列A+を
A+=VΣ+Ut 式(3)
により求めることができる。ここで、Σ+は、Σの零でない成分の逆数を成分とする行列の転置である。この擬似逆行列を用いることにより、式(1)においてyを2乗誤差を最小化する意味で最適近似する重み(係数)xは、
x=A+y 式(4)
により表すことができる。つまり、重み算出部24は、単語基底と文書ベクトルyを用いて、式(2)〜(4)で示す計算を行うことにより重みベクトルxを算出する。
11 入力部
12 単語頻度算出部
13 入力ベクトル集合算出部
14 代表ベクトル集合算出部
15 単語・重み算出部
16 出力部
17 単語概念ベース格納部
18 入力ベクトル集合格納部
19 代表ベクトル集合格納部
20 文書特徴表現計算装置
21 入力部
22 単語頻度算出部
23 文書ベクトル算出部
24 重み算出部
25 出力部
26 単語概念ベース格納部
27 単語集合格納部
Claims (7)
- 入力された文書から、当該文書の特徴を表すための索引語と、その重みとを出力する文書特徴表現計算装置であって、
索引語と、それに対応するベクトルとを含む概念ベースを格納する概念ベース格納手段と、
前記文書から各索引語を抽出する索引語抽出手段と、
前記概念ベース格納手段から、前記索引語抽出手段で抽出された各索引語に対応するベクトルを入力ベクトルとして取得し、当該入力ベクトルの集合を入力ベクトル集合格納手段に格納する入力ベクトル集合算出手段と、
前記入力ベクトル集合格納手段に格納された入力ベクトルの集合に対する各代表ベクトルを、前記概念ベース格納手段に格納されたベクトルの集合から選択することにより算出する代表ベクトル集合算出手段と、
前記代表ベクトル算出手段により算出された各代表ベクトルに対応する索引語と、その重みとを算出し、それらを出力する索引語重み算出手段と、
を備えたことを特徴とする文書特徴表現計算装置。 - 前記代表ベクトル集合算出手段は、前記入力ベクトルを、量子化誤差が最小となるように量子化する処理を実行することにより前記代表ベクトルを算出し、
前記索引語重み算出手段は、前記代表ベクトルに対応する索引語の重みとして、当該代表ベクトルが代表する入力ベクトル群における各入力ベクトルに対応する重みを足し合わせた重みを算出することを特徴とする請求項1に記載の文書特徴表現計算装置。 - 前記代表ベクトル集合算出手段は、前記量子化する処理として、競合学習方式を用いた処理を行い、当該競合学習方式における学習過程で、ランダムに選択した入力ベクトルを用いて代表ベクトルを更新する際に、更新対象の代表ベクトルを入力ベクトルに学習率gの割合で近づけた位置を中心とし、当該中心から更新対象の代表ベクトルまでの距離以内にあり、当該中心に最も近いベクトルを、前記概念ベース格納手段に格納されたベクトルの集合から選択し、当該選択されたベクトルを更新後の代表ベクトルとすることを特徴とする請求項2に記載の文書特徴表現計算装置。
- 前記代表ベクトル集合算出手段は、前記競合学習方式における学習過程において、更新後の代表ベクトルの値が更新前の代表ベクトルの値と同じであった場合は、学習率gの初期値g0の分だけ当該代表ベクトルに対応する学習率を増加させ、同じでない場合には、学習率gを前記初期値g0とすることを特徴とする請求項3に記載の文書特徴表現計算装置。
- 入力された文書から、当該文書の特徴を表すための索引語に対応する重みを算出し、出力する文書特徴表現計算装置であって、
索引語と、それに対応するベクトルとを含む概念ベースを格納する概念ベース格納手段と、
前記文書の特徴を表す特徴表現索引語を格納する特徴表現索引語格納手段と、
前記文書から各索引語とその出現頻度を抽出する索引語抽出手段と、
前記索引語抽出手段により抽出された各索引語に対応するベクトルを前記概念ベース格納手段から取得し、当該ベクトルの集合を前記出現頻度で重み付けして平均をとることにより文書ベクトルを算出する文書ベクトル算出手段と、
前記特徴表現索引語格納手段に格納された各特徴表現索引語に対応する前記概念ベースにおけるベクトルと、前記文書ベクトル算出手段により算出された文書ベクトルとを用いて前記特徴表現索引語に対応する重みを算出し、出力する重み算出手段と
を備えたことを特徴とする文書特徴表現計算装置。 - 前記重み算出手段は、前記各特徴表現索引語に対応する前記概念ベースにおけるベクトルを列ベクトルとして横に並べた行列の擬似逆行列を前記文書ベクトルに掛けることにより前記重みを算出することを特徴とする請求項5に記載の文書特徴表現計算装置。
- コンピュータを、請求項1ないし6のうちいずれか1項に記載の文書特徴表現計算装置における各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008128857A JP5244452B2 (ja) | 2008-05-15 | 2008-05-15 | 文書特徴表現計算装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008128857A JP5244452B2 (ja) | 2008-05-15 | 2008-05-15 | 文書特徴表現計算装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009277100A true JP2009277100A (ja) | 2009-11-26 |
JP5244452B2 JP5244452B2 (ja) | 2013-07-24 |
Family
ID=41442454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008128857A Active JP5244452B2 (ja) | 2008-05-15 | 2008-05-15 | 文書特徴表現計算装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5244452B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140184607A1 (en) * | 2012-12-28 | 2014-07-03 | Fujitsu Limited | Information processing apparatus and method for generating graphs |
JP2019159699A (ja) * | 2018-03-12 | 2019-09-19 | 富士通株式会社 | 生成プログラム、生成方法、情報処理装置および情報処理システム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08316842A (ja) * | 1995-05-15 | 1996-11-29 | N T T Data Tsushin Kk | ベクトル量子化のための代表ベクトル生成方式及び方法 |
JP2002014999A (ja) * | 2000-06-28 | 2002-01-18 | Matsushita Electric Ind Co Ltd | 類似文書検索装置及び関連キーワード抽出装置 |
JP2005149014A (ja) * | 2003-11-13 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書関連語彙獲得方法及び装置及びプログラム |
JP2006331245A (ja) * | 2005-05-30 | 2006-12-07 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置、情報検索方法およびプログラム |
-
2008
- 2008-05-15 JP JP2008128857A patent/JP5244452B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08316842A (ja) * | 1995-05-15 | 1996-11-29 | N T T Data Tsushin Kk | ベクトル量子化のための代表ベクトル生成方式及び方法 |
JP2002014999A (ja) * | 2000-06-28 | 2002-01-18 | Matsushita Electric Ind Co Ltd | 類似文書検索装置及び関連キーワード抽出装置 |
JP2005149014A (ja) * | 2003-11-13 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書関連語彙獲得方法及び装置及びプログラム |
JP2006331245A (ja) * | 2005-05-30 | 2006-12-07 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置、情報検索方法およびプログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140184607A1 (en) * | 2012-12-28 | 2014-07-03 | Fujitsu Limited | Information processing apparatus and method for generating graphs |
US9633457B2 (en) * | 2012-12-28 | 2017-04-25 | Fujitsu Limited | Apparatus and method for automatically determining graph types, based on analysis of electronic document |
JP2019159699A (ja) * | 2018-03-12 | 2019-09-19 | 富士通株式会社 | 生成プログラム、生成方法、情報処理装置および情報処理システム |
JP7013957B2 (ja) | 2018-03-12 | 2022-02-01 | 富士通株式会社 | 生成プログラム、生成方法、情報処理装置および情報処理システム |
Also Published As
Publication number | Publication date |
---|---|
JP5244452B2 (ja) | 2013-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7315748B2 (ja) | データ識別器訓練方法、データ識別器訓練装置、プログラム及び訓練方法 | |
CN106886599B (zh) | 图像检索方法以及装置 | |
Tokdar et al. | Importance sampling: a review | |
JP5408128B2 (ja) | 画像処理装置、画像処理方法、処理装置、およびプログラム | |
US8595155B2 (en) | Kernel regression system, method, and program | |
CN112417028B (zh) | 一种风速时序特征挖掘方法及短期风电功率预测方法 | |
JP5755823B1 (ja) | 類似度算出システム、類似度算出方法およびプログラム | |
JP7151654B2 (ja) | 検索装置、学習装置、検索システム、検索プログラム、及び学習プログラム | |
CN109800853B (zh) | 融合卷积神经网络和显式反馈的矩阵分解方法、装置及电子设备 | |
CN112364942B (zh) | 信贷数据样本均衡方法、装置、计算机设备及存储介质 | |
CN113255842A (zh) | 车辆置换预测方法、装置、设备及存储介质 | |
JP2013097723A (ja) | テキスト要約装置、方法及びプログラム | |
CN110472659B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
JP5244452B2 (ja) | 文書特徴表現計算装置、及びプログラム | |
CN113869332A (zh) | 一种特征选择方法、装置、存储介质和设备 | |
JP5623369B2 (ja) | テキスト要約装置、方法及びプログラム | |
JP6586026B2 (ja) | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム | |
JP6647475B2 (ja) | 言語処理装置、言語処理システムおよび言語処理方法 | |
JP4099197B2 (ja) | 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体 | |
JP5008137B2 (ja) | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 | |
JP5295037B2 (ja) | ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム | |
JP7438544B2 (ja) | ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法 | |
JP6482084B2 (ja) | 文法規則フィルターモデル学習装置、文法規則フィルター装置、構文解析装置、及びプログラム | |
JP2009295130A (ja) | 画像解析装置、画像登録装置および画像検索装置 | |
CN110659962A (zh) | 一种商品信息输出方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100817 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130408 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |