JP2010186349A - 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents
代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Download PDFInfo
- Publication number
- JP2010186349A JP2010186349A JP2009030461A JP2009030461A JP2010186349A JP 2010186349 A JP2010186349 A JP 2010186349A JP 2009030461 A JP2009030461 A JP 2009030461A JP 2009030461 A JP2009030461 A JP 2009030461A JP 2010186349 A JP2010186349 A JP 2010186349A
- Authority
- JP
- Japan
- Prior art keywords
- word
- concept
- concept vector
- document
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本発明は、文書概念ベクトルを取得し、単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段から取得した該単語概念ベクトルと、決定済みの代表語概念ベクトルが蓄積されている代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し、文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納し、距離記憶手段に格納されている距離に基づいて代表語を出力する。
【選択図】図1
Description
文書概念ベクトル入力手段が、文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル取得ステップ(ステップ1)と、
距離計算手段が、単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段から該単語概念ベクトルを取得し(ステップ2)、決定済みの代表語概念ベクトルが蓄積されている代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し(ステップ3)、文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する(ステップ4)距離計算ステップと、
代表語出力手段が、距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力ステップ(ステップ5)と、を行う。
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを代表語概念ベクトルのひとつとして距離計算を行う。
単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段102と、
決定された代表語及び該代表語の概念ベクトルを蓄積する代表語概念ベクトル蓄積手段105と、
文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル入力手段101と、
単語概念ベクトル蓄積手段102から取得した該単語概念ベクトルと、代表語概念ベクトル蓄積手段105から代表語概念ベクトルを取得し、文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段107に格納する距離計算手段103と、
距離記憶手段107に格納されている距離に基づいて、代表語を出力する代表語出力手段106と、を有する。
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを代表語概念ベクトルのひとつとして距離計算を行う手段を含む。
最初は、代表語が決定されていないので(ステップ303、N)、選択された一つ目の単語概念ベクトルと文書概念ベクトルとの距離を計算し、距離記憶部107に格納する(ステップ304,305)。具体的には、図6に示す従来の距離計算方法を用いて、選択された単語概念ベクトルと文書概念ベクトルとの距離を計算する。従来の距離計算は、概念ベクトルOP→=(p1,…pN)(「→」はベクトルを示す)と、各単語概念ベクトルOQ→=(q1,…,qN)との距離は、点Pと点QとのEuclid距離もしくはKullback-Leibler距離として計算される。この方法により、単語概念ベクトルと文書概念ベクトルから1つ目の代表語を決定することができる。この一つ目の代表語の概念ベクトルを代表語概念ベクトル蓄積部105に格納する。
OS→=μOS1→+(1−μ)OQ→
で定義し、距離測度Dの下での、単語概念ベクトルOQ→と、文書概念ベクトルOP→及び代表語概念ベクトルOV1→との距離を、
102 単語概念ベクトル蓄積手段、単語概念ベクトル蓄積部
103 距離計算手段、距離計算部
104 代表語決定手段、代表語決定部
105 代表語概念ベクトル蓄積手段、代表語概念ベクトル蓄積部
106 代表語出力手段、代表語出力部
107 距離記憶手段、距離記憶部
Claims (6)
- 文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出方法であって、
文書概念ベクトル入力手段が、文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル取得ステップと、
距離計算手段が、単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段から取得した該単語概念ベクトルと、決定済みの代表語概念ベクトルが蓄積されている代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し、前記文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する距離計算ステップと、
代表語出力手段が、前記距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力ステップと、
を行うことを特徴とする代表語抽出方法。 - 前記距離計算ステップにおいて、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを前記代表語概念ベクトルのひとつとして距離計算を行う
請求項1記載の代表語抽出方法。 - 文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出装置であって、
単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段と、
決定された代表語及び該代表語の概念ベクトルを蓄積する代表語概念ベクトル蓄積手段と、
文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル入力手段と、
前記単語概念ベクトル蓄積手段から取得した該単語概念ベクトルと、前記代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し、前記文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する距離計算手段と、
前記距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力手段と、
を有することを特徴とする代表語抽出装置。 - 前記距離計算手段は、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを前記代表語概念ベクトルのひとつとして距離計算を行う手段を含む
請求項3記載の代表語抽出装置。 - 請求項1または2に記載の代表語抽出方法の各ステップを実行するコンピュータを機能させるための代表語抽出プログラム。
- 請求項5記載の代表語抽出プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009030461A JP5164876B2 (ja) | 2009-02-12 | 2009-02-12 | 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009030461A JP5164876B2 (ja) | 2009-02-12 | 2009-02-12 | 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010186349A true JP2010186349A (ja) | 2010-08-26 |
JP5164876B2 JP5164876B2 (ja) | 2013-03-21 |
Family
ID=42766965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009030461A Expired - Fee Related JP5164876B2 (ja) | 2009-02-12 | 2009-02-12 | 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5164876B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017167986A (ja) * | 2016-03-17 | 2017-09-21 | ヤフー株式会社 | 判定装置、および判定方法 |
CN111026910A (zh) * | 2018-10-09 | 2020-04-17 | 北京奇虎科技有限公司 | 视频推荐方法、装置、电子设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07121549A (ja) * | 1993-10-21 | 1995-05-12 | Sharp Corp | 文書検索装置 |
JP2002230021A (ja) * | 2001-01-30 | 2002-08-16 | Canon Inc | 情報検索装置及び情報検索方法並びに記憶媒体 |
JP2008176489A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | テキスト判別装置およびテキスト判別方法 |
JP2008276386A (ja) * | 2007-04-26 | 2008-11-13 | Ricoh Co Ltd | 文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法 |
-
2009
- 2009-02-12 JP JP2009030461A patent/JP5164876B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07121549A (ja) * | 1993-10-21 | 1995-05-12 | Sharp Corp | 文書検索装置 |
JP2002230021A (ja) * | 2001-01-30 | 2002-08-16 | Canon Inc | 情報検索装置及び情報検索方法並びに記憶媒体 |
JP2008176489A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | テキスト判別装置およびテキスト判別方法 |
JP2008276386A (ja) * | 2007-04-26 | 2008-11-13 | Ricoh Co Ltd | 文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017167986A (ja) * | 2016-03-17 | 2017-09-21 | ヤフー株式会社 | 判定装置、および判定方法 |
CN111026910A (zh) * | 2018-10-09 | 2020-04-17 | 北京奇虎科技有限公司 | 视频推荐方法、装置、电子设备及计算机可读存储介质 |
CN111026910B (zh) * | 2018-10-09 | 2024-04-05 | 三六零科技集团有限公司 | 视频推荐方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5164876B2 (ja) | 2013-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101715432B1 (ko) | 단어쌍취득장치, 단어쌍취득방법 및 기록 매체 | |
US7424421B2 (en) | Word collection method and system for use in word-breaking | |
US9256649B2 (en) | Method and system of filtering and recommending documents | |
KR100706389B1 (ko) | 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치 | |
CN111324784A (zh) | 一种字符串处理方法及装置 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN110909539A (zh) | 语料库的词语生成方法、系统、计算机设备和存储介质 | |
JP2012524314A (ja) | データ検索およびインデクシングの方法および装置 | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
US9652997B2 (en) | Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme | |
JP2008077163A (ja) | 検索システム、検索方法及び検索プログラム | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN110008807B (zh) | 一种合同内容识别模型的训练方法、装置及设备 | |
JP5164876B2 (ja) | 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP2009277099A (ja) | 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP6427480B2 (ja) | 画像検索装置、方法、及びプログラム | |
JP5326387B2 (ja) | 経過情報出力方法および経過情報出力プログラム | |
JP2008197952A (ja) | テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2013045415A (ja) | 話題語獲得装置、方法、及びプログラム | |
Schmidt et al. | A concept for plagiarism detection based on compressed bitmaps | |
JP5213742B2 (ja) | 概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP2010267047A (ja) | 類義語辞書構築装置及び方法、コンピュータプログラム | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP2009104296A (ja) | 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121218 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5164876 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |