JP5008137B2 - 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 - Google Patents
単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP5008137B2 JP5008137B2 JP2007288653A JP2007288653A JP5008137B2 JP 5008137 B2 JP5008137 B2 JP 5008137B2 JP 2007288653 A JP2007288653 A JP 2007288653A JP 2007288653 A JP2007288653 A JP 2007288653A JP 5008137 B2 JP5008137 B2 JP 5008137B2
- Authority
- JP
- Japan
- Prior art keywords
- genre
- word
- word vector
- vector
- appearance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
XijYiZj …式(1)
として算出する。ここで、Xijは文書j内の単語iの出現頻度から定まる重み、Yiは単語iの文書集合全体にわたる分布から定まる重み、Zjは文書jの長さを正規化するための係数である。
Chisholm,E. and Kolda,T.G., New term weighting formulas for the vector space method in information retrieval, Technical Memorandum ORNL/TM-13756, Oak Ridge National Laboratory, 1999.
11…出現頻度算出手段、
12…ジャンル内出現確率算出手段、
13…第1単語ベクトル生成手段、
200…第2単語ベクトル生成装置、
21…第2単語ベクトル初期化手段、
22…第2単語ベクトル更新手段、
23…第2単語ベクトル正規化手段。
Claims (6)
- ジャンルの集合と、各ジャンルに対応付けられた文書の集合とを入力とし、
各単語が、各ジャンルに対応付けられた文書の集合に出現する頻度を算出する出現頻度算出手段と;
各ジャンル毎に、上記出現頻度算出手段で得られた各単語の出現頻度を、当該ジャンルでの各単語の出現頻度の総和で除することにより、各単語のジャンル内出現確率を算出するジャンル内出現確率算出手段と;
各単語毎に、上記ジャンル内出現確率算出手段で得られた各ジャンル内出現確率を、当該単語での各ジャンル内出現確率の総和で除することにより、各ジャンルとの関連度を算出し、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルを生成する第1単語ベクトル生成手段と;
からなることを特徴とする第1単語ベクトル生成装置。 - 各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルと、コーパスとを入力とし、
コーパス中の各単語毎に、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第2の単語ベクトルを初期化する第2単語ベクトル初期化手段と;
コーパスを分割して得られる各範囲毎に、該範囲中に出現する単語の上記第1の単語ベクトルを加算し、その結果得られたベクトルを、該範囲中の各単語に対応する上記第2の単語ベクトルに加算し、この処理を全ての範囲にわたって繰り返す第2単語ベクトル更新手段と;
上記第2の単語ベクトルの各座標値を正規化する第2単語ベクトル正規化手段と;
からなることを特徴とする第2単語ベクトル生成装置。 - ジャンルの集合と、各ジャンルに対応付けられた文書の集合とを入力とし、
各単語が、各ジャンルに対応付けられた文書の集合に出現する頻度を、出現頻度算出手段が算出し、記憶装置に記憶する出現頻度算出工程と;
各ジャンル毎に、上記出現頻度算出手段で得られた各単語の出現頻度を、当該ジャンルでの各単語の出現頻度の総和で除することにより、各単語のジャンル内出現確率を算出し、記憶装置に記憶するジャンル内出現確率算出工程と;
各単語毎に、上記ジャンル内出現確率算出手段で得られた各ジャンル内出現確率を、当該単語での各ジャンル内出現確率の総和で除することにより、各ジャンルとの関連度を算出し、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルを生成し、記憶装置に記憶する第1単語ベクトル生成工程と;
からなることを特徴とする第1単語ベクトル生成方法。 - 各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルと、コーパスとを入力とし、
コーパス中の各単語毎に、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第2の単語ベクトルを、第2単語ベクトル初期化手段が、初期化し、記憶装置に記憶する第2単語ベクトル初期化工程と;
コーパスを分割して得られる各範囲毎に、該範囲中に出現する単語の上記第1の単語ベクトルを、第2単語ベクトル更新手段が、加算し、その結果得られたベクトルを、該範囲中の各単語に対応する上記第2の単語ベクトルに加算し、記憶装置に記憶し、この処理を全ての範囲にわたって繰り返す第2単語ベクトル更新工程と;
上記第2の単語ベクトルの各座標値を、第2単語ベクトル正規化手段が、正規化し、記憶装置に記憶する第2単語ベクトル正規化工程と;
からなることを特徴とする第2単語ベクトル生成方法。 - 請求項1記載の第1単語ベクトル生成装置または請求項2記載の第2単語ベクトル生成装置を構成する各手段としてコンピュータを機能させるプログラム。
- 請求項5記載のプログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007288653A JP5008137B2 (ja) | 2007-11-06 | 2007-11-06 | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007288653A JP5008137B2 (ja) | 2007-11-06 | 2007-11-06 | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009116593A JP2009116593A (ja) | 2009-05-28 |
JP5008137B2 true JP5008137B2 (ja) | 2012-08-22 |
Family
ID=40783681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007288653A Expired - Fee Related JP5008137B2 (ja) | 2007-11-06 | 2007-11-06 | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5008137B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011042946A1 (ja) * | 2009-10-05 | 2011-04-14 | 株式会社 東芝 | 類似コンテンツ検索装置及びプログラム |
JP5154535B2 (ja) * | 2009-12-25 | 2013-02-27 | ヤフー株式会社 | スコア付形態素辞書の生成装置、方法、及びプログラム |
CN102141977A (zh) * | 2010-02-01 | 2011-08-03 | 阿里巴巴集团控股有限公司 | 一种文本分类的方法及装置 |
JP5362649B2 (ja) * | 2010-05-24 | 2013-12-11 | 日本電信電話株式会社 | 文字列ベクトル変換装置、文字列ベクトル変換方法、プログラム、及びプログラムを格納したコンピュータ読み取り可能な記録媒体 |
-
2007
- 2007-11-06 JP JP2007288653A patent/JP5008137B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009116593A (ja) | 2009-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
KR101778679B1 (ko) | 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템 | |
US8918348B2 (en) | Web-scale entity relationship extraction | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
US20180189271A1 (en) | Apparatus and method for verifying sentence | |
JP7070653B2 (ja) | 学習装置、音声認識順位推定装置、それらの方法、およびプログラム | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
CN111400584A (zh) | 联想词的推荐方法、装置、计算机设备和存储介质 | |
JP5008137B2 (ja) | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 | |
JP2017151926A (ja) | 情報処理プログラム、情報処理装置および情報処理方法 | |
JP5373998B1 (ja) | 辞書生成装置、方法、及びプログラム | |
JP2013097723A (ja) | テキスト要約装置、方法及びプログラム | |
CN106776782B (zh) | 基于人工智能的语义相似度获取方法及装置 | |
JP6340351B2 (ja) | 情報検索装置、辞書作成装置、方法、及びプログラム | |
JP7389389B2 (ja) | 処理装置、処理方法および処理プログラム | |
Liu et al. | Boosting feature selection using information metric for classification | |
JP5623369B2 (ja) | テキスト要約装置、方法及びプログラム | |
JP4594992B2 (ja) | 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 | |
JP6495206B2 (ja) | 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム | |
JP5211000B2 (ja) | ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム | |
JP4537970B2 (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
JP2017174009A (ja) | 事態間知識抽出装置、事態間知識抽出方法、及びプログラム | |
JP2019021206A (ja) | 学習装置、プログラムパラメータ、学習方法およびモデル | |
JP5755603B2 (ja) | 言語モデル作成装置、言語モデル作成方法、プログラム | |
JP2012053848A (ja) | データ可視化装置、データ変換装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120525 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120525 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150608 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |