JP4499003B2 - 情報処理方法及び装置及びプログラム - Google Patents
情報処理方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP4499003B2 JP4499003B2 JP2005256961A JP2005256961A JP4499003B2 JP 4499003 B2 JP4499003 B2 JP 4499003B2 JP 2005256961 A JP2005256961 A JP 2005256961A JP 2005256961 A JP2005256961 A JP 2005256961A JP 4499003 B2 JP4499003 B2 JP 4499003B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- semantic information
- document
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
H. Schutze, Dimensions of Meaning, Proc. of Supercomputing ’92, pp.786-796, 1992
農園( 2 , 48 , 8 ) 26
菜園( 1 , 7 , 55 ) 23
交通( 65 , 1 , 2 ) 1
本発明は、上記の点に鑑みなされたもので、それを用いた言語処理において、さらに精度向上を図ることが可能な高品質な、単語の意味表現としてのベクトルを生成することが可能な情報処理方法及び装置およびプログラムを提供することを目的とする。
ベクトル初期化手段が、テキスト中の単語・意味情報列抽出ステップで得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化ステップと、
意味情報頻度算出手段が、テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出ステップ(ステップ2)と、
ベクトル更新手段が、テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する共起頻度行列中の行ベクトルの全てに対し、意味情報頻度算出ステップで頻度を算出した各意味情報の成分に該意味情報の頻度を加算する(ステップ3)ベクトル更新ステップと、
制御手段が、意味情報頻度算出ステップとベクトル更新ステップを、テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御ステップと、
からなる。
特異値分解手段が、制御ステップによって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解ステップを更に行う。
文書ベクトル生成手段が、
文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、制御ステップまたは特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成ステップを更に行う。
入力文ベクトル生成手段が、
適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、制御ステップまたは特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成ステップと、
適合度算出手段が、入力文ベクトル生成ステップによって生成された入力文ベクトルと、文書ベクトル生成ステップによって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を適合度算出用のテキストに対する適合度とする適合度算出ステップと、を更に行う。
クラスタリング手段が、
文書ベクトル生成ステップによって生成された文書ベクトルに基づいて、文書をクラスタリングするクラスタリングステップを更に行う。
データベース121を参照することにより、入力されたテキストから、単語と該単語の意味情報の組の列を抽出する単語・意味情報列抽出手段111と、
テキスト中の単語・意味情報列抽出手段111で得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化手段112と、
テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出手段114と、
テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する共起頻度行列中の行ベクトルの全てに対し、意味情報頻度算出手段114で頻度を算出した各意味情報の成分に該意味情報の頻度を加算するベクトル更新手段115と、
意味情報頻度算出手段114とベクトル更新手段115の処理を、テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御を行う制御手段113と、を有する。
制御手段113によって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解手段を更に有する。
文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、制御手段113または特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成手段を更に有する。
適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、制御手段または特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成手段と、
入力文ベクトル生成手段によって生成された入力文ベクトルと、文書ベクトル生成手段によって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を適合度算出用のテキストに対する適合度とする適合度算出手段と、を更に有する。
文書ベクトル生成手段によって生成された各文書ベクトルに基づいて、文書をクラスタリングするクラスタリング手段を更に有する。
農園( 2 , 82 )
菜園( 1 , 85 )
交通( 65 , 4 )
したがって、このようにして生成された単語ベクトルを使用した言語処理も高精度なものとなるという効果がある。
図3は、本発明の第1の実施の形態における情報処理装置の概要構成を示す。
本実施の形態では、前述の第1の実施の形態とは異なるベクトル生成部の構成・動作を説明する。
本実施の形態では、前述の第1、第2の実施の形態とは異なるベクトル生成部の構成・動作を説明する。
本実施の形態では、前述の第1〜第3の実施の形態とは異なるベクトル生成部の構成・動作を説明する。
本実施の形態では、前述の第1〜第4の実施の形態とは異なるベクトル生成部の構成・動作を説明する。
ベクトル生成部110は、上記の第1〜第5の実施の形態に限定されることなく、特許請求の範囲の請求項1及び請求項6で様々な構成を採用することができる。
図29は、本発明の第7の実施の形態における情報処理装置の構成図であり、図30は、本発明の第7の実施の形態における情報処理装置の動作のフローチャートである。図29では、図3の構成に特異値分解部130を加えた構成を示す。なお、ベクトル生成部110については、前述の第1〜第6の実施の形態のいずれかの構成を有するものとする。
図31は、本発明の第8の実施の形態における情報処理装置の構成図であり、図32は、本発明の第8の実施の形態における情報処理装置の動作のフローチャートである。
図33は、本発明の第9の実施の形態における情報処理装置の構成図であり、図34は、本発明の第9の実施の形態における情報処理装置の動作のフローチャートである。
(p1−q1)2+(p2−q2)2+…+(pn−qn)2
や、
図35は、本発明の第10の実施の形態における情報処理装置の構成図であり、図36は、本発明の第10の実施の形態における情報処理装置の動作のフローチャートである。
111 単語・意味情報列抽出手段、単語・意味情報列抽出部
112 ベクトル初期化手段、ベクトル初期化部
113 制御手段、制御部
114 意味情報頻度算出手段、意味情報頻度算出部
115 ベクトル更新手段、ベクトル更新部
121 データベース、単語・意味情報データベース
130 特異値分解部
140 文書ベクトル生成部
150 入力文ベクトル生成部
160 適合度算出部
170 クラスタリング部
201 単語列抽出部
202 意味情報取得部
205 意味情報頻度算出部
221 単語辞書
222 意味情報データベース
404 ベクトル更新部
505 ベクトル更新部
604 ベクトル更新部
Claims (11)
- 単語・意味情報列抽出手段が、単語と該単語の属する意味カテゴリである意味情報の組の集合を格納するデータベースを参照することにより、入力されたテキストから、単語と該単語の意味情報の組の列を抽出する単語・意味情報列抽出ステップと、
ベクトル初期化手段が、前記テキスト中の前記単語・意味情報列抽出ステップで得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化ステップと、
意味情報頻度算出手段が、前記テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出ステップと、
ベクトル更新手段が、前記テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する前記共起頻度行列中の行ベクトルの全てに対し、前記意味情報頻度算出ステップで頻度を算出した各意味情報の成分に該意味情報の頻度を加算するベクトル更新ステップと、
制御手段が、前記意味情報頻度算出ステップと前記ベクトル更新ステップを、前記テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御ステップと、
からなることを特徴とする情報処理方法。 - 特異値分解手段が、前記制御ステップによって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解ステップを更に行う請求項1記載の情報処理方法。
- 文書ベクトル生成手段が、
文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、前記制御ステップまたは前記特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成ステップを更に行う、請求項1または2記載の情報処理方法。 - 入力文ベクトル生成手段が、
適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、前記制御ステップまたは前記特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成ステップと、
適合度算出手段が、前記入力文ベクトル生成ステップによって生成された前記入力文ベクトルと、前記文書ベクトル生成ステップによって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を前記適合度算出用のテキストに対する適合度とする適合度算出ステップと、
を更に行う請求項3記載の情報処理方法。 - クラスタリング手段が、
前記文書ベクトル生成ステップによって生成された各文書ベクトルに基づいて、文書をクラスタリングするクラスタリングステップを更に行う請求項3記載の情報処理方法。 - 単語と該単語の属する意味カテゴリである意味情報の組の集合を格納するデータベースと、
前記データベースを参照することにより、入力されたテキストから、単語と該単語の意味情報の組の列を抽出する単語・意味情報列抽出手段と、
前記テキスト中の前記単語・意味情報列抽出手段で得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化手段と、
前記テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出手段と、
前記テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する前記共起頻度行列中の行ベクトルの全てに対し、前記意味情報頻度算出手段で頻度を算出した各意味情報の成分に該意味情報の頻度を加算するベクトル更新手段と、
前記意味情報頻度算出手段と前記ベクトル更新手段の処理を、前記テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御を行う制御手段と、
を有することを特徴とする情報処理装置。 - 前記制御手段によって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解手段を更に有する請求項6記載の情報処理装置。
- 文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、前記制御手段または前記特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成手段を更に有する、請求項6または7記載の情報処理装置。
- 適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、前記制御手段または前記特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成手段と、
前記入力文ベクトル生成手段によって生成された前記入力文ベクトルと、前記文書ベクトル生成手段によって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を前記適合度算出用のテキストに対する適合度とする適合度算出手段と、
を更に有する請求項8記載の情報処理装置。 - 前記文書ベクトル生成手段によって生成された文書ベクトルに基づいて、文書をクラスタリングするクラスタリング手段を更に有する請求項8記載の情報処理装置。
- コンピュータを、請求項6乃至10記載の情報処理装置として機能させることを特徴とする情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005256961A JP4499003B2 (ja) | 2005-09-05 | 2005-09-05 | 情報処理方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005256961A JP4499003B2 (ja) | 2005-09-05 | 2005-09-05 | 情報処理方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007072610A JP2007072610A (ja) | 2007-03-22 |
JP4499003B2 true JP4499003B2 (ja) | 2010-07-07 |
Family
ID=37934012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005256961A Active JP4499003B2 (ja) | 2005-09-05 | 2005-09-05 | 情報処理方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4499003B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5131923B2 (ja) * | 2008-11-11 | 2013-01-30 | 日本電信電話株式会社 | 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体 |
JP5057525B2 (ja) * | 2009-02-23 | 2012-10-24 | 日本電信電話株式会社 | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよび記録媒体 |
JP4982542B2 (ja) * | 2009-09-16 | 2012-07-25 | 日本電信電話株式会社 | 共起行列生成装置、共起行列生成方法、共起行列生成プログラムおよびそのプログラムを記録した記録媒体 |
JP5513985B2 (ja) * | 2010-05-24 | 2014-06-04 | 日本電信電話株式会社 | 文字列ベクトル生成装置、文字列ベクトル生成方法、プログラム、及びプログラムを格納したコンピュータ読み取り可能な記録媒体 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002230021A (ja) * | 2001-01-30 | 2002-08-16 | Canon Inc | 情報検索装置及び情報検索方法並びに記憶媒体 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2978044B2 (ja) * | 1993-10-18 | 1999-11-15 | シャープ株式会社 | 文書分類装置 |
JPH096799A (ja) * | 1995-06-19 | 1997-01-10 | Sharp Corp | 文書分類装置及び文書検索装置 |
-
2005
- 2005-09-05 JP JP2005256961A patent/JP4499003B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002230021A (ja) * | 2001-01-30 | 2002-08-16 | Canon Inc | 情報検索装置及び情報検索方法並びに記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2007072610A (ja) | 2007-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101079026B (zh) | 文本相似度、词义相似度计算方法和系统及应用系统 | |
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN103646112B (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
US20070174040A1 (en) | Word alignment apparatus, example sentence bilingual dictionary, word alignment method, and program product for word alignment | |
CN107273352B (zh) | 一种基于Zolu函数的词嵌入学习模型及训练方法 | |
JP2012524314A (ja) | データ検索およびインデクシングの方法および装置 | |
CN107102983B (zh) | 一种基于网络知识源的中文概念的词向量表示方法 | |
CN109783806A (zh) | 一种利用语义解析结构的文本匹配方法 | |
JP2015088064A (ja) | テキスト要約装置、方法、及びプログラム | |
JP4266222B2 (ja) | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 | |
JP7388256B2 (ja) | 情報処理装置及び情報処理方法 | |
JP2020106880A (ja) | 情報処理装置、モデル作成方法及びプログラム | |
JP4499003B2 (ja) | 情報処理方法及び装置及びプログラム | |
Gutiérrez-Fandiño et al. | Spanish legalese language model and corpora | |
CN109298796B (zh) | 一种词联想方法及装置 | |
Elbarougy et al. | Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers. | |
WO2019163752A1 (ja) | 形態素解析学習装置、形態素解析装置、方法、及びプログラム | |
JP4099197B2 (ja) | 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体 | |
Zouidine et al. | A comparative study of pre-trained word embeddings for Arabic sentiment analysis | |
Han et al. | Lexicalized neural unsupervised dependency parsing | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
Gupta et al. | Quality Estimation of Machine Translation Outputs Through Stemming | |
JP2007122525A (ja) | 言い換え処理方法及び装置 | |
Wang et al. | Chinese-Korean Weibo Sentiment Classification Based on Pre-trained Language Model and Transfer Learning | |
JP4314271B2 (ja) | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090519 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090901 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091102 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100413 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100414 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130423 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4499003 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140423 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |