JP5116580B2 - 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents

他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP5116580B2
JP5116580B2 JP2008166340A JP2008166340A JP5116580B2 JP 5116580 B2 JP5116580 B2 JP 5116580B2 JP 2008166340 A JP2008166340 A JP 2008166340A JP 2008166340 A JP2008166340 A JP 2008166340A JP 5116580 B2 JP5116580 B2 JP 5116580B2
Authority
JP
Japan
Prior art keywords
language
word
concept
vector
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008166340A
Other languages
English (en)
Other versions
JP2010009238A (ja
Inventor
俊郎 内山
直人 阿部
克人 別所
雅博 奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008166340A priority Critical patent/JP5116580B2/ja
Publication of JP2010009238A publication Critical patent/JP2010009238A/ja
Application granted granted Critical
Publication of JP5116580B2 publication Critical patent/JP5116580B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、単語や文書の特徴をベクトルで表す他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に関する。
2つの自然言語(言語A,言語Bと記す)があり、一方の言語Aについて単語の特徴を表すベクトル(これを言語Aの概念ベースと呼ぶ)が登録されているときに、他方の言語Bで使用される単語を言語Aで使用される単語で説明するデータベース(2言語辞書)を用いて、言語Bの単語の特徴を表す(言語Bの概念ベースと呼ぶ)を生成する方法がある(例えば、特許文献1参照)。
特開2003−345828号公報
上記の従来技術は、日本語の単語の特徴をベクトル(これを概念ベクトルと呼ぶ)で表す概念ベースがある場合に、2言語辞書として英和辞典を用い、英語の単語の特徴をベクトルで表す概念ベースを構築することができる。しかし、英語の固有名詞(人名、地名、企業名、団体名、…)については、「Florida」のように有名な地名や人名を除いて対応する日本語がないことが多い。また、それをカタカナで表記したとしても、日本語においてよく使われている単語でなければ、そのカタカナ表記に対応するベクトルが存在しない。このように固有名詞については対応する概念ベクトルを算出することが難しい。そのため、固有名詞を含んだ文書の特徴を概念ベクトルで表す場合に精度が低下するという問題がある。
本発明は、上記の点に鑑みなされたもので、概念ベースを持たない言語において、固有名詞を含んだ概念ベクトルを高精度に算出することが可能な他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、言語Aと言語Bの2つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成装置であって、
言語Bの見出し語が言語Aで説明されている2言語辞書を格納した2言語辞書記憶手段40と、
言語Bの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Bの固有名詞の意味カテゴリ表を格納した言語B固有名詞意味カテゴリ表記憶手段50と、
言語Aの単語に対応する概念ベクトルを格納した言語A概念ベース記憶手段60と、
言語Bの単語が2言語辞書記憶手段40に登録されていない場合に、該言語Bの単語に基づいて、言語B固有名詞意味カテゴリ表記憶手段50を参照して、該単語に対応付けられている意味カテゴリ名を取得し、該意味カテゴリ名に基づいて言語A概念ベース記憶手段60を参照して、該言語Bの単語の概念ベクトルを生成する単語概念ベース生成手段10と、を有する。
また、本発明(請求項2)は、単語概念ベース生成手段10において、
生成された言語Bの単語の概念ベクトルを言語B単語概念ベース記憶手段に格納する手段含み、
言語Bの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出手段と、
単語に基づいて言語B単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力する手段と、
を更に有する。
図2は、本発明の原理を説明するための図である。
本発明(請求項3)は、言語Aと言語Bの2つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成方法であって、
言語Bの見出し語が言語Aで説明されている2言語辞書を格納した2言語辞書記憶手段と、
言語Bの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Bの固有名詞の意味カテゴリ表を格納した言語B固有名詞意味カテゴリ表記憶手段と、
言語Aの単語に対応する概念ベクトルを格納した言語A概念ベース記憶手段と、
単語概念ベース生成手段と、を有する装置において、
単語概念ベース生成手段が、言語Bの単語が2言語辞書記憶手段に登録されていない場合に(ステップ1、No)、該言語Bの単語に基づいて、言語B固有名詞意味カテゴリ表記憶手段を参照して、該単語に対応付けられている意味カテゴリ名を取得し(ステップ2)、該意味カテゴリ名に基づいて言語A概念ベース記憶手段を参照して、該言語Bの単語の概念ベクトルを生成する単語概念ベース生成ステップを行う(ステップ3)。
また、本発明(請求項4)は、単語概念ベース生成ステップ(ステップ3)において、
生成された言語Bの単語の概念ベクトルを言語B単語概念ベース記憶手段に格納するステップを含み、
単語頻度算出手段が、言語Bの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出ステップと、
単語に基づいて言語B単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力するステップと、
を更に行う。
本発明(請求項5)は、請求項1または2に記載の他言語の概念ベクトル生成装置を構成する各手段としてコンピュータを機能させるための他言語の概念ベクトル生成プログラムである。
本発明(請求項6)は、請求項5記載の他言語の概念ベクトル生成プログラムを格納したコンピュータ読取可能な記録媒体である。
上記のように本発明によれば、概念ベースを持たない言語Bについては、当該言語Bの固有名詞の意味カテゴリを表す意味カテゴリ表に言語Bの単語(固有名詞)が含まれていれば、その固有名詞に対応付けられている意味カテゴリ名をもとに、概念ベースを持つ言語Aの単語の概念ベクトルを用いて概念ベクトルを生成するため、言語Bについて、固有名詞を含んだ文書の概念ベクトルを、従来より高精度に算出することができ、類似文書や文書分類などの精度を高めることができる。
以下、図面と共に本発明の実施の形態を説明する。
以下では、言語Bが単語概念ベースを持たないものとして説明する。
図3は、本発明の一実施の形態における他言語の概念ベクトル生成装置の構成を示す。
同図に示す他言語の概念ベクトル生成装置は、単語概念生成部10、単語頻度算出部20、文書ベクトル算出部30、2言語辞書40、言語Bの固有名所の意味カテゴリ表50、言語A単語概念ベース60、言語B単語頻度概念ベース70から構成される。
本実施の形態では、上記の2言語辞書40、言語Bの固有名所の意味カテゴリ表50、言語A単語概念ベース60、言語B単語頻度概念ベース70は、データベースに格納されているものとして説明する。
2言語辞書40は、言語Bの見出し語が言語Aで説明されている辞書である。
言語Bの固有名詞の意味カテゴリ表50は、(Bayfield→地名)のようにより抽象化された意味カテゴリへの対応が示されている。意味カテゴリは2言語辞書40により言語Aで説明できれば、言語Bで表されていても構わない。
言語Aの単語概念ベース60は、言語Aに関し単語に対応する概念ベクトルが格納されている。
単語概念ベース生成部10では、上記の2言語辞書40、言語Bの固有名所の意味カテゴリ表50、言語A単語概念ベース60の要素から言語Bの単語概念ベース70を生成する。詳細については図4において説明する。
単語頻度算出部20は、言語Bの文書が入力されると、言語B単語概念ベース70を参照することにより当該文書の特徴を表す文書ベクトル(=文書概念ベクトル)を算出する。
図4は、本発明の一実施の形態における動作のフローチャートである。
ステップ101) まず、単語概念ベース生成部10において、2言語辞書40に言語Bの単語に関する説明語があるかを判定し、ある場合はステップ102に移行し、ない場合はステップ103に移行する。
ステップ102) 単語概念ベース生成部10は、言語Bの単語について、2言語辞書40で説明されている単語に関して、前述の特許文献1で示されている方法により、言語Aによる説明語の個々に対して言語Aの単語概念ベース60からベクトルを取り出して対応する言語Bの単語概念ベクトルを算出し、ステップ104に移行する。
ステップ103) 一方、2言語辞書40で説明されていない場合、つまり、言語Bの単語が2言語辞書40に記載されていない場合は、当該言語Bの単語(固有名詞)に基づいて、言語Bの固有名詞の意味カテゴリ表50を参照して、当該固有名詞に対応付けられている意味カテゴリ名を取得し、当該意味カテゴリ名に基づいて、言語A単語概念ベース60を参照して概念ベクトルを生成する。
ステップ104) 上記のステップ102、または、ステップ103で算出された言語Bの単語についての概念ベクトルを束ねて言語Bの単語概念ベース70に格納する。
ステップ105) 上記のステップ104までの処理で言語Bの単語概念ベース70が生成された後に、言語Bの文書が入力される。
ステップ106) 単語頻度算出部20は、言語Bの文書が入力されると、形態素解析によって文書を単語に分割し、単語が文書に出現する頻度を求め、メモリ(図示せず)に格納する。
ステップ107) 次に、文書ベクトル算出部30において、ステップ105で得られた単語に基づいて、言語B単語概念ベース70を参照することにより、単語をベクトルに変換する。
ステップ108) ステップ106において求められた単語の出現頻度により加重平均をとり、これを文書ベクトルとして出力する。
なお、上記の図3に示す構成要素の動作をプログラムとして構築し、他言語の概念ベクトル生成装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、自然言語処理技術の特に、2つの自然言語の概念ベースを生成する技術に適用可能である。
本発明の原理構成図である。 本発明の原理を説明するための図である。 本発明の一実施の形態における他言語の概念ベクトル生成装置の構成図である。 本発明の一実施の形態における動作のフローチャートである。
符号の説明
10 単語概念ベース生成手段
20 単語頻度算出部
30 文書ベクトル算出部
40 2言語辞書記憶手段、2言語辞書
50 言語B固有名詞意味カテゴリ表記憶手段、言語Bの固有名詞の意味カテゴリ表
60 言語A概念ベース記憶手段、言語A単語概念ベース
70 言語B単語概念ベース

Claims (6)

  1. 言語Aと言語Bの2つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成装置であって、
    前記言語Bの見出し語が前記言語Aで説明されている2言語辞書を格納した2言語辞書記憶手段と、
    前記言語Bの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Bの固有名詞の意味カテゴリ表を格納した言語B固有名詞意味カテゴリ表記憶手段と、
    前記言語Aの単語に対応する概念ベクトルを格納した言語A概念ベース記憶手段と、
    前記言語Bの単語が前記2言語辞書記憶手段に登録されていない場合に、該言語Bの単語に基づいて、前記言語B固有名詞意味カテゴリ表記憶手段を参照して、該単語に対応付けられている意味カテゴリ名を取得し、該意味カテゴリ名に基づいて前記言語A概念ベース記憶手段を参照して、該言語Bの単語の概念ベクトルを生成する単語概念ベース生成手段と、
    を有することを特徴とする他言語の概念ベクトル生成装置。
  2. 前記単語概念ベース生成手段は、
    生成された前記言語Bの単語の概念ベクトルを言語B単語概念ベース記憶手段に格納する手段含み、
    言語Bの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出手段と、
    前記単語に基づいて前記言語B単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、前記出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力する手段と、
    を更に有する請求項1記載の他言語の概念ベクトル生成装置。
  3. 言語Aと言語Bの2つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成方法であって、
    前記言語Bの見出し語が前記言語Aで説明されている2言語辞書を格納した2言語辞書記憶手段と、
    前記言語Bの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Bの固有名詞の意味カテゴリ表を格納した言語B固有名詞意味カテゴリ表記憶手段と、
    前記言語Aの単語に対応する概念ベクトルを格納した言語A概念ベース記憶手段と、
    単語概念ベース生成手段と、を有する装置において、
    前記単語概念ベース生成手段が、前記言語Bの単語が前記2言語辞書記憶手段に登録されていない場合に、該言語Bの単語に基づいて、前記言語B固有名詞意味カテゴリ表記憶手段を参照して、該単語に対応付けられている意味カテゴリ名を取得し、該意味カテゴリ名に基づいて前記言語A概念ベース記憶手段を参照して、該言語Bの単語の概念ベクトルを生成する単語概念ベース生成ステップを行う
    ことを特徴とする他言語の概念ベクトル生成方法。
  4. 前記単語概念ベース生成ステップにおいて、
    生成された前記言語Bの単語の概念ベクトルを言語B単語概念ベース記憶手段に格納するステップを更に行い、
    単語頻度算出手段が、言語Bの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出ステップと、
    前記単語に基づいて前記言語B単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、前記出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力するステップと、
    を行う請求項3記載の他言語の概念ベクトル生成方法。
  5. 請求項1または2に記載の他言語の概念ベクトル生成装置を構成する各手段としてコンピュータを機能させるための他言語の概念ベクトル生成プログラム。
  6. 請求項5記載の他言語の概念ベクトル生成プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。
JP2008166340A 2008-06-25 2008-06-25 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 Expired - Fee Related JP5116580B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008166340A JP5116580B2 (ja) 2008-06-25 2008-06-25 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008166340A JP5116580B2 (ja) 2008-06-25 2008-06-25 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2010009238A JP2010009238A (ja) 2010-01-14
JP5116580B2 true JP5116580B2 (ja) 2013-01-09

Family

ID=41589672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008166340A Expired - Fee Related JP5116580B2 (ja) 2008-06-25 2008-06-25 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Country Status (1)

Country Link
JP (1) JP5116580B2 (ja)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3289894B2 (ja) * 1990-11-30 2002-06-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳知識獲得方法及び装置並びに翻訳処理方法及び装置
JPH07210568A (ja) * 1994-01-19 1995-08-11 Oki Electric Ind Co Ltd ファイル管理装置
JPH096799A (ja) * 1995-06-19 1997-01-10 Sharp Corp 文書分類装置及び文書検索装置
JPH1173420A (ja) * 1997-08-28 1999-03-16 Sharp Corp 文書処理装置及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体
US7711547B2 (en) * 2001-03-16 2010-05-04 Meaningful Machines, L.L.C. Word association method and apparatus
JP2003108579A (ja) * 2001-09-28 2003-04-11 Toshiba Corp 文書検索装置及び文書検索方法
JP3875143B2 (ja) * 2002-05-24 2007-01-31 日本電信電話株式会社 単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体
JP4325938B2 (ja) * 2004-10-15 2009-09-02 日本電信電話株式会社 単語配置装置、単語配置方法およびプログラム
JP2006163953A (ja) * 2004-12-08 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> 単語ベクトル推定方法、単語ベクトル推定装置、プログラムおよび記録媒体
JP2006331245A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム
JP2006338342A (ja) * 2005-06-02 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
JP4099197B2 (ja) * 2006-05-29 2008-06-11 日本電信電話株式会社 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体

Also Published As

Publication number Publication date
JP2010009238A (ja) 2010-01-14

Similar Documents

Publication Publication Date Title
JP6310150B2 (ja) 意図理解装置、方法およびプログラム
Cohn et al. Sentence compression beyond word deletion
US8589148B2 (en) Natural language watermarking
JP6328260B2 (ja) 意図推定装置及び意図推定方法
JP2004355483A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
US20100125459A1 (en) Stochastic phoneme and accent generation using accent class
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP5564705B2 (ja) 文構造解析装置、文構造解析方法および文構造解析プログラム
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
JP2010055236A (ja) 文抽出および文短縮を組合せた文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体
JP5116580B2 (ja) 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP5976037B2 (ja) モデル学習装置、ランキング装置、方法、及びプログラム
JP4940251B2 (ja) 文書処理プログラム及び文書処理装置
JP5398638B2 (ja) 記号入力支援装置、記号入力支援方法、及びプログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP2009129405A (ja) 感情推定装置、事例感情情報生成装置、及び感情推定プログラム
JP7435740B2 (ja) 音声認識装置、制御方法、及びプログラム
JP2005157823A (ja) 知識ベースシステム、および同システムにおける単語間の意味関係判別方法、ならびにそのコンピュータプログラム
JP2011180836A (ja) 記号変換装置、記号変換方法、記号変換プログラム
JP2003263432A (ja) 翻字装置及びそのプログラム
JP6569543B2 (ja) 短縮文生成装置、方法およびプログラム。
WO2019044583A1 (ja) コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
JP5755698B2 (ja) 述語項構造解析方法、モデル学習方法、装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121009

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121016

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees