JP4499003B2 - 情報処理方法及び装置及びプログラム - Google Patents

情報処理方法及び装置及びプログラム Download PDF

Info

Publication number
JP4499003B2
JP4499003B2 JP2005256961A JP2005256961A JP4499003B2 JP 4499003 B2 JP4499003 B2 JP 4499003B2 JP 2005256961 A JP2005256961 A JP 2005256961A JP 2005256961 A JP2005256961 A JP 2005256961A JP 4499003 B2 JP4499003 B2 JP 4499003B2
Authority
JP
Japan
Prior art keywords
word
vector
semantic information
document
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005256961A
Other languages
English (en)
Other versions
JP2007072610A (ja
Inventor
克人 別所
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005256961A priority Critical patent/JP4499003B2/ja
Publication of JP2007072610A publication Critical patent/JP2007072610A/ja
Application granted granted Critical
Publication of JP4499003B2 publication Critical patent/JP4499003B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理方法及び装置及びプログラムに係り、特に、単語の意味表現であるベクトルを生成し、該ベクトルを用いて入力文に適合する文書を検索したり、文書集合をクラスタリングする情報処理方法及び装置及びプログラムに関する。
単語の意味表現としてのベクトルは、単語間の意味的類似性を定量化できるため、検索等の言語処理に適用され、精度向上に寄与している。
単語の意味表現であるベクトルを生成する方法として以下のようなものがある。コーパス中の単語の対の1文中における共起頻度を記録した単語・単語間の共起行列を作成する。共起行列の各行ベクトルは、対応する単語の他の単語との共起パターンを表している。ある2単語に対応する行ベクトルが近ければ、共起パターンが似ているので、この2単語は意味的に近いということが推測される。但し、行ベクトルの次元数は非常に大きなものとなるため、該ベクトルを用いた言語処理の計算量は莫大なものとなる。このため共起行列を特異値分解により列数を縮退させた行列に変換する。変換後の行列の各行ベクトルを、対応する単語の求めるべき意味表現としてのベクトルとする(例えば、非特許文献1参照)。
H. Schutze, Dimensions of Meaning, Proc. of Supercomputing ’92, pp.786-796, 1992
上記の、単語・単語間の共起行列の行ベクトルを、単語の意味表現としてのベクトルとして用いる方法では、該ベクトルを用いた言語処理の計算量を削減するため、次元数すなわち座標となる単語の数を制限する必要がある。また、上記の非特許文献の論文の方法のように、該共起行列を特異値分解により列数を縮退させた行列に変換し、変換後の行列の行ベクトルを、単語の意味表現としてのベクトルとして用いる方法でも、特異値分解の計算量の制約のため、共起行列の列数すなわち共起行列の行ベクトルの座標となる単語の数を制限する必要がある。
このため、座標となる単語から漏れる単語が多数あり、そのような単語との共起頻度は考慮されないという問題がある。例えば、以下の“きゅうり”との共起頻度が考慮されない。このような情報の欠落により、単語ベクトルの質が低下する。
また、座標となる単語の中には同じ意味情報をもつものがあり、それらの単語との共起頻度が別々にカウントされるため、単語ベクトルが適切なものではなくなるという問題がある。例えば、以下の“にんじん”と“かぼちゃ”は同じ意味情報を持つが、それらとの共起頻度が別々にカウントされるため、“農園”と“菜園”のベクトルが適切なものでなくなり、“農園”と“菜園”は意味的に近いにも関わらず、対応するベクトルは遠くなる。
二輪 にんじん かぼちゃ きゅうり
農園( 2 , 48 , 8 ) 26
菜園( 1 , 7 , 55 ) 23
交通( 65 , 1 , 2 ) 1
本発明は、上記の点に鑑みなされたもので、それを用いた言語処理において、さらに精度向上を図ることが可能な高品質な、単語の意味表現としてのベクトルを生成することが可能な情報処理方法及び装置およびプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、単語・意味情報列抽出手段が、単語と該単語の属する意味カテゴリである意味情報の組の集合を格納するデータベースを参照することにより、入力されたテキストから、単語と該単語の意味情報の組の列を抽出する単語・意味情報列抽出ステップ(ステップ1)と、
ベクトル初期化手段が、テキスト中の単語・意味情報列抽出ステップで得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化ステップと、
意味情報頻度算出手段が、テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出ステップ(ステップ2)と、
ベクトル更新手段が、テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する共起頻度行列中の行ベクトルの全てに対し、意味情報頻度算出ステップで頻度を算出した各意味情報の成分に該意味情報の頻度を加算する(ステップ3)ベクトル更新ステップと、
制御手段が、意味情報頻度算出ステップとベクトル更新ステップを、テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御ステップと、
からなる。
また、本発明(請求項2)は、請求項1の情報処理方法であって、
特異値分解手段が、制御ステップによって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解ステップを更に行う。
また、本発明(請求項3)は、請求項1または2の情報処理方法であって、
文書ベクトル生成手段が、
文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、制御ステップまたは特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成ステップを更に行う。
また、本発明(請求項4)は、請求項3の情報処理方法であって、
入力文ベクトル生成手段が、
適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、制御ステップまたは特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成ステップと、
適合度算出手段が、入力文ベクトル生成ステップによって生成された入力文ベクトルと、文書ベクトル生成ステップによって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を適合度算出用のテキストに対する適合度とする適合度算出ステップと、を更に行う。
本発明(請求項5)は、請求項3の情報処理方法であって、
クラスタリング手段が、
文書ベクトル生成ステップによって生成された文書ベクトルに基づいて、文書をクラスタリングするクラスタリングステップを更に行う。
図2は、本発明の原理構成図である。
本発明(請求項6)は、単語と該単語の属する意味カテゴリである意味情報の組の集合を格納するデータベース121と、
データベース121を参照することにより、入力されたテキストから、単語と該単語の意味情報の組の列を抽出する単語・意味情報列抽出手段111と、
テキスト中の単語・意味情報列抽出手段111で得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化手段112と、
テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出手段114と、
テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する共起頻度行列中の行ベクトルの全てに対し、意味情報頻度算出手段114で頻度を算出した各意味情報の成分に該意味情報の頻度を加算するベクトル更新手段115と、
意味情報頻度算出手段114とベクトル更新手段115の処理を、テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御を行う制御手段113と、を有する。
また、本発明(請求項7)は、請求項6の情報処理装置であって、
制御手段113によって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解手段を更に有する。
また、本発明(請求項8)は、請求項6または7の情報処理装置であって、
文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、制御手段113または特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成手段を更に有する。
また、本発明(請求項9)は、請求項8の情報処理装置であって、
適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、制御手段または特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成手段と、
入力文ベクトル生成手段によって生成された入力文ベクトルと、文書ベクトル生成手段によって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を適合度算出用のテキストに対する適合度とする適合度算出手段と、を更に有する。
また、本発明(請求項10)は、請求項8の情報処理装置であって、
文書ベクトル生成手段によって生成された各文書ベクトルに基づいて、文書をクラスタリングするクラスタリング手段を更に有する。

本発明(請求項11)は、コンピュータを、請求項6乃至10記載の情報処理装置として機能させるプログラムである。
上記のように本発明の特徴は、単語ベクトルを生成するのに、単語と意味情報との共起頻度をとる点にある。
このように、単語ではなく、意味情報との共起頻度をとることにより、同じ意味情報をもつ単語との共起頻度は、該意味情報との共起頻度情報の中に含まれるため、単語ベクトルが、より適切なものとなる。
また、意味情報の数は一般にそれほど多くはないため、全意味情報をベクトルの座標として採用することができる。このため、単語・単語間の共起をとる方法で、座標となる単語から漏れていた単語との共起頻度も、該単語の意味情報との共起頻度情報の中に含まれるため、単語ベクトルが、豊富な情報をもつようになる。
例えば、発明が解決しようとする課題で提示した例に対しては、“二輪”の意味情報は“車”で、“にんじん”、“かぼちゃ”、“きゅうり”の意味情報は“野菜”であり、各単語ベクトルは以下のようになる。意味的に近い“農園”と“菜園”のベクトルの値が近く、逆にそれらの単語と意味的に遠い“交通”のベクトルの値は遠くなり、人の感覚とよく一致した単語ベクトルが得られる。
車 野菜
農園( 2 , 82 )
菜園( 1 , 85 )
交通( 65 , 4 )
したがって、このようにして生成された単語ベクトルを使用した言語処理も高精度なものとなるという効果がある。
実際に、単語・単語間共起行列を特異値分解して得られた行列の各行ベクトルを単語ベクトルとする方法と、単語・意味情報間共起行列を特異値分解して得られた行列の各行ベクトルを単語ベクトルとする方法の精度の比較を行った。精度比較は、同一のテキストを入力として各方法により単語ベクトルを生成し、生成した単語ベクトルを用いた検索(請求項4、9の方法)の精度比較により行った。検索の精度評価のため、予め一つの検索対象文書と文意が同じで異なる表現の入力文を作成した。入力文を検索キーとして検索を実行して得られた検索結果における、該入力文に対応する文書の順位をrとしたとき、1/rの平均値(平均逆順位と呼ぶ)を精度の指標とした。検索対象文書は約10万文書で、入力文は4096文作成した。単語・単語間共起に基づく方法の精度は、0.186であったが、単語・意味情報間共起に基づく方法の精度は0.209であり、単語・意味情報間共起に基づく方法の方が高精度であった。
以下、図面と共に本発明の実施の形態を説明する。
以下の第1〜第6の実施の形態では、ベクトル生成部の様々なバリエーションを示し、第7〜第10の実施の形態では、情報処理装置の種々の構成を示している。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における情報処理装置の概要構成を示す。
同図に示す情報処理装置は、ベクトル生成部110とデータベース120から構成される。
ベクトル生成部110は、データベース120を参照することにより、入力されたテキストから単語列または意味情報列、または単語と該単語の意味情報の組の列を抽出し、任意の単語と任意の意味情報に対し、テキストにおける一つまたは複数の所定の範囲のそれぞれにおいて、単語と意味情報とが共起する事象を、テキスト全体にわたって計数した頻度を導出し、各単語に対し、各座標が意味情報に対応し、該座標の値が該単語と該意味情報との間で導出された頻度であるベクトルを生成する。
ここで、単語の意味情報とは、単語の属する意味カテゴリを表す。意味カテゴリとは一般に、事物を抽象化した概念である。これは、一般に、人が個々の単語の意味を吟味した上で得られるものである。意味カテゴリの集合は、一例として、図4で表されるような体系をなしている。図4では、各意味カテゴリを言葉として表現しているが、意味カテゴリ自体は必ずしも言葉として表現されているとは限らない概念である。各意味カテゴリには、それを特定するためのIDが付与されている。本実施の形態では、このIDを便宜上、意味情報と同一視する。
図5は、本発明の第1の実施の形態におけるベクトル生成部の構成図であり、図6は、本発明の第1の実施の形態におけるベクトル生成部の動作のフローチャートである。
図5に示すベクトル生成部110は、単語・意味情報列抽出部111、ベクトル初期化部112、制御部113、意味情報頻度算出部114、ベクトル更新部115から構成され、単語・意味情報列抽出部111には、単語・意味情報データベース121が接続されている。
単語・意味情報列抽出部111は、入力されたテキストを単語・意味情報データベース121を参照することにより、単語と当該単語の意味情報の組の列に変換する(ステップ101)。
図7は、本発明の第1の実施の形態におけるデータベースの内容の一例を示す。
同図では、単語・意味情報データベース121は、1レコードが1単語に関する情報となっており、1レコードは、カンマで区切られた3つの項目から構成されている。第1項目は単語の表記であり、第2項目は当該単語の品詞情報である。第3項目は該単語の意味情報である。一般に内容語には、一つまたは複数の意味情報が対応している。図7においては、複数の意味情報をコロンで区切っている。単語に関するこれらの情報は、一般に、人が個々の単語の品詞や意味を吟味した上で付与する。活用語に対しては、終止形も登録しておいてもよい。
単語・意味情報列抽出部111の処理は、例えば、形態素解析により行う。図8は、本発明の第1の実施の形態におけるテキストの例であり、図9は、図8のテキストの形態素解析結果の一例である。図9において、各形態素間は“/”で区切られており、各形態素は、単語表記と品詞情報と意味情報から成っている。単語・意味情報データベース121から終止形も取り出しておくことも可能であり、形態素解析後に、単語表記と品詞情報から、終止形も導出し記憶しておくことも可能である。終止形がない単語に対しては、単語表記を終止形とする。
ベクトル初期化部112では、図10のような、テキストにおける単語集合と意味情報集合との間の共起頻度行列を生成する(ステップ102)。単語集合における単語は通常、内容語に限られる。図10では、単語は単語表記ではなく終止形としている。共起行列における各行は、一単語に対応し、各列は一意味情報に対応する。各行ベクトルは、対応する単語の、各座標が意味情報に対応し、該座標の値が該単語と該意味情報との間の共起頻度であるようなベクトルである。ベクトル初期化部112では、各行ベクトルの全座標値を0にセットする。
制御部113では、単語と意味情報とが共起する頻度を算出する処理の対象となるテキスト中の範囲を決定する(ステップ103)。所定の範囲としては、一文、一段落や所定の数の単語の列等がある。
所定の範囲を一文とした場合は、テキスト中の最初の文を処理対象とする。当該文に関する処理が終了したならば、次の文を処理対象とする。以降同様に、処理対象とした文に関する処理が終了したらならば、その次の文を処理対象とする。最後の文に関する処理が終了したならば、処理対象の文はないので、ベクトル生成の処理を終了する。所定の範囲を、他のものとした場合も同様である。
意味情報頻度算出部114では、処理対象となっている範囲における意味情報の頻度を算出する(ステップ104)。各意味情報の頻度は、当該算出部114の処理を開始した時点では、0にセットしておき、次に当該範囲における各単語を最初から順にみていき、当該単語(通常、内容語に限る)中に意味情報が見つかる度に、当該意味情報の頻度を1だけ増加させる。
例として、処理対象の範囲を、図9で示しているある一文の形態素解析結果とする。最初の単語の“デパート”の意味情報が「41」なので、意味情報「41」の頻度を「1」とする。次の単語の“で”は、内容語でない単語なので、何もしない。次の単語の“米”の意味情報は「11」と「91」なので、意味情報「11」と「91」の頻度を共に「1」とする。次の単語の“と”は、内容語でない単語なので、何もしない。次の単語の“パン”の意味情報は「11」なので、意味情報「11」の頻度を1増やして「2」とする。次の単語の“を”は、内容語でない単語なので、何もしない。次の単語の“買う”の意味情報は「33」なので、意味情報「33」の頻度を「1」とする。次の単語の“、”は、内容語でない単語なので、何もしない。次の単語の“パン”の意味情報は「11」なので、意味情報「11」の頻度を1増やして「3」とする。次の単語の“を”は、内容語でない単語なので、何もしない。次の単語の“食べる”の意味情報は「35」なので、意味情報「35」の頻度を「1」とする。次の単語“た”は、内容語でない単語なので、何もしない。次の単語の“。”は、内容語でない単語なので、何もしない。以上の処理の結果、当該範囲における意味情報の頻度の情報は、図11のようになる。
ベクトル更新部115では、処理対象の範囲の単語列において、最初の単語から順番に各単語に対し、以下の処理を行う。
処理対象の単語(通常、内容語に限る)に対応する、単語集合と意味情報集合との間の共起頻度行列における行ベクトルの、意味情報頻度算出部114で頻度を算出した意味情報に対応する座標の値に、当該意味情報の算出した頻度を加算する(ステップ105)。
例として、処理対象の範囲を、図9で示しているある一文の形態素解析結果とする。最初の単語の“デパート”に対応するベクトルにおける、意味情報「41」「11」「91」「33」「35」に対応する座標の値に、各意味情報の算出した頻度を加算する。次の単語の“で”は、内容語でない単語なので、何もしない。以下、残りの単語“米”,“と”,“パン”,“を”,“買う”,“、”,“パン”,“を”,“食べる”,“た”,“。”について、順番に同様の処理を行う。ベクトル更新部115の結果、図10の共起頻度行列は、図12のようになる。
上記のベクトル更新手段115の処理が終了したら、制御部113の処理に戻り、処理対象の範囲がなくなるまで、制御部113、意味情報頻度算出部114、ベクトル更新部115の処理を繰り返す。
また、意味情報頻度算出部114とベクトル更新部115の処理を、以下のように実施することもできる。
意味情報頻度算出部114を開始した時点で、図13に示すような、各座標が意味情報に対応し、該座標の値が0にセットされているようなベクトルを生成する。次に、当該範囲における各単語を最初から順に見ていき、当該単語(通常、内容語に限る)中に意味情報が見つかる度に、当該意味情報に対応する座標の値を1だけ増加させる。処理対象の範囲が、図9で示しているある一文の形態素解析結果の場合、意味情報頻度算出部114の処理が終了した時点で、図13に示すベクトルは、図14の内容に変換される。
ベクトル更新部115では、処理対象の単語列において、最初の単語から順番に各単語に対し、以下の処理を行う。
処理対象の単語(通常、内容語に限る)に対応する、単語集合と意味情報集合との間の共起頻度行列における行ベクトルに、意味情報頻度算出部114で導出したベクトルを加算する。図10の共起頻度行列と図14のベクトルが得られているときに、ベクトル更新部115の処理を行うことにより、図12の共起行列が得られる。
ベクトル生成部110によって生成される、単語集合と意味情報集合との間の共起頻度行列における各行ベクトルは、対応する単語の意味表現である。
[第2の実施の形態]
本実施の形態では、前述の第1の実施の形態とは異なるベクトル生成部の構成・動作を説明する。
図15は、本発明の第2の実施の形態におけるベクトル生成部の構成図であり、図16は、本発明の第2の実施の形態におけるベクトル生成部の動作のフローチャートである。図15において、図5と同一構成部分については、同一符号を付し、その説明を省略する。
単語列抽出部201は、テキストを単語辞書221を参照することにより、単語列に変換する(ステップ201)。
図17は、本発明の第2の実施の形態における単語辞書の内容の一例を示す。同図では、1レコードが1単語に関する情報となっており、1レコードは、カンマで区切られた2つの項目から構成されている。第1項目は単語の表記であり、第2項目は当該単語の品詞情報である。品詞情報は一般に、人が個々の単語の品詞を吟味した上で付与する。活用語に対しては、終止形も登録しておいてもよい。
単語列抽出部201の処理は、例えば、形態素解析により行う。図18は、図8のテキストの形態素解析結果の一例である。各形態素間は“/”で区切られており、各形態素は、単語表記と品詞情報から成っている。単語辞書221から終止形も取り出しておくことも可能であり、また、形態素解析後に、単語表記と品詞情報から、終止形も導出し記憶しておくことも可能である。終止形がない単語に対しては、単語表記を終止形とする。
意味情報取得部202は、単語列抽出部201で得られた単語列における単語を最初から順に見ていき、当該単語(通常、内容語に限る)の終止形で、意味情報データベース222を検索して、当該単語の意味情報を取得する(ステップ202)。
図19は、意味情報データベース222の内容の一例を示す。同図では、1レコードが1単語に関する情報となっており、1レコードは、カンマで区切られた2つの項目から構成されている。第1項目は単語の終止形であり、第2項目は当該単語の意味情報である。一般に内容語には、1つまたは複数の意味情報が対応している。図19においては、複数の意味情報をコロンで区切っている。意味情報は、一般に、人が個々の単語の意味を吟味した上で付与する。
意味情報取得部202の処理では、取得した意味情報を並べることにより、所定の範囲毎の意味情報列を生成する。図18に示す単語列から図20に示す意味情報列が得られる。このように、意味情報列の中には、同一の意味情報が複数ある場合がある。
意味情報頻度算出部205では、処理対象の範囲の意味情報列における意味情報を最初から順に見ていき、意味情報の頻度をカウントしていく(ステップ205)。
ベクトル初期化部112、制御部113、ベクトル更新部115は、それぞれ、図5における構成の処理と同様の処理を行う。
意味情報取得部202では、単語列抽出部201で得られた単語列における単語(通常、内容語に限る)の表記と当該単語の品詞情報の組で、意味情報データベース222ではなく、図7のようなフォーマットの単語辞書221あるいは、単語・意味情報データベース121を検索して、当該単語の意味情報を取得するというようにしてもよい。
[第3の実施の形態]
本実施の形態では、前述の第1、第2の実施の形態とは異なるベクトル生成部の構成・動作を説明する。
図21は、本発明の第3の実施の形態におけるベクトル生成部の構成図であり、図22は、本発明の第3の実施の形態におけるベクトル生成部の動作のフローチャートである。図21において、図15と同一構成部分については、同一符号を付し、その説明を省略する。
本実施の形態におけるベクトル生成部110は、意味情報取得部202と意味情報データベース222が制御部113の後段に配置されている点において、前述の第2の実施の形態と異なる。これにより、意味情報取得部202の処理は、事前に全テキストに対して行うのではなく、制御部113で処理対象の範囲が決定された後に当該範囲内での意味情報取得処理を行うものである。
その他の処理については第2の実施の形態と同様である。
[第4の実施の形態]
本実施の形態では、前述の第1〜第3の実施の形態とは異なるベクトル生成部の構成・動作を説明する。
図23は、本発明の第4の実施の形態におけるベクトル生成部の構成図であり、図24は、本発明の第4の実施の形態におけるベクトル生成部の動作のフローチャートである。図23において、図5と同一構成部分については、同一符号を付し、その説明を省略する。
図23に示す構成は、前述の第1の実施の形態における単語・意味情報列抽出部111が制御部113の後段に設けられており、事前に全テキストに対して単語・意味情報列を抽出するのではなく、制御部113で処理対象の範囲が決まった後に(ステップ401)、当該範囲内のテキストを、単語・意味情報データベース121を参照して、単語と当該単語の意味情報の列に変換する(ステップ402)。また、ベクトル更新部404では、処理対象の単語でテキスト全体を通して初めて出現した単語に対しては、各座標が意味情報に対応し、当該座標の値が当該単語と当該意味情報との間の共起頻度であるようなベクトルで、各座標値が0であるようなベクトルを生成した上で、当該ベクトルの更新を行う(ステップ404)。
意味情報頻度算出部114の処理は、第1の実施の形態と同様である。
[第5の実施の形態]
本実施の形態では、前述の第1〜第4の実施の形態とは異なるベクトル生成部の構成・動作を説明する。
図25は、本発明の第5の実施の形態におけるベクトル生成部の構成図であり、図26は、本発明の第5の実施の形態におけるベクトル生成部の動作のフローチャートである。図25において、図15と同一構成部分については、同一符号を付し、その説明を省略する。
本実施の形態では、前述の第2の実施の形態とは異なり、単語列抽出部201、意味情報取得部202の処理を、事前に全テキストに対して行うのではなく、制御部113で処理対象の範囲が決まった後に(ステップ501)、当該範囲内での単語列抽出、意味情報取得の処理を行う(ステップ502、ステップ503)。
また、ベクトル更新部505では、処理対象の単語でテキスト全体を通して初めて出現した単語に対しては、各座標が意味情報に対応し、当該座標の値が当該単語と当該意味情報との間の共起頻度であるようなベクトルで、各座標値が0であるようなベクトルを生成した上で、当該ベクトルの更新を行う(ステップ505)。
[第6の実施の形態]
ベクトル生成部110は、上記の第1〜第5の実施の形態に限定されることなく、特許請求の範囲の請求項1及び請求項6で様々な構成を採用することができる。
例えば、図15(第2の実施の形態)、図21(第3の実施の形態)、図25(第5の実施の形態)の各構成において、意味情報頻度算出部205をなくし、意味情報取得部202において、以下の処理を行うようにしてもよい。
意味情報取得部202において、意味情報頻度算出部205のように、所定の範囲毎に最初に、意味情報の頻度の初期化を行う。これは、任意の意味情報の頻度を0としておくか、図13に示すような、各座標が意味情報に対応し、当該座標の値が0にセットされているようなベクトルを生成する。次に、単語列抽出部201で得られた当該範囲における単語列における単語で意味情報データベース222を検索して、当該単語の意味情報を一つずつ取得する度に、当該範囲における該意味情報の頻度を1だけ増加させる。
このようにして、当該範囲における意味情報の頻度が得られる。この構成では、意味情報取得部202で必ずしも当該範囲における意味情報列を導出する必要はない。
また、別の構成として、図5、図15、図21、図23、図25の各構成から、意味情報頻度算出部114、205をなくし、意味情報の頻度を算出しない以下の処理を行うようにしてもよい。
まず、図20のような所定の範囲における意味情報列を取得する。
所定の範囲における意味情報列の取得は、図5、図23の構成では、単語・意味情報列抽出部111で単語と当該単語の意味情報の組を抽出した後行ってもよいし、ベクトル更新部115,404の最初に行ってもよい。
図15、図21、図25の構成では、意味情報取得部202で所定の範囲の意味情報列を得る。
次に、ベクトル更新部115,404,505で、処理対象の範囲における単語列(この列の中には同一の単語が複数ある場合がある)における任意の単語(通常、内容語に限る。Aとする。)と、該意味情報列における任意の意味情報(Bとする。)との対を検出する度に、Aのベクトルにおける、Bに対応する座標の値を1だけ増加させる。
上記の対の検出は、該単語列における単語を固定した上で、該意味情報列における意味情報を最初から順に見ていき、当該単語と当該意味情報との対をとる。この処理を、該単語列の最初の単語から順に行う。
あるいは、該意味情報列における意味情報を固定した上で、該単語列における単語を最初から順に見ていき、当該単語と当該意味情報との対をとる。この処理を該意味情報列の最初の意味情報から順に行う。
図27は、このような処理を実施するためのベクトル生成部の構成例であり、図28は、本発明の第6の実施の形態におけるベクトル生成部の動作のフローチャートである。
図27に示す構成例では、単語・意味情報列抽出部111で、図9のような形態素解析結果が得られたとする。制御部113で、図9に示す一文を処理対象の範囲としたとき、ベクトル更新部604において、この単語列の単語を最初から順に見ていき、当該単語(通常、内容語に限る)中の意味情報を並べて、図20のような意味情報列を取得する。
最初の単語の“デパート”と、意味情報列における最初の意味情報「41」との対に対し、“デパート”に対応するベクトルの、意味情報「41」に対応する座標の値を1だけ増加させる。次に、“デパート”と意味情報列における次の意味情報「11」との対に対し、“デパート”に対応するベクトルの、意味情報「11」に対応する座標の値を1だけ増加させる。同様の処理を、意味情報列における全ての意味情報に対して行う。次の単語の“で”は、内容語ではない単語なので何もしない。次の単語の“米”と、意味情報列における最初の意味情報「41」との対に対し、“米”に対応するベクトルの、意味情報「41」に対応する座標の値を1だけ増加させる。次に、“米”と意味情報列における次の意味情報「11」との対に対し、“米”に対応するベクトルの、意味情報「11」に対応する座標の値を1だけ増加させる。同様の処理を、意味情報列における全ての意味情報に対して行う。以降、図9に示している単語列における全ての単語に対し、同様の処理を行う。このようにして、対象としている範囲における単語と意味情報との共起頻度を算出することができる。
また、ベクトル生成部110の別の構成として、図5、図15、図21、図27の構成からベクトル初期化部112をなくし、ベクトル更新部115,604で、処理対象の単語でテキスト全体を通して初めて出現した単語に対しては、各座標が意味情報に対応し、当該座標の値が当該単語と当該意味情報との間の共起頻度であるようなベクトルで、各座標が0であるようなベクトルを生成した上で、当該ベクトルの更新を行うようにしてもよい。
ベクトル生成部110によって生成されたベクトルを、テキストにおける単語の出現頻度の影響を除くために、同一の長さ(例えば、1)に正規化してもよい。
[第7の実施の形態]
図29は、本発明の第7の実施の形態における情報処理装置の構成図であり、図30は、本発明の第7の実施の形態における情報処理装置の動作のフローチャートである。図29では、図3の構成に特異値分解部130を加えた構成を示す。なお、ベクトル生成部110については、前述の第1〜第6の実施の形態のいずれかの構成を有するものとする。
特異値分解部130は、ベクトル生成部110によって生成される、単語集合と意味情報集合との間の共起頻度行列に対し、特異値分解を行い、各単語に対応するベクトルを変換し、出力する(ステップ702)。
共起頻度行列の各行ベクトルは、ベクトルの次元数が多いと、当該ベクトルを用いた言語処理において、計算量が多くなるという問題がある。そこで、特異値分解部130によって、次元数の縮約を行う。次元数が縮約されたベクトルを用いた言語処理は、縮約をしない場合と比べ、計算量が少なくなる。
共起頻度行列Xを特異値分解にかける前に、精度向上の目的のため、Xの各要素をその平方根に変換しておいてもよい。
共起頻度行列Xが(p,q)行列であることを
Figure 0004499003
と表すと、Xは特異値分解により、
Figure 0004499003
と分解される。添え字Tは、行列の転置を表す。r=rankX≦min(p,q)、UU=VV=I(I:単位行列)であり、
Figure 0004499003
δii(1≦i≦r)をXの特異値と呼ぶ。
ここで、
Figure 0004499003
に対し、Uの最初のr´列、VTの最初のr´の行、Σの最初のr´の行、r´列をとり、
Figure 0004499003
とする。Xから直接U´、Σ´、V´を求めてもよい。
U´の各行ベクトルをその長さで割って正規化したものを、対応する単語の変換後のベクトルとする。
[第8の実施の形態]
図31は、本発明の第8の実施の形態における情報処理装置の構成図であり、図32は、本発明の第8の実施の形態における情報処理装置の動作のフローチャートである。
図31に示す情報処理装置は、図29の構成に文書ベクトル生成部140を加えた構成である。特異値分解部130、特異値分解ステップ802をなくし、ベクトル生成部110で生成されたベクトルを、文書ベクトル生成部140の入力としてもよい。ベクトル生成部110、特異値分解部130については、前述の第7の実施の形態と同様であるため、その説明を省略する。
文書ベクトル生成部140は、文書集合における各文書に対し、当該文書を例えば形態素解析することにより当該文書から単語列を抽出し、当該単語列中の単語に対応する、ベクトル生成部110または特異値分解部130によって生成されたベクトルを取得し、当該ベクトルの和または重心をとることによって当該文書のベクトルを生成し、出力する。
文書ベクトル生成部140は、文書dより抽出した単語列から内容語を並べてできる列をt,t,…,tとし、t(1≦j≦g)のベクトルをv(t)としたとき、文書dのベクトルv(d)を、
Figure 0004499003
として算出する。
また、単語列t1,t,…,tにおいて、複数ある同一単語をユニークにすることによって得られる単語集合を{w,w2,…,w}とし、異なり単語w(1≦j≦h)のベクトルをv(w)としたとき、文書dのベクトルv(d)を、
Figure 0004499003
として算出してもよい。
また、v(t)やv(w)に適当な重みを対応付け、v(d)を重み付き重心として求めてもよい。
また、v(d)を重心としてではなく、式(1)や式(2)の分子の部分としてもよい。
また、上記に挙げた方法で得られたv(d)をさらに長さ1に正規化してもよい。
[第9の実施の形態]
図33は、本発明の第9の実施の形態における情報処理装置の構成図であり、図34は、本発明の第9の実施の形態における情報処理装置の動作のフローチャートである。
図33に示す情報処理装置は、図31の構成に入力文ベクトル生成部150と適合度算出部160を加えた構成である。特異値分解部130、特異値分解ステップ902をなくし、ベクトル生成部110で生成されたベクトルを、文書ベクトル生成部140と入力文ベクトル生成部150の入力としてもよい。なお、図33において、図31と同一構成部分には同一符号を付し、その説明を省略する。
入力文ベクトル生成部150は、入力のテキストから単語列を抽出し、当該単語列中の単語に対応する、ベクトル生成部110または、特異値分解部130による処理(ステップ901、ステップ902)によって生成されたベクトルを取得し、当該ベクトルの和または、重心をとることによって当該入力のテキストのベクトルを生成する(ステップ904)。
適合度算出部160は、入力文ベクトル生成部150によって生成された入力文ベクトルと、文書ベクトル生成部140によって生成された各文書ベクトルとの間の距離または類似度を算出する(ステップ905)。
入力文ベクトル生成部150は、第8の実施の形態における文書ベクトル生成部140の処理において、入力となる文書を入力文に置き換えた上で、同様に実施することができる。
入力文eのベクトルをv(e)=(p,p,…,p)とし、文書dのベクトルをv(d)=(q,q,…,q)としたとき、v(e)とv(d)間の距離として、
(p−q)+(p−q)+…+(p−q
や、
Figure 0004499003
が挙げられる。
また、v(ek)とv(d)間の類似度として、
Figure 0004499003
が挙げられる。ここで、v(e)・v(d)は、v(e)とv(d)間の内積であり、‖v(e)‖や‖v(d)‖は、それぞれv(e),v(d)の長さである。
このようにして算出した距離や類似度を入力文eに対する文書dの適合度とし、出力する。
[第10の実施の形態]
図35は、本発明の第10の実施の形態における情報処理装置の構成図であり、図36は、本発明の第10の実施の形態における情報処理装置の動作のフローチャートである。
図35に示す情報処理装置は、図31の構成にクラスタリング部170を加えた構成である。特異値分解部130、特異値分解ステップ1002をなくし、ベクトル生成部110で生成されたベクトルを、文書ベクトル生成部140の入力としてもよい。なお、図35において、図31と同一構成部分には同一符号を付し、その説明を省略する。
クラスタリング部170は、文書ベクトル生成部140によって生成された文書ベクトルの対の間の距離または類似度を算出し、当該距離または類似度を元に、各文書ベクトルに対応する文書の集合をクラスタリングする(ステップ1004)。
クラスタリングの方法の一例として、以下の方法があげられる。異なる文書に対応するベクトルは、値が同一でも別物とする。最初、各文書ベクトルをクラスタとし、以降、異なる文書に対応するクラスタc,c間の距離(または類似度)をcに含まれる文書ベクトルとcに含まれる文書ベクトルの間の距離(または類似度)の最小値(または最大値)とし、距離(または類似度)が最小(または最大)となるクラスタの対を結合して新たなクラスタとする処理を繰り返すことにより、文書ベクトルの集合としてのクラスタを導出する。導出されたクラスタに含まれる各文書ベクトルに対応する文書の集合をクラスタとし、出力する。
上記の各実施の形態における処理をプログラムとして構築し、当該プログラムを通信回線または記憶媒体からインストールし、CPU等の手段で実施することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、言語処理技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における情報処理装置の構成図である。 本発明の第1の実施の形態における意味カテゴリの集合の体系を示す図である。 本発明の第1の実施の形態におけるベクトル生成部の構成図である。 本発明の第1の実施の形態におけるベクトル生成部の動作のフローチャートである。 本発明の第1の実施の形態におけるデータベースの内容の一例である。 本発明の第1の実施の形態におけるテキストの例である。 本発明の第1の実施の形態における図8のテキストの形態素解析結果の一例である。 本発明の第1の実施の形態におけるテキストにおける単語集合と意味情報集合との間の共起頻度行列の例である。 本発明の第1の実施の形態における意味情報の頻度を示す図(その1)である。 本発明の第1の実施の形態におけるベクトル更新部の処理結果である共起頻度行列の例である。 本発明の第1の実施の形態における意味情報の頻度を示す図(その2)である。 本発明の第1の実施の形態における図13の内容を変換した例である。 本発明の第2の実施の形態におけるベクトル生成部の構成図である。 本発明の第2の実施の形態におけるベクトル生成部の動作のフローチャートである。 本発明の第2の実施の形態における単語辞書の内容の一例である。 本発明の第2の実施の形態における図8のテキストの形態素解析結果の一例である。 本発明の第2の実施の形態における意味情報データベースの内容の一例である。 本発明の第2の実施の形態における意味情報取得部によって得られる意味情報列の例である。 本発明の第3の実施の形態におけるベクトル生成部の構成図である。 本発明の第3の実施の形態におけるベクトル生成部の動作のフローチャートである。 本発明の第4の実施の形態におけるベクトル生成部の構成図である。 本発明の第4の実施の形態におけるベクトル生成部の動作のフローチャートである。 本発明の第5の実施の形態におけるベクトル生成部の構成図である。 本発明の第5の実施の形態におけるベクトル生成部の動作のフローチャートである。 本発明の第6の実施の形態におけるベクトル生成部の構成図である。 本発明の第6の実施の形態におけるベクトル生成部の動作のフローチャートである。 本発明の第7の実施の形態における情報処理装置の構成図である。 本発明の第7の実施の形態における情報処理装置の動作のフローチャートである。 本発明の第8の実施の形態における情報処理装置の構成図である。 本発明の第8の実施の形態における情報処理装置の動作のフローチャートである。 本発明の第9の実施の形態における情報処理装置の構成図である。 本発明の第9の実施の形態における情報処理装置の動作のフローチャートである。 本発明の第10の実施の形態における情報処理装置の構成図である。 本発明の第10の実施の形態における情報処理装置の動作のフローチャートである。
符号の説明
110 クトル生成部
111 単語・意味情報列抽出手段、単語・意味情報列抽出部
112 ベクトル初期化手段、ベクトル初期化部
113 制御手段、制御部
114 意味情報頻度算出手段、意味情報頻度算出部
115 ベクトル更新手段、ベクトル更新
21 データベース、単語・意味情報データベース
130 異値分解部
140 書ベクトル生成部
150 力文ベクトル生成部
160 合度算出部
170 ラスタリング部
201 単語列抽出部
202 意味情報取得部
205 意味情報頻度算出部
221 単語辞書
222 意味情報データベース
404 ベクトル更新部
505 ベクトル更新部
604 ベクトル更新部

Claims (11)

  1. 単語・意味情報列抽出手段が、単語と該単語の属する意味カテゴリである意味情報の組の集合を格納するデータベースを参照することにより、入力されたテキストから、単語と該単語の意味情報の組の列を抽出する単語・意味情報列抽出ステップと、
    ベクトル初期化手段が、前記テキスト中の前記単語・意味情報列抽出ステップで得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化ステップと、
    意味情報頻度算出手段が、前記テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出ステップと、
    ベクトル更新手段が、前記テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する前記共起頻度行列中の行ベクトルの全てに対し、前記意味情報頻度算出ステップで頻度を算出した各意味情報の成分に該意味情報の頻度を加算するベクトル更新ステップと、
    制御手段が、前記意味情報頻度算出ステップと前記ベクトル更新ステップを、前記テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御ステップと、
    からなることを特徴とする情報処理方法。
  2. 特異値分解手段が、前記制御ステップによって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解ステップを更に行う請求項1記載の情報処理方法。
  3. 文書ベクトル生成手段が、
    文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、前記制御ステップまたは前記特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成ステップを更に行う、請求項1または2記載の情報処理方法。
  4. 入力文ベクトル生成手段が、
    適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、前記制御ステップまたは前記特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成ステップと、
    適合度算出手段が、前記入力文ベクトル生成ステップによって生成された前記入力文ベクトルと、前記文書ベクトル生成ステップによって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を前記適合度算出用のテキストに対する適合度とする適合度算出ステップと、
    を更に行う請求項3記載の情報処理方法。
  5. クラスタリング手段が、
    前記文書ベクトル生成ステップによって生成された各文書ベクトルに基づいて、文書をクラスタリングするクラスタリングステップを更に行う請求項3記載の情報処理方法。
  6. 単語と該単語の属する意味カテゴリである意味情報の組の集合を格納するデータベースと、
    前記データベースを参照することにより、入力されたテキストから、単語と該単語の意味情報の組の列を抽出する単語・意味情報列抽出手段と、
    前記テキスト中の前記単語・意味情報列抽出手段で得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化手段と、
    前記テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出手段と、
    前記テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する前記共起頻度行列中の行ベクトルの全てに対し、前記意味情報頻度算出手段で頻度を算出した各意味情報の成分に該意味情報の頻度を加算するベクトル更新手段と、
    前記意味情報頻度算出手段と前記ベクトル更新手段の処理を、前記テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御を行う制御手段と、
    を有することを特徴とする情報処理装置。
  7. 前記制御手段によって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解手段を更に有する請求項6記載の情報処理装置。
  8. 文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、前記制御手段または前記特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成手段を更に有する、請求項6または7記載の情報処理装置。
  9. 適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、前記制御手段または前記特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成手段と、
    前記入力文ベクトル生成手段によって生成された前記入力文ベクトルと、前記文書ベクトル生成手段によって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を前記適合度算出用のテキストに対する適合度とする適合度算出手段と、
    を更に有する請求項8記載の情報処理装置。
  10. 前記文書ベクトル生成手段によって生成された文書ベクトルに基づいて、文書をクラスタリングするクラスタリング手段を更に有する請求項8記載の情報処理装置。
  11. コンピュータを、請求項6乃至10記載の情報処理装置として機能させることを特徴とする情報処理プログラム。
JP2005256961A 2005-09-05 2005-09-05 情報処理方法及び装置及びプログラム Active JP4499003B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005256961A JP4499003B2 (ja) 2005-09-05 2005-09-05 情報処理方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005256961A JP4499003B2 (ja) 2005-09-05 2005-09-05 情報処理方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2007072610A JP2007072610A (ja) 2007-03-22
JP4499003B2 true JP4499003B2 (ja) 2010-07-07

Family

ID=37934012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005256961A Active JP4499003B2 (ja) 2005-09-05 2005-09-05 情報処理方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4499003B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5131923B2 (ja) * 2008-11-11 2013-01-30 日本電信電話株式会社 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体
JP5057525B2 (ja) * 2009-02-23 2012-10-24 日本電信電話株式会社 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよび記録媒体
JP4982542B2 (ja) * 2009-09-16 2012-07-25 日本電信電話株式会社 共起行列生成装置、共起行列生成方法、共起行列生成プログラムおよびそのプログラムを記録した記録媒体
JP5513985B2 (ja) * 2010-05-24 2014-06-04 日本電信電話株式会社 文字列ベクトル生成装置、文字列ベクトル生成方法、プログラム、及びプログラムを格納したコンピュータ読み取り可能な記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230021A (ja) * 2001-01-30 2002-08-16 Canon Inc 情報検索装置及び情報検索方法並びに記憶媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2978044B2 (ja) * 1993-10-18 1999-11-15 シャープ株式会社 文書分類装置
JPH096799A (ja) * 1995-06-19 1997-01-10 Sharp Corp 文書分類装置及び文書検索装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230021A (ja) * 2001-01-30 2002-08-16 Canon Inc 情報検索装置及び情報検索方法並びに記憶媒体

Also Published As

Publication number Publication date
JP2007072610A (ja) 2007-03-22

Similar Documents

Publication Publication Date Title
CN101079026B (zh) 文本相似度、词义相似度计算方法和系统及应用系统
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN103646112B (zh) 利用了网络搜索的依存句法的领域自适应方法
US20070174040A1 (en) Word alignment apparatus, example sentence bilingual dictionary, word alignment method, and program product for word alignment
CN107273352B (zh) 一种基于Zolu函数的词嵌入学习模型及训练方法
JP2012524314A (ja) データ検索およびインデクシングの方法および装置
CN107102983B (zh) 一种基于网络知识源的中文概念的词向量表示方法
CN109783806A (zh) 一种利用语义解析结构的文本匹配方法
JP2015088064A (ja) テキスト要約装置、方法、及びプログラム
JP4266222B2 (ja) 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体
JP7388256B2 (ja) 情報処理装置及び情報処理方法
JP2020106880A (ja) 情報処理装置、モデル作成方法及びプログラム
JP4499003B2 (ja) 情報処理方法及び装置及びプログラム
Gutiérrez-Fandiño et al. Spanish legalese language model and corpora
CN109298796B (zh) 一种词联想方法及装置
Elbarougy et al. Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers.
WO2019163752A1 (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
JP4099197B2 (ja) 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体
Zouidine et al. A comparative study of pre-trained word embeddings for Arabic sentiment analysis
Han et al. Lexicalized neural unsupervised dependency parsing
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Gupta et al. Quality Estimation of Machine Translation Outputs Through Stemming
JP2007122525A (ja) 言い換え処理方法及び装置
Wang et al. Chinese-Korean Weibo Sentiment Classification Based on Pre-trained Language Model and Transfer Learning
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090901

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100413

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100414

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4499003

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350