JP2012108570A - 単語意味関係抽出装置及び単語意味関係抽出方法 - Google Patents

単語意味関係抽出装置及び単語意味関係抽出方法 Download PDF

Info

Publication number
JP2012108570A
JP2012108570A JP2010254625A JP2010254625A JP2012108570A JP 2012108570 A JP2012108570 A JP 2012108570A JP 2010254625 A JP2010254625 A JP 2010254625A JP 2010254625 A JP2010254625 A JP 2010254625A JP 2012108570 A JP2012108570 A JP 2012108570A
Authority
JP
Japan
Prior art keywords
word
semantic
similarity
pair
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010254625A
Other languages
English (en)
Other versions
JP5544602B2 (ja
Inventor
Yasutsugu Morimoto
康嗣 森本
Makoto Iwayama
真 岩山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010254625A priority Critical patent/JP5544602B2/ja
Publication of JP2012108570A publication Critical patent/JP2012108570A/ja
Application granted granted Critical
Publication of JP5544602B2 publication Critical patent/JP5544602B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】表音文字からなる言語の単語間で文字の表記に基づいて単語意味関係を正確に抽出する単語意味関係抽出装置を提供することを目的とする。
【解決手段】データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出した単語ペアの単語意味関係を判定する単語意味関係抽出装置において、単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出し、前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、意味素間の類似度に基づいてデータから抽出された単語ペアの類似度を算出し、単語ペアの類似度に基づいて単語ペアの単語意味関係を判定することを特徴とする。
【選択図】図3

Description

本発明は、単語ペアの単語意味関係を抽出する単語意味関係抽出装置に関し、特に、表記ベースの類似度に基づいて単語意味関係を抽出する単語意味関係抽出装置に関する。
パソコン及びインターネットの普及によって、ユーザがアクセス可能な電子化文書が大規模化している。大規模な文書情報を扱うための技術として自然言語処理技術が重要となっている。
日本語及び英語のような自然言語を処理する場合の大きな問題の一つとして同義語の問題がある。自然言語では同じ意味を表現する単語が複数存在するため、同じ意味を異なる単語で表現できる。このため、例えば電子化文書を検索する場合、及び電子化文書を分類する場合等において、同じ内容の文書を発見するためには、単語の意味、つまり同義語関係を考慮した処理が実行されなくてはならない。
このような同義語の問題に対処するために、同義語となる単語ペアが登録された同義語辞書を保持する自然言語処理システムが知られている。
また、同義語辞書を人手によって作成するには大きなコストがかかるため、同義語辞書をテキストデータから自動で作成することが従来から試みられている。
同義語辞書を自動的に作成するためには、同義語となる単語ペアを自動で抽出する必要がある。
以下に、同義語となる単語ペアを抽出する方法を説明する。
単語の出現文脈、すなわち処理対象となる単語の近傍に出現する単語及び文字列に着目して、同義語となる単語ペアを抽出する方法(文脈ベース同義語抽出方法)が知られている(例えば、非特許文献1参照)。
また、発音を表記した文字の表記揺れに着目して同義語となる単語ペアを抽出する方法(表記ベース同義語抽出方法)が知られている(例えば、非特許文献2参照)。非特許文献2では、特にカタカナ表記の表記揺れを検出する方法が開示されている。
また、漢字のような表意文字に対して文字の類似度を用いて同義語となる単語ペアを抽出する方法が知られている(例えば、非特許文献3参照)。さらに、非特許文献3には、上述した文脈ベース同義語抽出方法と表記ベース同義語抽出方法とを教師あり学習の枠組みを用いて統合する技術が開示されている。
同義語以外の同じ単語意味関係を有する単語ペアを抽出する方法として、同じ対訳関係の単語ペアを抽出する方法が知られている(非特許文献4参照)。特に、非特許文献4には、単語の出現文脈に着目して同じ対訳関係の単語ペアを抽出することが気味されている。
相澤:「大規模テキストコーパスを用いた語の類似度計算に関する考察」情報処理学会論文誌,2008年 vol. 49-3, pp. 1426-1436. 久保田他:カタカナ表記の統一方式 予備分類とグラフ比較によるカタカナ表記のゆらぎ検出法,情報処理学会自然言語処理研究会報告,1993年 NL97-16,pp.111-117, 森本他:文脈類似度と表記類似度を用いた教師あり同義語抽出,言語処理学会第16回年次大会講演論文集,2010. Hiroyuki Kaji, Toshiko Aizono: Extracting Word Correspondences from Bilingual Corpora Based on Word Co-occurrence Information. 1996, COLING 1996, pp.23-28.
上述した非特許文献2及び3に開示された同義語抽出方法は、文字の表記に基づく同義語抽出方法であるが、以下の問題がある。
非特許文献2に開示された同義語抽出方法は、外来語の発音をカタカナで表記した場合の表記揺れを検出し、表記が多少異なる単語を同じ意味の単語として抽出するものである。換言すれば、非特許文献2に開示された同義語抽出方法は、発音を表記した単語で、表記の揺れを吸収するものであるため、非特許文献2に開示された同義語抽出方法には、発音を表記した単語以外に適用できないという問題点がある。
また、非特許文献3に開示された同義語抽出方法は、漢字のような表意文字で表記した単語を構成する各文字の類似度を算出することによって、表意文字で表記した単語間で同義語を抽出するものである。しかし、非特許文献3に開示された同義語抽出方法には、例えば、表意文字(例えば、アルファベット)で表記した単語間で同義語を抽出できないという問題点がある。
本発明は、表音文字からなる言語の単語間で文字の表記に基づいて単語意味関係を正確に抽出する単語意味関係抽出装置を提供することを目的とする。
本発明の代表的な一例を示せば、プロセッサと、前記プロセッサに接続されるメモリと、を備え、前記プロセッサが所定のプログラムを実行することよって、データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出された単語ペアの単語意味関係を判定する単語意味関係抽出装置において、前記単語意味関係抽出装置に備わるメモリには、同じ単語意味関係にある単語ペアを示す単語意味関係単語ペアが予め登録された単語意味関係辞書が記憶され、前記単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出する意味素抽出部と、前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、前記算出した意味素間の類似度を意味素類似度情報として前記メモリに記憶する意味素類似度算出部と、前記メモリに記憶された前記意味素類似度情報の意味素間の類似度に基づいて、前記データから抽出された単語ペアの類似度を算出し、前記算出した単語ペアの類似度を単語ペア類似度情報として前記メモリに記憶する単語ペア類似度算出部と、前記メモリに記憶された前記単語ペア類似度情報の単語ペアの類似度に基づいて、当該単語ペアの単語意味関係を判定する単語意味関係判定部と、を備えることを特徴とする。
本発明によれば、表音文字からなる言語の単語間で文字の表記に基づいて単語意味関係を正確に抽出できる。
本発明の第1の実施形態の単語意味関係抽出装置の構成を示すブロック図である。 本発明の第1の実施形態の単語意味関係抽出プログラムの概略の説明図である。 本発明の第1の実施形態の単語意味関係抽出装置によって実行される単語意味関係抽出処理の概略の説明図である。 本発明の第1の実施形態の単語意味関係抽出プログラムによる単語意味関係抽出処理のフローチャートである。 本発明の第1の実施形態の類似度行列の説明図である。 本発明の第1の実施形態の同義語辞書の説明図である。 本発明の第1の実施形態の文脈行列の説明図である。 本発明の第1の実施形態の文字重複類似度計算処理のフローチャートである。 本発明の第1の実施形態の類似意味素類似度計算処理のフローチャートである。 本発明の第1の実施形態の意味素類似度テーブルの説明図である。 本発明の第1の実施形態による同義語抽出と従来技術による同義語抽出との比較結果の説明図である。 本発明の第2の実施形態の対訳辞書の説明図である。 本発明の第2の実施形態の類似度行列の説明図である。
(第1の実施形態)
以下、本発明の第1の実施形態を図1〜図11を用いて説明する。
本実施形態では、表音文字を含むデータから単語意味関係として同義語関係にある単語ペアを抽出する単語意味関係抽出装置について説明する。
図1は、本発明の第1の実施形態の単語意味関係抽出装置100の構成を示すブロック図である。図1に示す単語意味関係抽出装置100は、第2の実施形態にも共通して用いられる。このため、図1に示す単語意味関係抽出装置100は、第1の実施形態では用いられず、第2の実施形態でのみ用いられる構成も含む。
単語意味関係抽出装置100は、CPU101、主メモリ102、入出力装置103、及び、ディスク装置110を備える。
CPU101は、主メモリ102に記憶されたプログラムを実行することによって各種処理を実行する。具体的には、CPU101は、ディスク装置110に記憶されたプログラムを主メモリ102にロードし、主メモリ102にロードされたプログラムを実行する。
主メモリ102は、CPU101によって実行されるプログラム及びCPU101によって必要とされる情報等を記憶する。
入出力装置103は、ユーザからの情報の入力を受け付けるとともに、CPU101の指示に応じて情報を出力する。例えば、入出力装置103は、キーボード及びマウス等の入力装置、並びに、ディスプレイ等の出力装置である。
ディスク装置110は各種プログラム及び各種情報を記憶する。具体的には、ディスク装置110は、OS111、単語意味関係抽出プログラム112、テキスト113、人手作成辞書114、類似度行列115、文脈行列116、識別モデル117、及び意味素類似度テーブル118を記憶する。
OS111は、単語意味関係抽出装置100が実行する処理全体を制御するオペレーティングシステムである。
人手作成辞書114には、同じ単語意味関係にある単語と単語との単語ペアが人手によって登録される。人手作成辞書114は、同義語辞書1141、及び対訳辞書1142を含む。
同義語辞書1141には、同義語関係にある単語ペアが人手によって登録される。同義語辞書1141は、図6で詳細を説明する。対訳辞書1142には、対訳関係にある単語ペアが人手によって登録される。対訳辞書1142は、本実施形態で用いず、第2の実施形態で用いる。したがって、対訳辞書1142は、図12で詳細を説明する。
単語意味関係抽出プログラム112は、入力されたテキスト113に含まれる単語から同じ単語意味関係(本実施形態では同義語)となる単語ペアを抽出する。単語意味関係抽出プログラム112は、素性ベクトル抽出サブプログラム1121、正解ラベル設定サブプログラム1122、識別モデル学習サブプログラム1123、及び識別モデル適用サブプログラム1124を含む。なお、これらのサブプログラムは図2で詳細を説明する。
テキスト113は、単語意味関係抽出プログラム112へ入力されるデータである。テキスト113は、単語を含むデータであれば特別な形式である必要はない。
テキスト113がHTML文書及びXML文書等のようなタグを含む文書である場合、当該テキスト113が単語意味関係抽出プログラム112に入力される前に、当該テキスト113に対してタグを除去する処理が実行されることが望ましい。なお、単語意味関係抽出プログラム112は、タグを含むテキスト113が入力されても、タグを含むテキスト113も処理可能である。
類似度行列115は、単語意味関係抽出プログラム112によって生成される行列である。類似度行列115は、テキスト113に含まれる単語から抽出された各単語ペアの単語間の類似度、当該単語ペアが同義語辞書1141に登録された同義語であるか否かを示す正解ラベル、及び当該単語ペアが同義語であるか否かを示す判定結果を含む。なお、類似度行列115は、図5で詳細を説明する。
文脈行列116は、単語意味関係抽出プログラム112の素性ベクトル抽出サブプログラム1121によって生成される行列であり、文脈行列116には、テキスト113に含まれる各単語の近傍に含まれる単語の出現頻度が登録される。
識別モデル117は、単語意味関係抽出プログラム112の識別モデル学習サブプログラム1123によって生成されるものであり、同義語であるか否かを判定するルールである。具体的には、識別モデル117は、類似度行列115の正解ラベルに基づいて、類似度を同義語と判定される類似度と同義語でないと判定される類似度とに分別したものである。
意味素類似度テーブル118は、単語意味関係抽出プログラム112の素性ベクトル抽出サブプログラム1121によって生成されるテーブルであり、意味素類似度テーブル118には、同義語関係にある単語の意味素の類似度が登録される。なお、意味素類似度テーブル118は、図10で詳細を説明する。また、意味素については、図3及び図9で詳細を説明する。
図2は、本発明の第1の実施形態の単語意味関係抽出プログラム112の概略の説明図である。
まず、素性ベクトル抽出サブプログラム1121は、テキスト113を読み込み、テキスト113に含まれる単語を抽出し、抽出した単語からすべての組み合わせの単語ペアを抽出する。ここで、本実施形態では、テキスト113は、同一の言語の文書、例えば、英語の文書であることを想定する。ただし、テキスト113の一部に日本語の単語が含まれていてもよい。
次に、素性ベクトル抽出サブプログラム1121は、各単語ペアに対して、各単語ペアに含まれる単語間の類似度(素性)を計算する。ここで、素性ベクトル抽出サブプログラム1121は、一つの単語ペアに対して異なる計算方法によって複数(N個)の単語ペア類似度を計算する。本実施形態では、素性ベクトル抽出サブプログラム1121は、文脈ベース類似度、文字重複類似度、及び類似意味素類似度を計算する。
文脈ベース類似度は、素性ベクトル抽出サブプログラム1121によって生成された文脈行列116に基づいて計算され、計算方法については図7で詳細を説明する。文字重複類似度の計算方法については図8で詳細を説明し、類似意味素類似度は、素性ベクトル抽出サブプログラム1121によって生成された意味素類似度テーブル118に基づいて計算され、計算方法については図9及び図10で詳細を説明する。
そして、素性ベクトル抽出サブプログラム1121は、計算した単語ペア類似度を類似度行列115の素性A502A〜素性N503N(図5参照)に登録する。
正解ラベル設定サブプログラム1122は、同義語辞書1141を参照し、単語ペアが同義語の関係であるか否かを判定し、判定結果を類似度行列115のラベル503に登録する。
具体的には、正解ラベル設定サブプログラム1122は、単語ペアを構成する二つの単語が同義語辞書1141に同義語として登録されている場合、当該単語ペアを同義語として判定し、単語ペアを構成する二つの単語が同義語辞書1141に同義語として登録されていない場合、当該単語ペアを同義語でないと判定し、単語ペアを構成する少なくとも一つの単語が同義語辞書1141に登録されていない場合、当該単語ペアを同義語関係が不明であると判定する。なお、正解ラベル設定サブプログラム1122の詳細な判定方法については、図4で詳細を説明する。
なお、本実施形態では、正解ラベル設定サブプログラム1122は、同義語辞書1141を参照し、単語ペアの同義語関係を判定したが、第2の実施形態では、正解ラベル設定サブプログラム1122は、対訳辞書1142を参照し、単語ペアの対訳関係を判定する。
識別モデル学習サブプログラム1123は、素性ベクトル抽出サブプログラム1121及び正解ラベル設定サブプログラム1122によって生成された類似度行列115に基づいて、単語ペアの同義語関係を判定するためのルールである識別モデル117を学習する。
識別モデル適用サブプログラム1124は、識別モデル117を参照し、単語ペアが同義語であるか否かを判定し、類似度行列115の判定結果504に判定結果を登録する。
ここで、類似度行列115を図5を用いて説明する。
図5は、本発明の第1の実施形態の類似度行列115の説明図である。
類似度行列115は、単語ペア501、素性A502〜素性N502N(以下、総称して素性502)、ラベル503、及び判定結果504を含む。
単語ペア501には、テキスト113に含まれる単語の二つの単語の組み合わせである単語ペアが格納される。
素性A502A〜素性N502Nには、素性ベクトル抽出サブプログラム1121によって異なる計算方法によって計算された単語ペア類似度が格納される。
ラベル503には、正解ラベル設定サブプログラム1122による判定結果が格納される。ラベル503に「1」が格納された場合、当該単語ペアは正解ラベル設定サブプログラム1122によって同義語である(正解)と判定されたことを示し、ラベル503に「−1」が格納された場合、当該単語ペアは正解ラベル設定サブプログラム1122によって同義語でない(不正解)と判定されたことを示し、ラベル503に「0」が格納された場合、当該単語ペアは正解ラベル設定サブプログラム1122によって同義語関係が不明である(不明)と判定されたことを示す。
判定結果504には、識別モデル適用サブプログラム1124による判定結果が格納される。判定結果504に「1」が格納された場合、当該単語ペアは識別モデル適用サブプログラム1124によって同義語であると判定されたことを示し、判定結果504に「1」が格納された場合、当該単語ペアは識別モデル適用サブプログラム1124によって同義語であると判定されたことを示し、判定結果504に「−1」が格納された場合、当該単語ペアは識別モデル適用サブプログラム1124によって同義語でないと判定されたことを示す。
図3は、本発明の第1の実施形態の単語意味関係抽出装置によって実行される単語意味関係抽出処理の概略の説明図である。
単語の表記に基づく単語意味関係の抽出方法では、非特許文献2に記載されるように、「コンピュータ」と「コンピューター」とを同じ単語とみなし、「20ホン」と「20フォン」とを同じ単語とみなすように、表記揺れによって同じ単語を抽出することを対象としている。この方法は、ある発音に対する表記に複数のバリエーションがあることに着目するアプローチである。
また、”computer”と「コンピュータ」とが対訳関係であることを抽出する方法も、ある発音に対する表記に複数のバリエーションがあることに着目するアプローチである点で、表記揺れによる単語意味関係の抽出方法と同様である。
しかしながら、上述のアプローチでは、漢字のような表意文字の単語意味関係を抽出できず、主にカタカナのような表音文字の単語意味関係を抽出することが対象となる。
一方、表意文字では各文字が意味を有するため、各文字同士の意味の類似性に基づいて、表意文字からなる単語の単語意味関係を抽出することができる。例えば、「知」と「智」及び「恵」と「慧」は、それぞれ類似した意味を有するため、「知恵」と「智慧」とは表記上一致しないが、「知」と「智」及び「恵」と「慧」の意味の類似性に基づいて、これらの単語は意味がほぼ一致しているとみなすことができる。
しかしながら、表音文字では、各文字が意味を有さないため、上述した各文字の意味の類似性に基づくアプローチを適用することは困難である。本実施形態の単語意味関係抽出処理は、この課題を解決し、表音文字からなる単語の単語意味関係を正確に抽出する処理である。
本実施形態の単語意味関係抽出処理では、表音文字からなる単語から複数の文字からなる意味を有する部分文字列を抽出し、この抽出した部分文字列を表意文字の各文字と同様に扱う。以下、意味を有する部分文字列のことを意味素という。本来、意味を有する部分文字列は形態素というべきであるが、形態素は単語の意味で使われることが多いため、意味を有する部分文字列を意味素ということにした。
表意文字の場合、意味素は一つの文字であり、「農業」は「農」と意味素と「業」という意味素とからなる。
一方、表音文字の場合、意味素は複数の文字からなる。例えば、"agriculture"及び"farming"は、「農業」という意味の同義語である。ここで、"agriculture"は、"agri"という意味素と、"culture"という意味素とに分解できる。ここで、"agri"は「畑」という意味を有し、"culture"は「耕作する」という意味を有する。また、"farming"は、"farm"という意味素と"ing"という意味素とに分解できる。"farm"は「農地」という意味を有し、"ing"は動作を意味する。
以上によって、"agriculture"及び"farming"は非常に近い意味を有することが把握できる。ここで、単語意味関係抽出装置が、表音文字からなる単語からどのように意味素を抽出するか、また、意味素同士の類似度をどのように算出するかが問題となる。本実施形態の単語意味関係抽出処理では、単語からN−gramを取得し、N−gramを意味素の候補として用いる。
図3では、単語意味関係抽出装置100は、まず単語リストから単語を取得する。単語リストは、十分な数の単語を含むものであればよく、例えば、テキスト113及び同義語辞書1141の少なくとも一方から抽出された単語のリストである。
次に、単語意味関係抽出装置100は、取得した単語からN−gramを抽出する。N−gramは、隣接したN個の文字からなる部分文字列である。
図3では、単語意味関係抽出装置100は、"farming"から、2−gram(例えば、"fa"、"ar"等)、3−gram(例えば、"far"、"arm"等)、及び4−gram(例えば、"farm"、"armi")を抽出する。
そして、単語意味関係抽出装置100は、単語リストからすべての単語を抽出し、抽出したすべての単語のN-gramを抽出し、抽出したN−gramの出現頻度を集計し、出現頻度が高いN−gramから意味素リストを生成する。なお、出現頻度ではなく、NC−例えば、Valueのような尺度を用いてもよい。
次に、単語意味関係抽出装置100は、同義語辞書1141に同義語として登録された単語ペアを取り出し、意味素リストを用いて各単語を意味素に分割する。
例えば、意味素リストに"agri"、"cult"、"farm"、及び"ing"が登録されている場合、単語意味関係抽出装置100は、"agriculture"を、意味素リストに登録された"agri"及び"cult"、並びにそれ以外"ure"に分割し、"farming"を、意味素リストに登録された"farm"及び"ing"に分割する。
そして、単語意味関係抽出装置100は、分割結果同士の任意の組み合わせを意味素ペアの候補として抽出する。単語意味関係抽出装置100は、例えば、"agri"と"farm"、"agri"と"ing"のような組み合わせを意味素ペアの候補として抽出する。
単語意味関係抽出装置100は、以上の処理を同義語辞書1141に同義語として登録されたすべての同義語ペアについて繰り返し、生成された意味素ペアの候補を構成する意味素の出現頻度を集計することで、意味素類似度を計算する。
意味素類似度としては、例えば、Dice測度として、意味素ペアの候補を構成する二つの意味素が同義語辞書1141に同義語として登録されている単語に含まれる頻度を、当該候補を構成する各意味素の同義語辞書1141内での出現頻度を乗じた値で除算した値を用いてもよい。他にも、意味素類似度として自己相互情報量等を用いてもよい。
そして、単語意味関係抽出装置100は、所定の条件に適合する意味素ペアの候補を意味素類似度テーブルに登録する。所定の条件は、例えば、計算された意味素類似度が所定値より大きい意味素ペアの候補であってもよいし、意味素類似度テーブルに登録される意味素ペアの個数を所定数以下にする等の条件である。
単語意味関係抽出装置100は、類似意味素テーブルを用いて、表音文字からなる単語の類似度を算出することによって、表意文字からなる単語と同じく、意味に基づいて単語意味関係を抽出できる。
図4は、本発明の第1の実施形態の単語意味関係抽出プログラム112による単語意味関係抽出処理のフローチャートである。
まず、単語意味関係抽出プログラム112は、テキスト113及び同義語辞書1141の少なくとも一方から抽出されたすべての単語ペアに対してS12〜S16が実行されたか否かを判定する(S11)。
S11で、テキスト113から抽出されたすべての単語ペアに対してS12〜S16が実行されたと判定された場合、単語意味関係抽出プログラム112はS16に処理を移行する。
一方、S11で、テキスト113から抽出されたすべての単語ペアに対してS12〜S16が実行されていないと判定された場合、単語意味関係抽出プログラム112は、S12〜S16が未だ実行されていないi番目の単語ペアを処理対象として取得する(S12)。
なお、単語意味関係抽出プログラム112は、入力されたテキスト113及び同義語辞書1141の少なくとも一方を形態素解析し、単語リストを作成し、作成された単語リストに含まれる単語から二つの単語のすべての組み合わせを全単語ペアとして作成しておく。
そして、単語意味関係抽出プログラム112は、処理対象の単語ペアのすべての単語ペア類似度(素性)が計算されたか否かを判定する(S13)。
S13で、処理対象の単語ペアのすべての単語ペア類似度が計算されていないと判定された場合、素性ベクトル抽出サブプログラム1121は、処理対象の単語ペアの未だ計算されていないj番目の単語ペア類似度を計算する(S14)。S14の詳細は、図7〜図10で詳細を説明する。
次に、素性ベクトル抽出サブプログラム1121は、S14の計算結果である単語ペア類似度を、類似度行列115の素性A502A〜素性N502N(図5参照)のうち計算結果に対応する素性に格納し(S15)、S13に処理を移行する。
一方、S13で、処理対象の単語ペアのすべての単語ペア類似度(素性)が計算されたと判定された場合、正解ラベル設定サブプログラム1122は、同義語辞書1141を参照し、処理対象の単語ペアが同義語であるか否かを判定し、類似度行列115の行のうち処理対象の単語ペアの行のラベル503に判定結果を格納する(S16)。
ここで、S16の詳細を説明する前に、同義語辞書1141について、図6を用いて説明する。
図6は、本発明の第1の実施形態の同義語辞書1141の説明図である。
同義語辞書1141は、見出し601及び同義語602を含む。
見出し601には、同義語となる単語ペアの一方の単語が格納される。同義語602には、同義語となる単語ペアの他方の単語が格納される。
同義語辞書1141は、辞書引きを可能とするために、冗長にデータを保持する。同義語辞書1141は、具体的には、<agriculture, farming>の同義語となる単語ペアに対して、"agriculture"が見出し601に格納されたエントリと、"farming"が見出し601に格納されたエントリとを保持する。
これによって、正解ラベル設定サブプログラム1122は、同義語辞書1141の見出し601に登録された単語のみを参照するだけですべての同義語となる単語ペアを取得できる。
図4に戻り、S16の詳細を説明する。
S16では、正解ラベル設定サブプログラム1122は、同義語辞書1141の見出し601に登録された単語と処理対象の単語ペアの一方の単語とが一致するエントリの同義語602に登録された単語と処理対象の単語ペアの他方の単語とが一致する場合、当該単語ペアを同義語であると判定し、正解のラベルとして「1」を類似度行列115のラベル503に格納する。
また、正解ラベル設定サブプログラム1122は、同義語辞書1141の見出し601に登録された単語と処理対象の単語ペアの一方の単語とが一致するエントリの同義語602に登録された単語と処理対象の単語ペアの他方の単語とが一致しない場合、当該単語ペアを同義語でないと判定し、不正解のラベルとして「−1」を類似度行列115のラベル503に格納する。
また、正解ラベル設定サブプログラム1122は、処理対象の単語ペアの少なくとも一方の単語が同義語辞書1141に登録されていない場合、不明のラベルとして「0」を類似度行列115のラベル503に格納する。
図5を用いてS16を具体的に説明する。
図5に示す類似度行列115の<agriculture, farming>では、図6に示す同義語辞書1141に同義語として登録されているため、正解ラベル設定サブプログラム1122はラベル503に「1」を格納する。
また、図5に示す類似度行列115の<agriculture, telephone>では、図6に示す同義語辞書1141に同義語として登録されていないため、正解ラベル設定サブプログラム1122はラベル503に「−1」を格納する。
また、図5に示す類似度行列115の<agriculture, computer>では、"computer"は図6に示す同義語辞書1141に登録されていないため、正解ラベル設定サブプログラム1122はラベル503に「0」を格納する。
図4に戻り、S17の詳細を説明する。
S17では、識別モデル学習サブプログラム1123は、図5に示す類似度行列115の正解及び不正解を示すラベルが登録されたエントリの素性502を2値の識別モデルとして学習する。
識別モデルとしては、任意のモデルを使用できるが、例えば、C.J.C.Burges, “A Tutorial on Support Vector Machines for Pattern Recognition” Data Mining and Knowledge Discovery, vol.2, pp.121-168 (1998).に開示されているサポートベクターマシンを使用できる。
アルゴリズムが最も単純な識別器であるk近傍法を用いる場合、S17では、ラベルが「正解」である単語ペアとラベルが「不正解」である単語ペアを同数準備し、これらの単語ペアの素性5−2に登録された値を教師データとして学習する。
S18では、識別モデル適用サブプログラム1124は、S17で学習されたモデル及び類似度行列115に登録された値に基づいて単語意味関係を抽出する。
具体的には、識別モデル適用サブプログラム1124は、図5に示す類似度行列115のすべての単語ペアについて、これらの単語ペアの素性502に登録された値を学習済みの識別器に入力し、同義語であるかどうかを識別する。
識別器として上述したk近傍法を用いる場合について説明する
当該識別器に未知の単語ペアの素性が入力された場合、識別モデル適用サブプログラム1124は、未知の単語ペアの素性とS17で学習した教師データに含まれる素性との距離を計算し、計算した距離が小さい順の素性に対応する単語ペアをk個抽出する。
そして、識別モデル適用サブプログラム1124は、抽出されたk個の単語ペアに正解を示すラベルが登録された単語ペア(つまり、同義語辞書1141に同義語として登録された単語ペア)が、不正解を示すラベルが登録された単語ペアよりも多ければ、未知の単語ペアを同義語と仮判定する。
一方、識別モデル適用サブプログラム1124は、抽出されたk個の単語ペアに不正解を示すラベルが登録された単語ペアが、正解を示すラベルが登録された単語ペアよりも多ければ、未知の単語ペアを同義語でないと仮判定する。
なお、識別モデル適用サブプログラム1124は、上述の同義語仮判定を類似度行列115のすべての素性502に実行し、同義語と判定された素性が同義語でない判定された素性よりも多い場合には、未知の単語を同義語として判定し、同義語でないと判定された素性が同義語と判定された素性よりも多い場合には、未知の単語を同義語でない判定する。
そして、識別モデル適用サブプログラム1124は、判定結果を類似度行列115の判定結果504に格納する。
これによって、単語意味関係抽出装置100は、類似度行列115のラベル503に「不明」を示すラベル「0」が登録された単語ペアに対し、同義語であるか否かを判定でき、同義語であると判定された単語ペアを同義語辞書1141に登録する。
また、識別モデル適用サブプログラム1124による同義語の判定結果は、人手による同義語辞書1141の誤りチェックに使用できる。
具体的には、類似度行列115のラベル503に「不明」以外のラベルが登録されている単語ペアの判定結果504がラベルと異なる判定結果が登録された単語ペアを人手によって同義語か否かを判定する。これによって、同義語辞書1141に同義語として登録された単語ペアを効率よくチェックできる。
以下に、S14の詳細を説明する。
S14では、素性ベクトル抽出サブプログラム1121は、文脈ベース類似度、文字重複類似度、及び類似意味素類似度を計算する。
まず、文脈ベース類似度についての計算方法について説明する。
素性ベクトル抽出サブプログラム1121は、ある単語の近傍に存在する単語列(文脈)に含まれる各単語(文脈単語)を取得し、取得した文脈単語の出現頻度を集計した文脈行列116を生成する。そして、素性ベクトル抽出サブプログラム1121は、生成した文脈行列116に基づいて、単語ペアの二つの単語の近傍にある単語の出現頻度から文脈ベース類似度を計算する。
ここで、近傍の定義によって、取得される文脈単語も異なるものであるが、本実施形態では、近傍をある単語の前後所定語数以内として定義し、素性ベクトル抽出サブプログラム1121は、ある単語の前後所定語数以内にある単語の内容後(名詞、動詞、及び形容詞等)を文脈単語として取得する。
なお、近傍は種々の定義が可能であり、例えば、素性ベクトル抽出サブプログラム1121は、ある単語を含む文と構文的に関連する文に含まれる単語を文脈単語として取得してもよい。
また、素性ベクトル抽出サブプログラム1121は、上述した定義による近傍に基づいて取得された文脈単語の出現頻度をそれぞれ合計して使用してもよい。
文脈行列116について図7を用いて説明する。
図7は、本発明の第1の実施形態の文脈行列116の説明図である。
文脈行列116は、見出し701及び文脈情報702を含む。
見出し701には、入力されたテキスト113を形態素解析し、作成した単語リストに含まれる単語が格納される。
文脈情報702には、文脈単語と当該文脈単語の出現頻度とが格納される。
図7では、例えば、"agriculture"の近傍には、”food”が15回、”crop”が4回、”vegetable”が8回出現していることを示す。
素性ベクトル抽出サブプログラム1121は、図7に示す文脈行列116から、任意の2個の単語に相当するエントリの文脈情報702を取得し、取得した文脈情報702に含まれる文脈単語列に基づいて文脈ベース類似度を計算する。
文脈ベース類似度の計算方法には、タームベクトルモデルによる文書検索方法が使用できる。このタームベクトルモデルによる文書検索方法は、例えば、G. Salton and M. Lesk; "The SMART Automatic Document Retrieval System \- An Illustration" Comm. ACM, (6), 8, pp. 391-398, June 1965.に開示されている。
タームベクトルモデルによる文書検索方法を使用した文脈ベース類似度の計算方法の基本的な考え方について説明する。
図7において、"agriculture"及び"farming"からなる単語ペアの文脈情報702の文脈単語列には、"food"及び"vegetable"が共通して登録されている。一方、"agriculture"及び"telegraph"からなる単語ペアの文脈情報702の文脈単語列には共通して登録されている単語がない。
文脈行列116に登録された任意の単語ペアの文脈情報702の文脈単語列に共通して登録された単語の数(共通単語数)に基づいて、文脈ベース類似度が計算される。
ただし、共通単語数に基づいて文脈ベース類似度を計算する場合には、以下の点に注意する必要がある。
図7に文脈行列116には、各文脈単語列の頻度が登録される。文脈単語列の頻度が大きいほど、当該文脈単語列は見出し701に登録された単語の性質を表現する重要な単語であると考えられるため、文脈ベース類似度を計算する場合には、文脈単語列の頻度も考慮する必要がある。
一方で、一般的な単語は見出し701に登録されたいずれの単語の文脈にも出現しやすく、頻度も大きくなりがちである。したがって、文脈ベース類似度を計算する場合には、一般的な単語については頻度の影響を少なくし、特殊な単語については頻度の影響を多くすることが必要である。
そこで、各見出し701に対する文脈単語列の頻度及び文脈単語列の他の見出し701における頻度両方に基づいて、文脈単語列の重要度を算出する。この方法をtf−idf法という。
次に、文字重複類似度及び類似意味素類似度について説明する。
これらの類似度は単語の文字情報に基づいて計算されるため、文脈ベース類似度に対して表記ベース類似度という。
まず、これらの類似度の計算方法の概略を説明した後、図8〜図10を用いてこれらの類似度の計算方法を詳細に説明する。
文字重複類似度の概略について説明する。
日本語では、例えば、「コンピュータ」及び「コンピューター」のように表記が多少異なっていても同じ意味を示す単語(異表記語)がある。また、異表記語はカタカナで表記される単語に多いが、漢字で表記される単語にも、「分析」及び「解析」、並びに「信頼」及び「信用」のように異表記語が存在する。また、英語でも、”telephone”及び”phone”のように、異表記語は存在する。
このような単語では、非特許文献2に開示されているように、多くの文字が重複することから、二つの単語間で文字が重複する割合を類似度として使用できる。
そこで、素性ベクトル抽出サブプログラム1121は、単語ペアの単語間で重複する文字数に基づいて、類似度(文字重複類似度)を計算する。
次に、類似意味素類似度の概略について説明する。
漢字では、例えば、「慕(う)」及び「憧(れる)」のように、異なる文字であっても意味が類似する文字が存在する。また、英語では、上述した”agri”と”farm”のように、単語を構成する文字列の意味が類似する。
素性ベクトル抽出サブプログラム1121は、単語を構成する文字又は文字列(意味素)の類似度(意味素類似度)に基づいて、単語ペアの単語間の類似度(類似意味素類似度)を計算する。
文字重複類似度の計算方法の詳細について図8を用いて説明する。
文字重複類似度は種々の方法で計算できるが、本実施形態では、一例として、二つの単語間で共通に含まれる文字をカウントし、二つの単語のうち短い方の単語の文字列長で正規化することによって文字重複度を計算する方法について説明する。
なお、同じ文字が複数含まれている場合には、一方にm個、他方の単語にn個含まれている場合には、m対nの対応関係となる。このような場合は、m又はnの小さい方の個数の文字が重複したものとする。
図8は、本発明の第1の実施形態の文字重複類似度計算処理のフローチャートである。
図8では、単語i及び単語jの文字重複度を計算するものとする。
まず、素性ベクトル抽出サブプログラム1121は、単語iのすべての文字に対して、S1412〜1414を実行したか否かを判定する(S1411)。
S1411で、単語iのすべての文字に対してS1412〜S1414を実行していないと判定された場合、素性ベクトル抽出サブプログラム1121は、単語jのすべての文字に対してS1413及びS1414を実行したか否かを判定する(S1412)。
S1412で、単語jのすべての文字に対してS1413及びS1414を実行したと判定された場合、素性ベクトル抽出サブプログラム1121は、S1411に処理を移行する。
一方、S1412で、単語jのすべての文字に対してS1413及びS1414を実行してないと判定された場合、素性ベクトル抽出サブプログラム1121は、S1413及びS1414を未だ実行していない単語iのm番目の文字と、S1413及びS1414を未だ実行していない単語jのn番目の文字とが一致するか否かを判定する(S1413)。
S1413で単語iのm番目の文字と単語jのn番目の文字とが一致すると判定された場合、素性ベクトル抽出サブプログラム1121は、単語iのm番目の文字及び単語jのn番目の文字に一致したことを示すフラグを設定し(S1414)、S1412に処理を移行する。
一方、S1413で単語iのm番目の文字と単語jのn番目の文字とが一致しないと判定された場合、素性ベクトル抽出サブプログラム1121は、S1412に処理を移行する。
S1411で、単語iのすべての文字に対してS1412〜S1414を実行したと判定された場合、素性ベクトル抽出サブプログラム1121は、単語i及び単語jのフラグが設定された文字数をカウントし、小さい文字数方の文字数を一致文字数とする(S1415)。
例えば、「ウインドウ」及び「ウィンドー」が処理対象である場合、「ウインドウ」では、一番目の「ウ」、「ン」、「ド」、及び四番目の「ウ」の4文字フラグが設定され、「ウィンドー」では、「ウ」、「ン」、及び「ド」の3文字にフラグが設定されるため、この場合、一致文字数は3となる。
そして、素性ベクトルサブプログラム1121は、S1415で算出された一致文字数に基づいて、文字重複類似度を算出する。文字重複類似度は一致文字数が大きいほど大きくなる。
上記した方法以外の文字重複類似度の計算方法を説明する。
二つの単語の語頭から連続して共通する文字数を一致文字数としてもよいし、二つの単語の語末から連続して共通する文字数を一致文字数としてもよい。
また、図8に示すS1415では、一致した文字数が小さい方の文字数を一致文字数としたが、一致した文字数が大きい方の一致文字数としてもよいし、一致した文字数が大きい方の文字数及び小さい方の文字数の平均を一致文字数としてもよい。
また、素性ベクトル抽出サブプログラム1121は、動的計画法(DPマッチング)を用いて二つの単語を照合して一致文字数を求めてもよい。また、素性ベクトル抽出サブプログラム1121は、単語に含まれる文字のテキスト113内での出現頻度に基づいて、二つの単語間で文字が一致した場合の重み付けを変更してもよい。この場合、文書検索において単語の重みを計算する方法としてIDF(Inversed Document Frequency)が知られているが、同様の考え方で、出現頻度の高い文字の重要度は低いものとし、出現頻度の高い文字ほど重み付けを小さくする。
次に、類似意味素類似度の計算方法の詳細について図9を用いて説明する。
図9は、本発明の第1の実施形態の類似意味素類似度計算処理のフローチャートである。
類似意味素類似度計算処理は、テキスト113に含まれる単語から出現頻度の高い意味素を取得し意味素辞書を生成し、生成した意味素辞書に基づいて同義語辞書に登録された単語ペアの各単語を意味素に分割し、分割した意味素間の類似度を計算する処理である。
まず、素性ベクトル抽出サブプログラム1121は、テキスト113に含まれるすべての単語に対してS1422及びS1423を実行したか否かを判定する(S1421)。
S1421で、テキスト113に含まれるすべての単語に対してS1422及びS1423を実行していないと判定された場合、素性ベクトル抽出サブプログラム1121は、S1422及びS1423が未だ実行されていない単語を処理対象の単語として取得し、取得した処理対象の単語からN−gramを取得する(S1422)。
N−gramは、処理対象の単語を文字数(2〜N(Nは予め設定された上限値))の連続した文字列に分割した文字をいう。
例えば、素性ベクトル抽出サブプログラム1121が”agriculture”からN−gram(例えば、上限値Nが4)を取得する場合について説明する。
まず、素性ベクトル抽出サブプログラム1121は、2−gramとして、”ag”、”gr”、”ri”、”ic”、”cu”、及び”ul”等を取得する。次に、素性ベクトル抽出サブプログラム1121は、3−gramとして、”agr”、”gri”、”ric”、”icu”、”cul”、及び”ult”等を取得する。さらに、素性ベクトル抽出サブプログラム1121は、4−gramとして、”agri”、”gric”、及び”ricu”等を取得する。
S1422で取得されたN−Gramは、意味素の候補となる。
次に、素性ベクトル抽出サブプログラム1121は、S1422で取得したすべてのN−gramの出現回数をカウントし(S1423)、S1421に処理を移行する。
S1421で、テキスト113に含まれるすべての単語に対してS1422及びS1423を実行したと判定された場合、素性ベクトル抽出サブプログラム1121は、S1423で集計された出現頻度が所定値以上のN−gramを意味素として抽出して(S1424)、意味素辞書を生成する。
次に、素性ベクトル抽出サブプログラム1121は、同義語辞書1141に登録されたすべての単語ペア(同義語単語ペア)に対してS1426〜S1428を実行したか否かを判定する(S1425)。
S1425で、同義語辞書1141に登録されたすべての単語ペアに対してS1426〜S1428を実行していないと判定された場合、素性ベクトル抽出サブプログラム1121は、S1426〜S1428を未だ実行していない同義語単語ペアを処理対象として取得し、S1424で生成された意味素辞書を参照し、取得した同義語単語ペアに含まれる単語(単語A及び単語Bとする)を意味素に分割する(S1426)。
例えば、同義語単語ペアに含まれる単語が”agriculture”である場合を例にS1426を説明する。
まず、素性ベクトル抽出サブプログラム1121は、”agriculture”の先頭から意味素辞書に登録される意味素と連続して一致する文字列のうち、最も長い文字列を取り出す。ここでは、意味素辞書に”agri”が登録されているので、”agriculture”は”agri”の直後で分割される。
次に、素性ベクトル抽出サブプログラム1121は、”agriculture”の分割された直後の文字から再度、意味素辞書に登録される意味素と連続して一致する文字列のうち、最も長い文字列を取り出す。ここでは、意味素辞書に”cult”が登録されているので、”agriculture”は”cult”の直後で単語が分割される。
次に、素性ベクトル抽出サブプログラム1121は、”agriculture”の”cult”の直後の文字から、意味素辞書に登録される意味素と連続して一致する文字列のうち、最も長い文字列を取り出す。ここでは、意味素辞書に”ure”が登録されていることので、”agriculture”は、”agri”、”cult”、及び”ure”に分割される。
素性ベクトル抽出サブプログラム1121は、S1426で分割された単語Aの意味素と単語Bの意味素との組み合わせである意味素ペアを生成する(S1427)。
例えば、単語Aが”agriculture”で、単語Bが”farming”であり、単語Aは意味素”agri”と意味素”culture”とに分割され、単語Bは意味素”farm”と意味素”ing”とに分割された場合、S1427では、<”agri”,”farm”>、<”agri”,”ing”>、<”culture”,”farm”>、及び<”culture”,”ing”>という四つの意味素ペアが生成される。
次に、素性ベクトル抽出サブプログラム1121は、S1427で生成された意味素ペアの同義語辞書1141内での出現頻度を集計し(S1428)、S1425に処理を移行する。
具体的には、素性ベクトル抽出サブプログラム1121は、同義語辞書1141に登録された単語における意味素ペアに含まれる各意味素の出現頻度、及び同義語辞書1141に同義語として登録された単語ペアに単語ペアにおける意味素ペアの出現頻度を集計する。
例えば、上述した意味素ペア<”agri”,”farm”>であれば、”agri”及び”farm”の同義語辞書1141内での出現頻度、及び、同義語辞書1141で同義語として登録されている単語ペアにおける<”agri”,”farm”>の出現頻度が集計される。
S1425で、同義語辞書1141に登録されたすべての単語ペアに対してS1426〜S1428を実行したと判定された場合、素性ベクトル抽出サブベクトル1121は、S1427で集計された出現頻度に基づいて、各意味素ペアの意味素類似度を計算し(S1429)、図10に示す意味素類似度テーブル118を生成し、類似意味素類似度計算処理を終了する。
S1429で意味素類似度を計算する場合、素性ベクトル抽出サブプログラム1121は、種々の統計量を類似度として使用できるが、本実施形態では一例としてDice測度を使用する。
例えば、意味素ペア<”agri”,”farm”>の意味素類似度を計算する場合、S1427で”agri”が10回集計され、”farm”が15回集計され、<”agri”,”farm”>が5回集計されていれば、素性ベクトル抽出サブプログラム1121は、意味素類似度を5÷(10×15)によって計算する。
意味素類似度テーブル118について図10を用いて説明する。図10は、本発明の第1の実施形態の意味素類似度テーブル118の説明図である。
意味素類似度テーブル118は、見出し1001、類似意味素1002、及び意味素類似度1003を含む。
見出し1001には、同義語単語ペアから抽出された意味素ペアの一方の意味素が登録される。類似意味素1002には、同義語単語ペアから抽出された意味素ペアの他方の意味素が登録される。意味素類似度1003には、同義語単語ペアから抽出された意味素ペアの類似度が登録される。
意味素類似度に基づく単語ペアの類似度計算は、未知の単語ペアに対し、個々の単語を上記と同様に意味素に分割し、類似意味素が含まれているかどうかを探索し、含まれている場合には意味素似度を加算する、といった方法で行うことができる。
以上のように、本実施形態では、同義語辞書1141に登録された同義語ペアに含まれる単語を意味素に分割し、分割した意味素間の意味素類似度を計算し、意味素類似度を用いてテキスト113に含まれる単語の類似文字重複度を計算し、類似文字重複度に基づいて同義語を抽出する。
ここで、文脈ベース類似度及び文字重複度のみを使用する従来の同義語抽出結果と、文脈ベース類似度、文字重複度、及び類似度文字重複度を使用する同義語抽出結果とを比較する。この比較結果を図11に示す。
図11は、本発明の第1の実施形態による同義語抽出と従来技術による同義語抽出との比較結果の説明図である。
図11の比較結果の処理対象となるテキスト113として、約500MB程度の英語のテキストからなる特許文書を使用した。
また、図11では、比較結果の評価指標として平均適合率を使用した。平均適合率は、文書検索の精度を評価する場合において通常使用される尺度であり、適合率(ノイズの少なさを示す尺度)及び再現率(漏れの少なさを示す尺度)を総合的に判断するための尺度である。
ここで、適合率と再現率は、通常トレードオフの関係にあり、ある同義語抽出方法においてパラメータを変化させると、適合率及び再現率の一方が向上し、他方が低下する。例えば、ある同義語抽出方法において、抽出する同義語候補数が増加するようにパラメータを変化させると、再現率は向上するが、適合率は悪化する。
二つの同義語抽出方法を比較する場合において、両者の適合率の値は再現率の値次第で変動するため、両者の適合率のみを比較しても無意味である。このため、図11では、再現率が10%、20%、及び30%のように変化させ、各再現率における両者の適合率を取得し、取得した適合率の平均値を算出している。これによって両者の同義語抽出結果を正確に比較できる。
図11の#1は、非特許文献1に開示された文脈ベース類似度及び非特許文献4に開示された文字重複度を非特許文献3に開示された方法によって統合した同義語抽出方法による平均適合率を示す。また、図11の#2は、#1の類似度に類似意味素類似度を統合した同義語抽出方法による平均適合率を示す。
図11では、#1の平均適合率は66.76%であり、#2の平均適合率は75.83%であるため、本実施形態が、従来の同義語抽出方法よりも正確に同義語を抽出できることが把握できる。
以上のように、本実施形態によれば、同義語辞書1141に登録されていない同義語を正確に抽出できる。
また、本実施形態では、単語意味関係抽出装置100に同義語辞書1141が保持され、同義語辞書1141に同義語として登録された単語から意味素を抽出し、当該意味素の類似度を計算したが、同じ言語の単語意味関係が登録されている辞書であれば、同義語辞書1141以外にも適用可能である。例えば、同じ言語の単語意味関係が登録されている辞書としては、類義語が登録されるシソーラス辞書がある。
また、本実施形態では、文脈ベース類似度と表記ベース類似度とを統合して使用する例を示したが、次のような使い方をすることもできる。
教師データ(本実施形態では同義語辞書)のサイズが小さい場合、教師なしデータを用いてブートストラップ的に学習を行う方法としてco-trainingと呼ばれる半教師あり学習技術が知られている。co-trainingについては、Blum, A., Mitchell, T. Combining labeled and unlabeled data with co-training, COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan Kaufmann, 1998, p. 92-100.に開示されているため詳細は省略するが、半教師あり学習において、各事例を表現する素性の集合を、全く独立な2種類の素性の集合に分割できる場合に、高い精度が達成できる技術である。半教師あり学習は、教師データを用いた学習によって得られたモデルを未知データに適用し、得られたラベルの中から特に信頼度が高いものを正解であると仮定し、教師データに追加することで教師データ数を増やす、というサイクルを繰り返すブートストラップ型の学習方式である。co-trainingは、2種類の素性集合を交互に使用することで、安定的にブートストラップ学習が進むことが知られているが、全く独立な2種類の素性集合を得ることが難しく、素性集合間の独立性が低くなるにつれ、精度向上の効果が低下するという問題があった。本実施形態では、文脈ベース類似度と表記ベース類似度という全く独立な素性集合を得ることができるため、両者を統合して使用するのではなく、co-trainingを用いて交互に使用することで教師データが小さい場合にも高い精度を得ることが可能となる効果を得ることができる。
(第2の実施形態)
以下、本発明の第2の実施形態を図12及び図13を用いて説明する。
第2の実施形態の単語関係抽出装置は、異なる言語間の対訳関係を単語関係として抽出する。対訳関係は、同義語関係を異なる言語の単語間に拡張したものであるため、第1の実施形態と同様の方法によって対訳関係を抽出できる。
本実施形態では、第1の実施形態と同じく、図1に示す単語意味関係抽出装置100を用いる。
第1の実施形態の単語意味関係抽出装置100は、対訳辞書1142を使用せずに同義語辞書1141を使用するが、本実施形態の単語意味関係抽出装置100は、同義語辞書1141を使用せずに対訳辞書1142を使用する。
図12は、本発明の第2の実施形態の対訳辞書1142の説明図である。
対訳辞書1142は、同義語辞書1141と同じデータ形式であり、図6に示す同義語辞書1141の同義語602の代わりに訳語1202を含む。
対訳辞書1142は、見出し1201及び訳語1202を含む。見出し1201には、対訳関係となる単語ペアの第1の言語からなる単語が登録される。訳語1202には、対訳関係となる単語ペアの第2の言語からなる単語が登録される。
図13は、本発明の第2の実施形態の類似度行列115の説明図である。
類似度行列115は、単語ペア1301、素性A502A〜素性N502N、ラベル503、及び判定結果504を含む。
素性A502A〜素性N502N、ラベル503、及び判定結果504は、第1の実施形態の図5に示す類似度行列115と同じであるので、説明を省略する。
第1の実施形態の図5に示す類似度行列115の単語ペア501には、同一の言語からなる単語ペアが登録されていたが、単語ペア1301には、第1の言語からなる単語と第2の言語からなる単語とを含む単語ペアが登録される。
次に、本実施形態の単語意味関係抽出処理について説明する。本実施形態の単語意味関係抽出処理は、単語ペアの抽出処理、及び図4に示すS14の詳細以外は同じである。
本実施形態の単語ペアの抽出処理について説明する。
本実施形態では、処理対象のテキスト113として、第1言語のテキスト113及び第2言語のテキスト113が単語意味関係抽出プログラム112に入力される。
単語意味関係抽出プログラム112は、第1言語のテキスト113に含まれる単語と第2言語のテキスト113に含まれる単語との組み合わせである単語ペアを抽出する。具体的には、単語意味関係抽出プログラム112は、第1言語のテキスト113を形態素解析して単語リストを生成し、第2言語のテキスト113を形態素解析して単語リストを生成する。
そして、単語意味関係抽出プログラム112は、第1言語のテキスト113の単語リストに含まれる単語と第2言語のテキスト113に含まれる単語とのすべての組み合わせを単語ペアとして抽出する。
次に、S14について説明する。
本実施形態のS14では、第1の実施形態と同じく、文脈ベース類似度、文字重複類似度、及び類似意味素類似度を計算するが、本実施形態では対訳関係にある単語ペアを抽出するため、各種類似度の計算方法が第1実施形態と異なる。
まず、文脈ベース類似度の計算方法について説明する。
本実施形態の場合、単語ペアを構成する二つの単語は異なる言語である。以下では、一方の単語が日本語、他方の単語が英語である場合を想定して説明する。
単語ペアを構成する二つの単語が異なる言語であるので、単語の文脈も異なる言語となり、作成される文脈行列116の文脈単語列に登録される単語も異なる言語となる。
このため、素性ベクトル抽出サブプログラム1121は、単語ペアの文脈ベース類似度を計算する場合に、単語ペアの文脈単語列にどの単語が共通して登録されているかを特定できない。
そこで、素性ベクトル抽出サブプログラム1121は、対訳辞書1142を参照し、単語ペアの一方の単語の文脈単語列に登録されている単語と、単語ペアの他方の単語の文脈単語列に登録されている単語とが対訳関係であれば、当該単語は共通して文脈単語列に登録されているものとする。
これによって、素性ベクトル抽出サブプログラム1121は、第1実施形態と同じく、共通単語数に基づいて文脈ベース類似度を計算できる。
次に、文字重複類似度の計算方法について説明する。
カタカナで表記される外来語は、発音に基づいて当該外来語の対訳関係にある単語を推定する技術が知られている。この技術は、Transliterationといい、例えば、K. Knight and J. Graehl: Machine Transliteration, Computational Linguistics, 24(4), pp. 599-612, 1998.等に開示されている。
単純な例を挙げて文字重複類似度の計算方法を説明する。
まず、“co”は「コ」と、“m”は「ン」又は「ム」、“pu”は「プ」又は「ピュ」と表記されることを示す表記情報が単語意味関係抽出装置100に予め登録される。素性ベクトル抽出サブプログラム1121は、表記情報を参照し、“computer”から「コムプタ」、「コンプタ」、「コンピュタ」のような表記候補を生成する。そして、素性ベクトル抽出サブプログラム1121は、生成された表記候補と日本語単語の文字列とを第1の実施形態の図8に示す方法で比較することによって文字重複類似度を計算できる。
このため、上述した文字重複類似度の計算方法は、第1の実施形態の文字重複度の計算方法を多言語に拡張したものであるといえる。
次に、類似意味素類似度の計算方法について説明する。
第1実施形態では、素性ベクトル抽出サブプログラム1121は、所定のデータに含まれる単語からN−gramを抽出し、抽出したN−gramの出現頻度に基づいて意味素辞書を生成する。そして、素性ベクトル抽出サブプログラム1121は、同義語辞書1141に同義語として登録された単語ペアを意味素辞書に基づいて意味素に分割し、分割した意味素の組み合わせである意味素ペアの類似度を意味素類似度として計算する。
本実施形態では、素性ベクトル抽出サブプログラム1121は、同じ言語のデータに含まれる単語から、第1実施形態と同じ方法で意味素辞書を生成する。そして、素性ベクトル抽出サブプログラム1121は、対訳辞書1142に対訳として登録された単語ペアを意味素辞書に基づいて意味素に分割し、分割した意味素の組み合わせである意味素ペアの類似度を意味素類似度として計算する。
なお、一方の言語が表意文字を使用する言語であれば、一文字が意味素であるので、当該言語のデータから意味素辞書を作成する必要はない。
100 単語意味関係抽出装置
101 CPU
102 主メモリ
103 入出力装置
110 ディスク装置
111 OS
112 単語意味関係抽出プログラム
1121 素性ベクトル抽出サブプログラム
1122 正解ラベル設定サブプログラム
1123 識別モデル学習サブプログラム
1124 識別モデル適用サブプログラム
113 テキスト
1141 同義語辞書
1142 対訳辞書
115 類似度行列
116 文脈行列
117 識別モデル
118 意味素類似度テーブル

Claims (12)

  1. プロセッサと、前記プロセッサに接続されるメモリと、を備え、前記プロセッサが所定のプログラムを実行することよって、データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出された単語ペアの単語意味関係を判定する単語意味関係抽出装置において、
    前記単語意味関係抽出装置に備わるメモリには、同じ単語意味関係にある単語ペアを示す単語意味関係単語ペアが予め登録された単語意味関係辞書が記憶され、
    前記単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出する意味素抽出部と、
    前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、前記算出した意味素間の類似度を意味素類似度情報として前記メモリに記憶する意味素類似度算出部と、
    前記メモリに記憶された前記意味素類似度情報の意味素間の類似度に基づいて、前記データから抽出された単語ペアの類似度を算出し、前記算出した単語ペアの類似度を単語ペア類似度情報として前記メモリに記憶する単語ペア類似度算出部と、
    前記メモリに記憶された前記単語ペア類似度情報の単語ペアの類似度に基づいて、当該単語ペアの単語意味関係を判定する単語意味関係判定部と、を備えることを特徴とする単語意味関係抽出装置。
  2. 前記意味素抽出部は、
    前記データに含まれる単語から所定の文字数分の文字列を取得する文字列取得部と、
    前記文字列取得部によって取得された文字列の前記データにおける出現頻度を集計する出現頻度集計部と、
    前記出現頻度集計部によって出現頻度が所定値以上である文字列を意味素として抽出する単語ペア意味素抽出部と、
    前記単語ペア意味素抽出部によって抽出された意味素を意味素辞書として、前記メモリに記憶する意味素辞書記憶部と、を備え、
    前記メモリに記憶された意味素辞書を参照して、前記メモリに記憶された単語意味関係辞書に登録された単語意味関係単語ペアを構成する単語から前記意味素を抽出することを特徴とする請求項1に記載の単語意味関係抽出装置。
  3. 前記単語ペア類似度算出部は、
    前記データに含まれる単語の前後所定の文字数以内に出現する単語である文脈単語の出現頻度を集計する文脈単語出現頻度集計部と、
    前記データから抽出された単語ペアの単語で集計された前記文脈単語の出現頻度に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する文脈類似度算出部と、
    前記データから抽出された単語ペアの二つの単語間で重複する文字数に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する重複類似度算出部と、を備えることを特徴とする請求項1に記載の単語意味関係抽出装置。
  4. 前記単語意味関係判定部は、
    前記データから抽出された単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されている場合、当該単語ペアが同じ単語意味関係にある旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定し、当該単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されていない場合、当該単語ペアが同じ単語意味関係にない旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定するラベル設定部と、
    前記ラベル設定部によって単語ペアの前記単語ペア類似度情報に設定されたラベル、及び前記ラベルが設定された単語ペアの類似度に基づいて、前記単語意味関係を判定するための単語意味関係判定ルールを学習し、前記学習した単語意味関係判定ルールを前記メモリに記憶する単語意味関係判定ルール学習部と、を備え、
    前記メモリに記憶された単語意味関係判定ルールに基づいて、前記単語ペアの単語意味関係を判定することを特徴とする請求項1に記載の単語意味関係抽出装置。
  5. 前記単語意味関係は、前記単語ペアが同義語であるか否かの関係であることを特徴とする請求項1に記載の単語意味関係抽出装置。
  6. 前記単語意味関係は、前記単語ペアが対訳関係にあるか否かの関係であることを特徴とする請求項1に記載の単語意味関係抽出装置。
  7. プロセッサと、前記プロセッサに接続されるメモリと、を備え、前記プロセッサが所定のプログラムを実行することよって、データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出された単語ペアの単語意味関係を判定する単語意味関係抽出装置による単語意味関係抽出方法において、
    前記メモリには、同じ単語意味関係にある単語ペアを示す単語意味関係単語ペアが予め登録された単語意味関係辞書が記憶され、
    前記方法は、
    前記単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出する意味素抽出ステップと、
    前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、前記算出した意味素間の類似度を意味素類似度情報として前記メモリに記憶する意味素類似度算出ステップと、
    前記メモリに記憶された前記意味素類似度情報意味素間の類似度に基づいて、前記データから抽出された単語ペアの類似度を算出し、前記算出した単語ペアの類似度を単語ペア類似度情報として前記メモリに記憶する単語ペア類似度算出ステップと、
    前記単語ペア類似度算出ステップによって算出された単語ペアの類似度に基づいて、当該単語ペアの単語意味関係を判定する単語意味関係判定ステップと、を含むことを特徴とする単語意味関係抽出方法。
  8. 前記意味素抽出ステップは、
    前記データに含まれる単語から所定の文字数分の文字列を取得する文字列取得ステップと、
    前記文字列取得部によって取得された文字列の前記データにおける出現頻度を集計する出現頻度集計ステップと、
    前記出現頻度集計部によって出現頻度が所定値以上である文字列を意味素として抽出する単語ペア意味素抽出ステップと、
    前記単語ペア意味素抽出部によって抽出された意味素を意味素辞書として、前記メモリに記憶する意味素辞書記憶ステップと、を含み、
    前記メモリに記憶された意味素辞書を参照して、前記単語意味関係辞書に登録された単語意味関係単語ペアを構成する単語から前記意味素を抽出することを特徴とする請求項7に記載の単語意味関係抽出方法。
  9. 前記単語ペア類似度算出ステップは、
    前記データに含まれる単語の前後所定の文字数以内に出現する単語である文脈単語の出現頻度を集計する文脈単語出現頻度集計ステップと、
    前記データから抽出された単語ペアの単語で集計された前記文脈単語の出現頻度に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する文脈類似度算出ステップと、
    前記データから抽出された単語ペアの二つの単語間で重複する文字数に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する重複類似度算出ステップと、を備えることを特徴とする請求項7に記載の単語意味関係抽出方法。
  10. 前記単語意味関係判定ステップは、
    前記データから抽出された単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されている場合、当該単語ペアが同じ単語意味関係にある旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定し、当該単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されていない場合、当該単語ペアが同じ単語意味関係にない旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定するラベル設定ステップと、
    前記ラベル設定ステップによって単語ペアの前記単語ペア類似度情報に設定されたラベル、及び前記ラベルが設定された単語ペアの類似度に基づいて、前記単語意味関係を判定するための単語意味関係判定ルールを学習し、前記学習した単語意味関係判定ルールを前記メモリに記憶する単語意味関係判定ルール学習ステップと、を含み、
    前記メモリに記憶された単語意味関係判定ルールに基づいて、前記単語ペアの単語意味関係を判定することを特徴とする請求項7に記載の単語意味関係抽出方法。
  11. 前記単語意味関係は、前記単語ペアが同義語であるか否かの関係であることを特徴とする請求項7に記載の単語意味関係抽出方法。
  12. 前記単語意味関係は、前記単語ペアが対訳関係にあるか否かの関係であることを特徴とする請求項7に記載の単語意味関係抽出方法。
JP2010254625A 2010-11-15 2010-11-15 単語意味関係抽出装置及び単語意味関係抽出方法 Expired - Fee Related JP5544602B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010254625A JP5544602B2 (ja) 2010-11-15 2010-11-15 単語意味関係抽出装置及び単語意味関係抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010254625A JP5544602B2 (ja) 2010-11-15 2010-11-15 単語意味関係抽出装置及び単語意味関係抽出方法

Publications (2)

Publication Number Publication Date
JP2012108570A true JP2012108570A (ja) 2012-06-07
JP5544602B2 JP5544602B2 (ja) 2014-07-09

Family

ID=46494143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010254625A Expired - Fee Related JP5544602B2 (ja) 2010-11-15 2010-11-15 単語意味関係抽出装置及び単語意味関係抽出方法

Country Status (1)

Country Link
JP (1) JP5544602B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006620A (ja) * 2012-06-22 2014-01-16 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP2014006621A (ja) * 2012-06-22 2014-01-16 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP2014052889A (ja) * 2012-09-07 2014-03-20 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP2015106361A (ja) * 2013-12-02 2015-06-08 株式会社日立製作所 データ検索システムおよびデータ検索方法
JP5936698B2 (ja) * 2012-08-27 2016-06-22 株式会社日立製作所 単語意味関係抽出装置
JP2017078919A (ja) * 2015-10-19 2017-04-27 日本電信電話株式会社 単語拡張装置、分類装置、機械学習装置、方法、及びプログラム
WO2017217661A1 (ko) * 2016-06-15 2017-12-21 울산대학교 산학협력단 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
JP2018165949A (ja) * 2017-03-28 2018-10-25 富士通株式会社 判定プログラム、判定装置および判定方法
CN109657210A (zh) * 2018-11-13 2019-04-19 平安科技(深圳)有限公司 基于语义解析的文本准确率计算方法、装置、计算机设备
JP2019149097A (ja) * 2018-02-28 2019-09-05 株式会社日立製作所 語彙間関係性推測装置および語彙間関係性推測方法
JP2020024139A (ja) * 2018-08-07 2020-02-13 ファナック株式会社 製品検査装置
JPWO2019092867A1 (ja) * 2017-11-10 2020-10-22 日本電気株式会社 情報処理装置、情報処理方法及びプログラム
KR20210063151A (ko) * 2019-11-22 2021-06-01 숙명여자대학교산학협력단 데이터의 의미론적 유사 여부를 분석하기 위하여 기계학습을 이용한 전자 장치 및 그 제어 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005011078A (ja) * 2003-06-19 2005-01-13 Patolis Corp 類似単語検索装置、この方法、このプログラム、このプログラムを記録した記録媒体、および情報検索システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005011078A (ja) * 2003-06-19 2005-01-13 Patolis Corp 類似単語検索装置、この方法、このプログラム、このプログラムを記録した記録媒体、および情報検索システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG201000459228; 林克彦 他3名: 'MCCAモデルの日英辞書構築への適用' 言語処理学会第16回年次大会発表論文集 , 20100308, 982-985頁, 言語処理学会 *
JPN6014003081; 林克彦 他3名: 'MCCAモデルの日英辞書構築への適用' 言語処理学会第16回年次大会発表論文集 , 20100308, 982-985頁, 言語処理学会 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006621A (ja) * 2012-06-22 2014-01-16 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP2014006620A (ja) * 2012-06-22 2014-01-16 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP5936698B2 (ja) * 2012-08-27 2016-06-22 株式会社日立製作所 単語意味関係抽出装置
JPWO2014033799A1 (ja) * 2012-08-27 2016-08-08 株式会社日立製作所 単語意味関係抽出装置
JP2014052889A (ja) * 2012-09-07 2014-03-20 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP2015106361A (ja) * 2013-12-02 2015-06-08 株式会社日立製作所 データ検索システムおよびデータ検索方法
JP2017078919A (ja) * 2015-10-19 2017-04-27 日本電信電話株式会社 単語拡張装置、分類装置、機械学習装置、方法、及びプログラム
US10984318B2 (en) 2016-06-15 2021-04-20 University Of Ulsan Foundation For Industry Cooperation Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding
WO2017217661A1 (ko) * 2016-06-15 2017-12-21 울산대학교 산학협력단 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
JP2018165949A (ja) * 2017-03-28 2018-10-25 富士通株式会社 判定プログラム、判定装置および判定方法
JPWO2019092867A1 (ja) * 2017-11-10 2020-10-22 日本電気株式会社 情報処理装置、情報処理方法及びプログラム
US11687712B2 (en) 2017-11-10 2023-06-27 Nec Corporation Lexical analysis training of convolutional neural network by windows of different lengths with matrix of semantic vectors
JP2019149097A (ja) * 2018-02-28 2019-09-05 株式会社日立製作所 語彙間関係性推測装置および語彙間関係性推測方法
JP2020024139A (ja) * 2018-08-07 2020-02-13 ファナック株式会社 製品検査装置
JP7148311B2 (ja) 2018-08-07 2022-10-05 ファナック株式会社 製品検査装置
CN109657210A (zh) * 2018-11-13 2019-04-19 平安科技(深圳)有限公司 基于语义解析的文本准确率计算方法、装置、计算机设备
CN109657210B (zh) * 2018-11-13 2023-10-10 平安科技(深圳)有限公司 基于语义解析的文本准确率计算方法、装置、计算机设备
KR20210063151A (ko) * 2019-11-22 2021-06-01 숙명여자대학교산학협력단 데이터의 의미론적 유사 여부를 분석하기 위하여 기계학습을 이용한 전자 장치 및 그 제어 방법
KR102301467B1 (ko) 2019-11-22 2021-09-10 숙명여자대학교산학협력단 데이터의 의미론적 유사 여부를 분석하기 위하여 기계학습을 이용한 전자 장치 및 그 제어 방법

Also Published As

Publication number Publication date
JP5544602B2 (ja) 2014-07-09

Similar Documents

Publication Publication Date Title
JP5544602B2 (ja) 単語意味関係抽出装置及び単語意味関係抽出方法
JP5356197B2 (ja) 単語意味関係抽出装置
US11030199B2 (en) Systems and methods for contextual retrieval and contextual display of records
US10496928B2 (en) Non-factoid question-answering system and method
Chai Comparison of text preprocessing methods
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
El-Makky et al. Sentiment analysis of colloquial Arabic tweets
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
Thenmalar et al. Semi-supervised bootstrapping approach for named entity recognition
Meetei et al. Low resource language specific pre-processing and features for sentiment analysis task
US9633009B2 (en) Knowledge-rich automatic term disambiguation
Weerasinghe et al. Feature Vector Difference based Authorship Verification for Open-World Settings.
Nehar et al. Rational kernels for Arabic root extraction and text classification
CN111563212A (zh) 一种内链添加方法及装置
Rexha et al. Towards Authorship Attribution for Bibliometrics using Stylometric Features.
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Saeed et al. An abstractive summarization technique with variable length keywords as per document diversity
Rofiq Indonesian news extractive text summarization using latent semantic analysis
TW201822031A (zh) 以文字資訊建立圖表索引方法及其電腦程式產品
Liebeskind et al. An algorithmic scheme for statistical thesaurus construction in a morphologically rich language
Madatov et al. Dataset of Karakalpak language stop words
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Ahnaf et al. Closed domain Bangla extrinsic monolingual plagiarism detection and corpus creation approach
WO2014188555A1 (ja) テキスト処理装置、及び、テキスト処理方法
CN110717029A (zh) 一种信息处理方法和系统

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120322

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140422

R150 Certificate of patent or registration of utility model

Ref document number: 5544602

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees