JP2013105210A - 単語属性推定装置及び方法及びプログラム - Google Patents

単語属性推定装置及び方法及びプログラム Download PDF

Info

Publication number
JP2013105210A
JP2013105210A JP2011246844A JP2011246844A JP2013105210A JP 2013105210 A JP2013105210 A JP 2013105210A JP 2011246844 A JP2011246844 A JP 2011246844A JP 2011246844 A JP2011246844 A JP 2011246844A JP 2013105210 A JP2013105210 A JP 2013105210A
Authority
JP
Japan
Prior art keywords
word
synonym
data
category
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011246844A
Other languages
English (en)
Other versions
JP5611173B2 (ja
Inventor
Takayuki Adachi
貴行 足立
Toshiro Uchiyama
俊郎 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011246844A priority Critical patent/JP5611173B2/ja
Publication of JP2013105210A publication Critical patent/JP2013105210A/ja
Application granted granted Critical
Publication of JP5611173B2 publication Critical patent/JP5611173B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 他の単語データを利用して、属性が未知である単語に対し、付与すべき属性を推定する。
【解決手段】 本発明は、入力単語と共起する単語のパターンを特徴パターンとして抽出し、入力された単語共起データから特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、入力単語及び各同類語に対し、共起する単語のパターンを特徴パターンとして抽出し、その特徴パターンを要素とし、その共起頻度を値とするベクトルを作成する。入力単語と各同類語候補との関連度を算出し、関連度の高いものを同類語として抽出する。同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、当該カテゴリを属性として付与した単語を属性付単語として出力する。
【選択図】 図1

Description

本発明は、単語属性推定装置及び方法及びプログラムに係り、他の単語データを利用して、属性が未知である単語に対し、付与すべき属性を推定する単語属性推定装置及び方法及びプログラムに関する。
現在、インターネット上の電子テキストのように、人々によって多くの電子テキストが作成され、それに伴い、一般の人々に把握されていない単語も含め、新語が数多く生まれている。もし、各単語の属性としてカテゴリを付与された辞書があれば、例えば、検索サービス提供者が、検索ログ分析において、利用者の検索語がどのカテゴリであるかを把握したり、検索サービスの改善に役立てたりすることができる。しかしながら、辞書整備は労力がかかるため、新語にカテゴリを付与することは容易ではない。
従来技術として、階層構造を持つ概念辞書に未登録の単語を登録する概念辞書登録装置が開示されている(例えば、特許文献1参照)。
また、もし、各単語の属性として同類語が分かれば、例えば、検索サービス提供者が、検索ログ分析において、利用者の膨大な検索語に対し同類語をまとめて概観したり、検索サービスの改善に役立てたりすることができる。同類語の推定方法として、単語と共起する語の共起頻度を特徴ベクトルとして表し、単語間で特徴ベクトルのcos類似度を計算して類似度が高いものを同類語とすることが考えられる。
特開2005−326952号
しかしながら、概念辞書に階層構造を持たない場合は、上記の特許文献1に示す技術は適用できない。また、シソーラスの特定のノードから、シソーラスの構造を利用して、関連のあるノードを順に調べて、未登録語がノードに含まれるかどうかを判定する方法であるため、関連あるノードが多数ある場合は、処理に時間がかかる。
また、同類語の推定方法として、単語間の特徴ベクトルのcos類似度を用いた場合、同類以外の関係(例えば、自動車メーカ名とそのメーカの車種名)も類似度が高くなるため、同類語をうまく取得できない。
本発明は上記のような課題を解決するものであり、必ずしも階層構造を持つ概念辞書でない場合でも、既存のカテゴリ属性が付与された単語で意味の抽象度が似ている単語(同類語)を参考にして、カテゴリ属性が未知の単語に最も適したカテゴリ属性を推定する単語属性推定装置、方法、プログラムを提供することを目的とする。
また、更に本発明は、カテゴリを単語属性として付与するだけでなく、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して得られた同類語を単語属性として推定する単語属性推定装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、他の単語データを利用して、属性が未知である単語に対し、付与すべき属性を推定する単語属性推定装置であって、
入力単語データと単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成手段と、
前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出手段と、
前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成手段と、
前記特徴データ記憶部から前記特徴データを取得し、前記入力単語と前記同類語候補記憶手段の各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出手段と、を有する。
また、本発明(請求項2)は、前記同類語記憶手段の同類語データと単語カテゴリデータ記録手段の既存のカテゴリ属性が付与された単語カテゴリデータを取得し、前記同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語として出力するカテゴリ推定手段を更に有する。
また、本発明(請求項3)は、前記同類語抽出手段において、
前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する手段を含む。
本発明によれば、必ずしも階層構造を持つ概念辞書でない場合でも、既存のカテゴリ属性が付与された単語で意味の抽象度が似ている単語(同類語)を参考にして、カテゴリ属性が未知の単語に最も適したカテゴリ属性を推定することで、単語にカテゴリを付与する際の負担や処理時間を軽減することが可能となる。
また、本発明によれば、カテゴリを単語属性として付与するだけでなく、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して得られた同類語を単語属性として推定することも可能である。
本発明の一実施の形態における単語属性推定装置の構成図である。 本発明の一実施の形態における単語属性推定装置の処理のフローチャートである。 本発明の一実施の形態における各種データの例である。
以下図面と共に、本発明の実施の形態を説明する。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
図1は本発明の一実施形態の単語属性推定装置の構成図、図2は図1の単語属性推定装置の処理の流れを表すフローチャートである。図2のS100〜S140は各処理のステップを各々示している。
本実施形態の単語属性推定装置100は、特徴パターンデータ作成部110、同類語候補抽出部120、特徴データ作成部130、同類語抽出部140、カテゴリ推定部150、特徴パターンデータ記憶部160、同類語候補データ記憶部170、特徴データ記憶部180、同類語データ記憶部190、入力単語データ記憶部200、単語共起データ記憶部300、単語カテゴリデータ記憶部400、属性付き単語データ記憶部500から構成される。
単語属性推定装置100内の各部の、後述する各機能は例えばコンピュータによって達成される。
また、各記憶部はハードディスク等の記憶媒体に格納されている。
ステップ100)特徴パターンデータ作成部110は、入力単語データ記憶部200の入力単語データと単語共起データ記憶部300の単語共起データを読み込み、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターンデータ記憶部160へ出力する。
ステップ110)同類語候補抽出部120は、特徴パターンデータ記憶部160の特徴パターンデータと単語共起データ記憶部300の単語共起データを読み込み、特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補データ記憶部170へ出力する。
ステップ120)特徴データ作成部130は、入力単語データ記憶部200の入力単語データと同類語候補データ記憶部170の同類語候補データと単語共起データ記憶部300の単語共起データを読み込み、入力単語及び各同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、その特徴パターンを要素とし、その共起頻度を値とするベクトルを作成して、特徴データ記憶部180へ出力する。
ステップ130)同類語抽出部140は、特徴データ記憶部180から特徴データを読み込み、入力単語と各同類語候補との関連度を計算し、関連度の高いものを同類語データ記憶部190へ出力する。
ステップ140)カテゴリ推定部150は、同類語データ記憶部190から同類語データと単語カテゴリデータ記憶部400から既存のカテゴリ属性が付与された単語カテゴリデータを読み込み、同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語データ記憶部500へ出力する。
次に、本実施形態の動作を具体例により、図2のフローチャートに沿って説明する。
図3は、本発明の一実施の形態における各種データの一例である。
同図(A)は、入力単語データ記憶部200の入力単語データの例を示す。同図(B)は、単語共起データ記憶部300の単語共起データの例を示す。同図(C)は特徴パターンデータ作成部110で生成される入力単語特徴データの例である。同図(D)は同類語候補抽出部120で抽出され、同類語候補データ記憶部170に格納される同類語候補データの例である。同図(E)は、特徴データ作成部130で生成され、特徴データ記憶部180に格納される同類語候補特徴データの例である。同図(F)は、同類語抽出部140により抽出された同類語抽出処理におけるデータの例であり、同図(G)は、同類語抽出部140により最終的に抽出され、同類語データ記憶部190に格納される同類語データの例である。同図(H)は、単語カテゴリデータ記憶部400からカテゴリ推定部150に入力される単語カテゴリデータの例であり、同図(I)は、カテゴリ推定部150により推定され、属性付き単語データ記憶部500に格納されるカテゴリデータの例である。
特徴パターンデータ作成部110は、入力単語データ記憶部200の入力単語データと単語共起データ記憶部300の単語共起データを読み込み、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターンデータ記憶部160へ出力する(ステップ100)。
例えば、図3(A)の入力単語データと図3(B)の単語共起データが入力される。入力単語データが複数行からなる場合、各行の単語は独立に扱われ、順次処理される。また、図3(B)の単語共起データは"<tab>"を単語区切りとして単語の共起関係を前後の出現関係も含めて表わすと共に、その共起頻度を付与している。このデータは、例えば、検索ログの複数の検索語が入力されたときの共起関係から前もって作成したものである。図3(A)の入力単語データ"ト○タ"を入力単語として処理する場合、図3(B)の単語共起データにおいて、共起単語の一方と入力単語が一致したデータを探すと、その1つとして"ト○タ<tab>中古車"が見つかるので、一致した単語の残りの部分である"<tab>中古車"を特徴パターンとして抽出し、図3(C)の特徴パターンデータ記憶部160へ出力する。
同類語候補抽出部120は、特徴パターンデータ記憶部160の特徴パターンデータと単語共起データ300の単語共起データを読み出し、特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補データ記憶部170へ出力する(ステップ110)。
例えば、図3(B)の単語共起データにおいて、図3(C)の特徴パターンと一致した残りの単語を同類語候補とし、図3(D)の同類語候補データ記憶部170へ出力する。具体的には、図3(C)に"<tab>中古車"の特徴パターンがあるので、図3(B)の"○産<tab>中古車"や"ホ○ダ<tab>中古車"などと一致したものの残りの単語である"○産"や"ホ○ダ"が同類語候補として得られる。なお、同類語候補には入力単語を含めない。同様に、図3(C)の別の特徴パターンである"車<tab>"は図3(B)において単語共起データ"車<tab>○産"と一致するため、残りの単語である"○産"が同類語候補として重複して得られる。そこで、各同類語候補に対して、異なる特徴パターンとの重複数もカウントし、全ての同類語候補を抽出し終わったところで、重複度に対し所定の閾値未満の同類語候補を除く。これにより、処理時間を短縮すると共に、入力単語との関係度が低い同類語候補を除けるので精度向上につながる。なお、所定の閾値の設定方法は、特徴パターン数が多いと、同類語候補に対する特徴パターンとの重複数は多くなることが予想されるので、特徴パターン数をaとしたときに、f(a)+bのようなaの関数によって、重複数の閾値を動的に変える(なお、bは定数)。また、f(a)はaの定数倍やaの平方根とすることが考えられる。
特徴データ作成部130は、入力単語データ記憶部200の入力単語データと同類語候補データ記憶部170の同類語候補データと単語共起データ記憶部300の単語共起データを読み込み、入力単語及び各同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、その特徴パターンを要素とし、その共起頻度を値とするベクトルを作成して、特徴データ記憶部180へ出力する(ステップ120)。
例えば、図3(A)の入力単語データや図3(D)の同類語候補データと、図3(B)の単語共起データを読み込む。次に、入力単語もしくは同類語候補に対して、共起する単語のパターンを要素とし、その共起頻度を値とするベクトルデータを作成し、図3(E)のような特徴データとして特徴データ記憶部180に出力する。具体的には、図3(E)の入力単語が"ト○タ"の場合、共起した単語パターンである"<tab>中古車"では、共起頻度が"318"であるので、ベクトルの1要素に格納される。同類語候補についても同様な処理によって、入力単語及び同類語候補のベクトルは作成され、特徴データ記憶部180へ出力される。
同類語抽出部140は、特徴データ記憶部180から特徴データを読み込み、入力単語と各同類語候補との関連度を計算し、関連度の高いものを同類語データ記憶部190へ出力する(ステップ130)。
例えば、図3(E)の入力単語"ト○タ"と同類語候補"中古車"の特徴ベクトル間で関連度を計算する。まず、関連度はcos類似度に基づいて計算する。入力単語の特徴ベクトルXのi番目のベクトルの値をxi、同類語候補の特徴ベクトルYのi番目のベクトルの値をyiとする。ここで、iは共通であるので、同じ特徴に対するXまたはYにおける値を表わす。ベクトルの次元数をMとするとcos類似度は次の式で求める。
Figure 2013105210
cos類似度を計算後、所定の閾値未満となるものを除く。例えば、図3(F)のように入力単語"ト○タ"と同類語候補"中古車"のcos類似度は、所定の閾値(例えば0.25)未満のため、同類語候補から除く。次に、cos類似度だけでは除けないが、本来除くべき同類語候補について対処する。例えば、自動車メーカ名"ト○タ"とその製造車種"レ○サス"の場合、"レ○サス"と共起した特徴の多くが"ト○タ"と共起した特徴の一部に収まるため、片方にしか出現しない特徴によるcos類似度の低下は見込めない。そこで、"ト○タ"と共起する特徴に限定した共通度を計算する。ベクトルの次元数をMとすると入力単語共通度は次の式で求める。
Figure 2013105210
なお、tiとはi番目の特徴パターンがYに現れ、かつXにも現れた場合のxiである。つまり、入力単語共通度は入力単語の全特徴において、同類語候補と共通する特徴の度合いを表わしたものである。この入力単語共通度を計算した結果、所定の閾値未満となるものは同類語候補から除く。なお、この閾値はcos類似度で設定したものとは異なる。例えば、図3(F)のように入力単語"ト○タ"と同類語候補"レ○サス"の入力単語共通度は、所定の閾値(例えば0.5)未満のため、同類語候補から除く。以上の後、最終的に残った同類語候補を同類語として、図3(G)のように抽出される。
カテゴリ推定部150は、同類語データ記憶部190から同類語と単語カテゴリデータ記憶部400から単語カテゴリデータを入力し、同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語データ記憶部500へ出力する(ステップ140)。
カテゴリ推定部150は、例えば、同類語データとして図3(G)が、単語カテゴリデータとして図3(H)が入力された場合、図3(G)の上位から所定件数もしくは、cosスコアの閾値以上である同類語に対し、図3(H)の単語と一致したカテゴリについて重複数を求めると、図3(I)のようなカテゴリデータを得る。個数が最大のものは、多くの同類語に付与されたカテゴリであるので、入力単語と共にカテゴリとして出力する。例えば、入力単語"ト○タ"に図3(I)の最上位のカテゴリである"日本の自動車メーカー・ブランド"をカテゴリの属性として付与して出力する。また、上位から所定の閾値を最大とする複数のカテゴリを出力したり、重複度が所定の閾値以上に該当する複数のカテゴリを出力することも可能である。
なお、図1の特徴データ作成部130と同類語抽出部140は別々に行っているが、同類語候補毎に特徴データを作成して、同類語とするかどうかの判定を行うまでを一貫して行う手段であってもよい。
なお、図1のカテゴリ推定部150の処理を行わず、同類語データ記憶部190の同類語を入力単語に対する属性として付与し、出力することも可能である。
また、本実施形態の単語属性推定装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の関連語計算方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばフレキシブルディスクや、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)-ROM、DVD(Digital Versatile Disk)-ROM、BD(Blu-ray Disk)-ROM、CD-R、CD-RW、DVD-R、DVD-RW、DVD-R DL、DVD+R、DVD+RW、DVD+R DL、BD-R、BD-RE,HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
なお、本発明は上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
100 単語属性推定装置
110 特徴パターンデータ作成部
120 同類語候補抽出部
130 特徴データ作成部
140 同類語抽出部
150 カテゴリ推定部
160 特徴パターンデータ記憶部
170 同類語候補データ記憶部
180 特徴データ記憶部
190 同類語データ記憶部
200 入力単語データ記憶部
300 単語共起データ記憶部
400 単語カテゴリデータ記憶部
500 属性付き単語データ記憶部

Claims (7)

  1. 他の単語データを利用して、属性が未知である単語に対し、付与すべき属性を推定する単語属性推定装置であって、
    入力単語データと単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成手段と、
    前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出手段と、
    前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成手段と、
    前記特徴データを取得し、前記入力単語と各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出手段と、
    を備えたことを特徴とする単語属性推定装置。
  2. 前記同類語記憶手段の同類語データと単語カテゴリデータ記憶手段の単語カテゴリデータを取得し、前記同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語として出力するカテゴリ推定手段を更に有する
    請求項1に記載の単語属性推定装置。
  3. 前記同類語抽出手段は、
    前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する手段を含む
    請求項1または2に記載の単語属性推定装置。
  4. 属性が未知である単語に対し、付与すべき属性を推定する単語属性推定方法であって、
    特徴パターンデータ作成手段が、入力単語データ記憶手段の入力単語データと単語共起データ記憶手段の単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成ステップと、
    同類語候補抽出手段が、前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出ステップと、
    特徴データ作成手段が、前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成ステップと、
    同類語抽出手段が、前記特徴データを取得し、前記入力単語と各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出ステップと、
    を行うことを特徴とする単語属性推定方法。
  5. カテゴリ推定手段が、前記同類語記憶手段の同類語データと単語カテゴリデータ記憶手段の単語カテゴリデータを取得し、前記同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語として出力するカテゴリ推定ステップを更に行う
    請求項4に記載の単語属性推定方法。
  6. 前記同類語抽出ステップにおいて、
    前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する
    請求項4または5に記載の単語属性推定方法。
  7. コンピュータを、
    請求項1乃至3のいずれか1項に記載の各手段として機能させるための単語属性推定プログラム。
JP2011246844A 2011-11-10 2011-11-10 単語属性推定装置及び方法及びプログラム Expired - Fee Related JP5611173B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011246844A JP5611173B2 (ja) 2011-11-10 2011-11-10 単語属性推定装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011246844A JP5611173B2 (ja) 2011-11-10 2011-11-10 単語属性推定装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013105210A true JP2013105210A (ja) 2013-05-30
JP5611173B2 JP5611173B2 (ja) 2014-10-22

Family

ID=48624726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011246844A Expired - Fee Related JP5611173B2 (ja) 2011-11-10 2011-11-10 単語属性推定装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5611173B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015153013A (ja) * 2014-02-12 2015-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
JP2016532173A (ja) * 2013-09-29 2016-10-13 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
JP2017167986A (ja) * 2016-03-17 2017-09-21 ヤフー株式会社 判定装置、および判定方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1072982A2 (en) * 1999-07-30 2001-01-31 Matsushita Electric Industrial Co., Ltd. Method and system for similar word extraction and document retrieval
JP2004326479A (ja) * 2003-04-25 2004-11-18 Hitachi Ltd 単語間類似度計算プログラム及び装置
JP2004334766A (ja) * 2003-05-12 2004-11-25 Oki Electric Ind Co Ltd 単語分類装置、単語分類方法及び単語分類プログラム
JP2005135113A (ja) * 2003-10-29 2005-05-26 Sony Corp 電子機器装置、関連語抽出方法及びプログラム
JP2005326952A (ja) * 2004-05-12 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> 概念辞書への単語登録方法、装置、およびプログラム
JP2009129323A (ja) * 2007-11-27 2009-06-11 Hitachi Ltd 同義語抽出装置
JP2010267047A (ja) * 2009-05-14 2010-11-25 Ntt Data Corp 類義語辞書構築装置及び方法、コンピュータプログラム
JP2010277396A (ja) * 2009-05-29 2010-12-09 Nippon Telegr & Teleph Corp <Ntt> 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1072982A2 (en) * 1999-07-30 2001-01-31 Matsushita Electric Industrial Co., Ltd. Method and system for similar word extraction and document retrieval
JP2001043236A (ja) * 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2004326479A (ja) * 2003-04-25 2004-11-18 Hitachi Ltd 単語間類似度計算プログラム及び装置
JP2004334766A (ja) * 2003-05-12 2004-11-25 Oki Electric Ind Co Ltd 単語分類装置、単語分類方法及び単語分類プログラム
JP2005135113A (ja) * 2003-10-29 2005-05-26 Sony Corp 電子機器装置、関連語抽出方法及びプログラム
JP2005326952A (ja) * 2004-05-12 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> 概念辞書への単語登録方法、装置、およびプログラム
JP2009129323A (ja) * 2007-11-27 2009-06-11 Hitachi Ltd 同義語抽出装置
JP2010267047A (ja) * 2009-05-14 2010-11-25 Ntt Data Corp 類義語辞書構築装置及び方法、コンピュータプログラム
JP2010277396A (ja) * 2009-05-29 2010-12-09 Nippon Telegr & Teleph Corp <Ntt> 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200401032009; 伊東 秀夫: '"類義語のオンライン検索"' 情報処理学会研究報告 第2002巻,第87号, 20020918, p.59-63, 社団法人情報処理学会 *
JPN6014036259; 伊東 秀夫: '"類義語のオンライン検索"' 情報処理学会研究報告 第2002巻,第87号, 20020918, p.59-63, 社団法人情報処理学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016532173A (ja) * 2013-09-29 2016-10-13 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
US10268758B2 (en) 2013-09-29 2019-04-23 Peking University Founder Group Co. Ltd. Method and system of acquiring semantic information, keyword expansion and keyword search thereof
JP2015153013A (ja) * 2014-02-12 2015-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
US9792274B2 (en) 2014-02-12 2017-10-17 International Business Machines Corporation Categorizing keywords
US10606944B2 (en) 2014-02-12 2020-03-31 International Business Machines Corporation Categorizing keywords
JP2017167986A (ja) * 2016-03-17 2017-09-21 ヤフー株式会社 判定装置、および判定方法

Also Published As

Publication number Publication date
JP5611173B2 (ja) 2014-10-22

Similar Documents

Publication Publication Date Title
US9280967B2 (en) Apparatus and method for estimating utterance style of each sentence in documents, and non-transitory computer readable medium thereof
JP6850806B2 (ja) 電子データ構造から属性を抽出するための注釈システム
CN103955547B (zh) 发现论坛热帖的方法和系统
CN104035917A (zh) 一种基于语义空间映射的知识图谱管理方法和系统
Ljubešić et al. Standardizing tweets with character-level machine translation
JP4600045B2 (ja) 意見抽出用学習装置及び意見抽出用分類装置
WO2018072501A1 (en) Information extraction apparatus and method
JP6230725B2 (ja) 因果関係分析装置、及び因果関係分析方法
JP5611173B2 (ja) 単語属性推定装置及び方法及びプログラム
JP4524640B2 (ja) 情報処理装置および方法、並びにプログラム
JP5542729B2 (ja) 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム
JP5224532B2 (ja) 評判情報分類装置及びプログラム
US10929446B2 (en) Document search apparatus and method
JP6049201B2 (ja) 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ
KR102351745B1 (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법
JP5291351B2 (ja) 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
KR20160086255A (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP5486525B2 (ja) 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム
JP2020013395A (ja) 公開装置、公開方法および公開プログラム
JP7362577B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2006085634A (ja) テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
JP5221751B2 (ja) 著者行動推定装置、著者行動推定モデル学習装置、著者行動推定方法、著者行動推定モデル学習方法、及びプログラム
JP5182960B2 (ja) 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140902

R150 Certificate of patent or registration of utility model

Ref document number: 5611173

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees