JP6049201B2 - 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ - Google Patents

類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ Download PDF

Info

Publication number
JP6049201B2
JP6049201B2 JP2013162821A JP2013162821A JP6049201B2 JP 6049201 B2 JP6049201 B2 JP 6049201B2 JP 2013162821 A JP2013162821 A JP 2013162821A JP 2013162821 A JP2013162821 A JP 2013162821A JP 6049201 B2 JP6049201 B2 JP 6049201B2
Authority
JP
Japan
Prior art keywords
word
seed
occurrence pattern
occurrence
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013162821A
Other languages
English (en)
Other versions
JP2015032228A (ja
Inventor
亮翼 住友
亮翼 住友
加藤 恒夫
恒夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013162821A priority Critical patent/JP6049201B2/ja
Publication of JP2015032228A publication Critical patent/JP2015032228A/ja
Application granted granted Critical
Publication of JP6049201B2 publication Critical patent/JP6049201B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、類義語の集合を検出する技術に関する。
世の中で用いられる単語やその意味は、時代の変化に応じて常に増加及び変化を続けている。そのために、単語単独の意味合いのみならず、単語同士の間で意味が類似する類義語の集合を、自動的に収集及び検出する技術が所望されている。この技術は、文書の分類処理や検索処理に有用であって、例えば商品名、社名などの名称や略称を、商品の種別や業種等で分類することができる。しかし、新規の名称や略称については、それらの種別を人手で定義し且つ分類する必要があり、非常に高いコストを要する。
従来、単語同士の間の類似度を用いて類義語を自動的に抽出する技術がある(例えば非特許文献1参照)。この技術によれば、対象単語(シード単語)に対して共起する他の単語やパターンを検出し、その共起頻度や相互情報量等の類似度として数値化し、類似度の高い単語を、対象単語の類義語として抽出する。
一方で、単語は、出現する文書や文脈によっては意味が異なり、類義語とみなす単語も変わってくる場合がある。例えば単語「マンハッタン」は、一般的には都市名の意味を持つが、文脈によってはカクテルの名前や映画の作品名としての意味を持つ。このように、単語が、文脈に応じた多義性を持つことによって、類義語も変わってくる。そのために、類義語を自動的に抽出した場合、このような多義性や一般性によって、意図とは異なる類義語を抽出してしまうという問題が生じる。
これに対して、比較的少ない対象単語集合を入力として与えることによって、それらの単語と共起するパターンを獲得し、そのパターンを用いて新たな類義語を獲得する技術がある。この技術によれば、ユーザは、対象単語集合によって、新たな類義語集合の粒度を制御することができる。
例えば対象単語集合を「ウォッカ」「テキーラ」とした場合は、「ウイスキー」「ブランデー」ような「酒類」の範囲における類義語を取得することが期待できる。
一方で、対象単語集合を「ウォッカ」「麦茶」とした場合、「コーヒー」「ミルク」のような「飲料」(酒類よりも上位概念)の範囲における類義語を取得することが期待できる。
このような技術の課題は、一般性の高い共起パターンを生成してしまうことにある。そのような共起パターンを用いることによって、対象単語集合に対して、本来の意味とは異なる意味の単語を取得してしまう場合がある。
例えば自動車の車種に関するカテゴリの集合を取得しようとして、「xを買う」や「xが好き」のような一般性の高い共起パターンを生成したとする。
この共起パターンを用いて、対象単語集合を「ウォッカ」「テキーラ」とした場合、「ウイスキー」「ブランデー」の他に、「新車」や「プリン」など関連の弱い類義語も取得してしまう。
この課題に対して、対象単語集合の上位下位関係を利用する技術がある(例えば非特許文献2参照)。この技術によれば、類義語の上位下位関係データに、「ウォッカ」「テキーラ」「焼酎」「ワイン」に共通の上位カテゴリとして「酒類」が蓄積されているとする。この場合、対象単語集合を「ウォッカ」「テキーラ」とした場合、共通の上位カテゴリ「酒類」に属する単語集合が、類義語として取得される。
そして、例えば「ウォッカ」「テキーラ」に共通して関連の強い共起パターン「xで酔う」を獲得する。この共起パターンを用いることによって、「焼酎」「ワイン」は関連の強い類義語候補となる。一方で、「新車」「プリン」は関連の弱い単語となる。これによって、「ウォッカ」「テキーラ」と関連の弱い類義語候補を、フィルタリングによって除外することができる。
また、同様の課題に対して、類義語の上位下位関係データを用いることなく、スニペットの列挙表現形式を利用する技術もある(例えば特許文献1参照)。この技術によれば、スニペットの列挙表現形式で区切られた区間で、対象単語の周辺に、その類義語候補が列挙されやすい傾向を利用して、類義語候補を取得している。
この列挙表現は、例えば「...ウォッカ、ジンライム、テキーラ、ブランデー、ウィスキー...」のように多くの区点で区切られている。このような区間は、区点間の文字列数の標準偏差を用いて抽出されている。例えば、対象単語「ウォッカ」「テキーラ」で検索することによって、以下のスニペットが得られる。
「・・・、ウォッカ、ジンライム、テキーラ、ブランデー、ウィスキー、・・・」
そして、「ウォッカ」「テキーラ」を含む単語が列挙された区間を推定し、対象単語から近い距離にある「ジンライム」「ブランデー」「ウィスキー」を類義語候補として獲得する。そして、対象単語と類義語候補とのそれぞれについて、前後の単語列を文脈とみなし、その文脈の類似度によって類義語を決定する。
特開2012−185666号公報
相澤彰子、「大規模テキストコーパスを用いた語の類似度計算に関する考察」、情報処理学会論文誌、2008年、Vol.49、No.3、p.1426〜p.1436、[online]、[平成25年7月22日検索]、インターネット<URL:http://ci.nii.ac.jp/naid/110006644536> 高瀬翔、岡崎直観、乾健太郎、「意味カテゴリの階層関係を活用した集合拡張」、言語処理学会、第18回年次大会、p.475〜p.478、[online]、[平成25年7月22日検索]、インターネット<URL:http://www.anlp.jp/proceedings/annual_meeting/2012/pdf_dir/D2-9.pdf>
しかしながら、非特許文献2に記載の技術によれば、上位下位関係データから、入力した対象単語集合に対する上位カテゴリが得られない場合、意味の異なる単語を類義語として獲得してしまう。例えば、対象単語「ウォッカ」「テキーラ」に対して、「酒類」のような共通の上位カテゴリが上位下位関係データに既に定義されていなければ、関連の弱い単語を除外するパターン「xで酔う」を獲得することができない。結果的に、関連の弱い「新車」「プリン」を類義語として獲得してしまう。また、固有名詞の単語に対しては、このような上位下位関係を得ることも難しい。
また、特許文献1に記載の技術によれば、対象単語を含んだ列挙表現の中に、類義語の候補が列挙されやすい傾向を利用している。しかしながら、商品名などの固有表現以外も含む任意の対象単語集合に対して、必ずしもそれらの単語を共に含んだ列挙表現が得られるとは限らない。
そこで、本発明は、シード単語(対象単語)と関連の弱い類義語候補が検索されることを回避するために、シード単語集合との共起の強さが共に高く且つ一般性の高いパターンを除外することができる共起パターンを生成するプログラム、方法、装置及びサーバを提供することを目的とする。
本発明によれば、複数の文章の中から類義語を検出するための共起パターンを生成するようにコンピュータを機能させるプログラムであって、
検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定するシード単語設定手段と、
複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
各単語列についてシード単語の部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と
してコンピュータを機能させることを特徴とする。
本発明のプログラムにおける他の実施形態によれば、
複数の文章の中から、共起パターンを用いて変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
シード単語s毎及び類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
シード単語sの共起パターンベクトルと、類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
してコンピュータを更に機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
類義語決定手段は、複数のシード単語sの共起パターンベクトルの相乗平均と、類義候補単語の共起パターンベクトルとの間の類似度を算出する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
特徴単語検出手段について、評価値Score(w)は、相互情報量基準によって算出するようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
シード文検索手段は、文章から、形態素解析によって形態素を抽出し、それら形態素の中にシード単語sを含むシード文を検索するものであり、
単語列検出手段は、所定長の単語列を、所定長の形態素列として検出する
ようにコンピュータを機能させることも好ましい。
本発明によれば、装置を用いて、複数の文章の中から類義語を検出するための共起パターンを生成する方法であって、
検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定する第1のステップと、
複数の文章の中から、各シード単語sが出現するシード文を検索する第2のステップと、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する第3のステップと、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する第4のステップと、
各単語列についてシード単語の部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する第5のステップと
を有することを特徴とする。
本発明の方法における他の実施形態によれば、
複数の文章の中から、共起パターンを用いて変数文字に合致する類義候補単語と類義候補単語出現数とを検索する第6のステップと、
シード単語s毎及び類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する第7のステップと、
シード単語sの共起パターンベクトルと、類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する第8のステップと
を更に有することも好ましい。
本発明によれば、複数の文章の中から類義語を検出するための共起パターンを生成する装置であって、
検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定するシード単語設定手段と、
複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
各単語列についてシード単語の部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と
を有することを特徴とする。
本発明の装置における他の実施形態によれば、
複数の文章の中から、共起パターンを用いて変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
シード単語s毎及び類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
シード単語sの共起パターンベクトルと、類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
を更に有することも好ましい。
本発明によれば、複数の文章の中から類義語を検出する類義語検索サーバであって、
クライアントから、検出すべき類義語のシードとなる1つ以上のシード単語sの集合を受信し且つ設定するシード単語設定手段と、
複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
各単語列についてシード単語の部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と、
複数の文章の中から、共起パターンを用いて変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
シード単語s毎及び類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
シード単語sの共起パターンベクトルと、類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
を有することを特徴とする。
本発明のプログラム、方法、装置及びサーバによれば、シード単語と関連の弱い類義語候補が検索されることを回避するために、シード単語集合との共起の強さが共に高く且つ一般性の高いパターンを除外することができる共起パターンを生成することができる。
本発明におけるプログラムの機能構成図である。 文章データベースに蓄積された文章データを表す説明図である。 シード単語及びシード文を表す説明図である。 特徴単語検出部によって算出された共通特徴スコアを表す説明図である。 複数の単語列からなる共起パターンを表す説明図である。 類義候補単語検出部によって検索された単語列を表す説明図である。 共起パターンベクトル算出部によって算出された共起類似度を表す説明図である。 本発明における類義語検索サーバを含むシステム構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるプログラムの機能構成図である。
図1によれば、類義語検索装置(又はサーバ)に搭載されたコンピュータを機能させるプログラムの構成が表されており、文章データベース10と、共起パターン生成プログラムと、類義語検出プログラムとから構成されている。これら機能構成部の処理の流れは、類義語検出装置及び類義語検出方法としても理解できる。
[文章データベース10]
文章データベース10は、類義語を検出するための大量の文章(テキストデータ)を蓄積している。大量の文章は、マスメディアによって配信されたものに限られず、ブログやSNS(Social Networking Service)よって発信されたものも含まれる。また、文章データベースは10は、文章毎に、形態素解析によって形態素に区分し、形態素毎の出現数も計数して蓄積する。形態素解析とは、文法及び単語辞書を情報源として用いて、自然言語で書かれた文を言語として意味を持つ最小単位である形態素(Morpheme)に分割する技術をいう。また、形態毎の品詞も判別して蓄積する。
図2は、文章データベースに蓄積された文章データを表す説明図である。
図2によれば、文章データベース10は、蓄積した文章に含まれる文毎に、文頭単語BOSと文末単語EOSとの間で複数の形態素に区分し、その単語w及び品詞を記憶する。
文:「新聞の囲碁欄を見たい」
BOS/新聞/の/囲碁欄/を/見たい/EOS
文:「教育は今後はどう?」
BOS/教育/は/今後/は/どう/EOS
BOSは、シード単語sから前方で最も近い文頭単語を意味し、EOSは、シード単語sから後方で最も近い文末単語を意味する。
そして、単語w毎に、大量の文章における出現数C(w)を記憶する。尚、全単語の出現数C(*)も記憶する。
<共起パターン生成プログラム>
共起パターン生成プログラムは、文章データベース10を用いて、大量の文章の中から類義語を検出するための「共起パターン」を生成する。図1によれば、共起パターン生成プログラムは、シード単語設定部11と、シード文検索部12と、特徴単語検出部13と、単語列検出部14と、共起パターン生成部15とを有する。
[シード単語設定部11]
シード単語設定部11は、検出すべき類義語のシードとなる1つの以上のシード単語sの集合を設定する。本発明によれば、「シード単語」とは「種」を意味し、その種に類する類義語を検出することができる。また、設定されるシード単語は、1語に限られず、複数語からなるシード単語集合であることが好ましい。ユーザによって設定されたシード単語集合は、シード文検索部12へ出力される。
図3は、シード単語及びシード文を表す説明図である。
図3によれば、シード単語集合として、例えば自動車メーカを意味する単語「A社」「B社」が設定されたとする。この場合、「A社」「B社」に対する類義語を検出することができる。
[シード文検索部12]
シード文検索部12は、文章データベース10を参照し、各シード単語sが出現するシード文(BOS/・・・/EOS)を検索する。ここでは、複数のシード文からなるシード文集合が検索される。
図3によれば、シード単語s毎に、以下のようなシード文が検索される。
BOS/中古車/で/買っ/た/A社/の/ガイア/です/EOS
BOS/現在/A社/純正/ナビ/に/・・・/EOS
BOS/B社/の/CM/は/CG/合成/です/か/EOS
BOS/B社/の/高級車/について・・・/EOS
検索されたシード文集合は、特徴単語検出部13へ出力される。
[特徴単語検出部13]
特徴単語検出部13は、(S1)全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、(S2)各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、(S3)評価値Score(w)が所定閾値以上となる共通特徴単語wを検出する。
図4は、特徴単語検出部によって算出された共通特徴スコアを表す説明図である。
(S1)全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出する。各シード単語sは、シード単語集合Sに含まれる各単語である(s∈S)。単語wとは、全てのシード文集合に出現する単語であって、この中から共通特徴単語が検出されることとなる。また、共起頻度とは、例えばシード文集合に対する出現数である。
図4によれば、例えば以下のように計数されている。尚、「*」は、変数文字としてのワイルドカードを意味し、何の語が含まれてもよい。
C(純正,*) =183回
C(純正,A社) =16回
C(純正,B社) =6回
・・・・
C(中古車,*) =2,616回
C(中古車,A社) =6回
C(中古車,B社) =7回
・・・・
C(発売する,*) =12,342回
C(発売する,A社)=8回
C(発売する,B社)=9回
・・・・
(S2)次に、各単語wについて全てのシード単語sに共通する共起頻度C(w,s)に基づく評価値Score(w)を算出する。評価値Score(w)は、例えば相互情報量(Mutual information)基準によって算出する。相互情報量基準とは、例えば2つの確率変数の相互依存の尺度を表す確率的手法をいい、対象単語に対して同義又は類義として共起する数の高い類義語を抽出するものである。
具体的には、シード単語s及び単語w毎に、以下の式によって値を算出する。
pmi(w,s)=log2{(C(*)・C(w,s))/(C(w)・C(s))}
図4によれば、例えば以下のように算出されている。
pmi(純正,A社)
=log2{(C(*)・C(純正,A社))/(C(純正)・C(A社))}
=log2{(15,315,752・16)/(183・263)}
=12.3139
pmi(純正,B社)
=log2{(C(*)・C(純正,B社))/(C(純正)・C(B社))}
=log2{(15,315,752・6)/(183・187)}
=11.3909
・・・
pmi(中古車,A社)
=log2{(C(*)・C(中古車,A社))/(C(中古車)・C(A社))}
=log2{(15,315,752・6)/(2,616・263)}
=7.0614
pmi(中古車,B社)
=log2{(C(*)・C(中古車,B社))/(C(中古車)・C(B社))}
=log2{(15,315,752・7)/(2,616・187)}
=7.7758
・・・
そして、単語w毎に、複数のシード単語sのpmiにおける相乗平均を、評価値Score(w)とする。図4によれば、評価値Score(w)は、単語w毎に、pmi(w,A社)とpmi(w,A社)との相乗平均とする。
(S3)最後に、評価値Score(w)が所定閾値以上となる共通特徴単語wを検出する。尚、評価値Score(w)が高い上位n個の単語wを、共通特徴単語wとしてもよい。
図4によれば、例えば、単語「発売する」は、一般的に社名や商品と共に用いられる単語であって、「高級車」「中古車」よりも共に共起頻度が高い値となっている。しかし、「発売する」の共起頻度総数C(発売する)が高いために、「発売する」の評価値Score(発売する)は、Score(高級車)やScore(中古車)よりも低い値となっている。
Score(発売する)=5.5594
Score(高級車) =9.9964
Score(中古車) =7.4100
図4によれば、例えば上位10個又は所定閾値6.0000以上となる共通特徴単語のみを選択する。
そして、特徴単語検出部13は、選択された共通特徴単語を、単語列検出部14へ出力する。
[単語列検出部14]
単語列検出部14は、シード単語s及び共通特徴単語wが共に出現する所定長の単語列を検出する。所定長の単語列は、所定長の形態素列である。例えば所定長は2文字以上であって、少なくともシード単語s及び共通特徴単語wを含む。
図5は、複数の単語列からなる共起パターンを表す説明図である。
図5によれば、所定長は3文字であって、シード単語s及び共通特徴単語wを含む。例えば、以下のような単語列が検出されている。
「A社純正部品」 「B社純正部品」
「A社の高級車」 「B社の高級車」
「A社が参戦し」 「B社が参戦し」
「A社新型セダン」「B社新型セダン」
「中古のA社」 「中古のB社」
検出された単語列は、共起パターン生成部15へ出力される。
[共起パターン生成部15]
共起パターン生成部15は、各単語列についてシード単語の部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する。
図5によれば、以下のようにワイルドカードに置き換えた共起パターンが生成されている。尚、各共起パターンには、固有の共起パターン番号が付与されている。
1:「*純正部品」
2:「*の高級車」
3:「*が参戦し」
4:「*新型セダン」
5:「中古の*」
具体的には、「xを発売する」のような一般的な共起パターンは、低い評価値となることによって除外されることとなる。
これによって、シード単語と関連の弱い類義語候補が検索されることを回避するために、シード単語集合との共起の強さが共に高く且つ一般性の高いパターンを除外することができる共起パターンを生成することができる。
<類義語検出プログラム>
類義語検出プログラムは、生成された共起パターンを用いて、文章データベース10から類義語を検出する。図1によれば、類義語検出は、類義候補単語検出部16と、共起パターンベクトル算出部17と、類義語決定部18とを有する。
[類義候補単語検出部16]
類義候補単語検出部16は、大量の文章の中から、共起パターンに当てはまる単語列を検索する。
図6は、類義候補単語検出部によって検索された単語列を表す説明図である。
例えば以下のような単語列が検索される。
「C社純正部品」「メーカ純正部品」「D社純正部品」
「C社の高級車」「D社の高級車」「外国の高級車」
「D社が参戦し」「E社が参戦し」
「C社新型セダン」「D社新型セダン」
「中古のC社」「中古のF社」
・・・
ここで、変数文字(ワイルドカード)の部分に当てはまる全単語を「類義語候補」とする。検出された類義候補単語は、共起パターンベクトル算出部17へ出力される。
[共起パターンベクトル算出部17]
共起パターンベクトル算出部17は、シード単語s毎及び類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する。
図7は、共起パターンベクトル算出部によって算出された共起類似度を表す説明図である。
図7によれば、シード単語s毎及び類義候補単語毎に、共起パターン番号を要素として、その単語の出現数が表されている。共起パターンベクトルは、類義語決定部18へ出力される。
[類義語決定部18]
類義語決定部18は、シード単語sの共起パターンベクトルと、類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する。
シード単語sの共起パターンベクトルは、複数のシード単語sの共起パターンベクトルの相乗平均である。
また、類似度とは、cos類似度であってもよい。cos類似度は、類義語候補毎に、各共起パターン番号を要素とするベクトルと、全シード単語に対応する共起パターン番号を要素とするベクトルとの和をとったものである。尚、cos類似度とは、ベクトル同士の成す角度の近さを表現し、1に近ければ類似しており、0に近ければ類似していないことになる。
具体的には、図7によれば、シード単語となる「A社」の共起出現数と、「B社」の共起出現数との和となる共起パターンのベクトルを算出する。そして、この共起パターンのベクトルと、各類義候補単語「C社」「D社」「メーカ」等とのcos類似度を共起類似度として算出する。
最終的に、共起類似度の上位m個の類義候補単語を、類義語として出力する。図7によれば、類義候補単語「メーカ」は、対象単語「A社」「B社」の上位カテゴリに相当する単語であるが、文章中での使われ方が異なることから、「C社」「C社」に比べて共起類似度は低い値となる。
図8は、本発明における類義語検索サーバを含むシステム構成図である。
図8によれば、前述した類義語検索サーバ(装置)が、インターネットのようなネットワークに接続されている。インターネットには、マスメディアサーバや、ブログサーバ、SNSサーバ等が接続されている。マスメディアサーバは、一定の質を保った文章を公開する。また、ブログサーバやSNSサーバは、ユーザ端末から発信された投稿文章を公開する。特に、個人によって投稿された文章は、個人が様々な社会的又は文化的な話題について意見及び感想を述べたものであって、時代背景を最も反映したものであることが多い。類義語検索サーバ1は、これら外部サーバ3から、文章(テキストデータ)を収集することができる。勿論、類義語検索サーバ1は、予め大量の文章をディスクに蓄積したものであってもよい。
また、ユーザ端末2から、類義語検索サーバ1へ、ユーザによって入力されたシード単語をクエリとして要求することができる。これに対し、類義語検索サーバ1は、前述した図1の処理によって検索した類義語を応答することができる。このようなシーケンスは、ユーザ端末2にインストールされた言語アプリケーションによって利用することができる。
以上、詳細に説明したように、本発明のプログラム、方法、装置及びサーバによれば、シード単語と関連の弱い類義語候補が検索されることを回避するために、シード単語集合との共起の強さが共に高く且つ一般性の高いパターンを除外することができる共起パターンを生成することができる。この共起パターンを用いることによって、シード単語と関連の弱い類義語が検出されることを回避することができる。そのために、従来技術のような単語集合における上位下位関係データベースを必要としない。また、本発明によれば、類義語を獲得するためのテキストデータの表現形式も問わない。
従来技術の例に従って、「ウォッカ」「テキーラ」を対象単語として設定したとする。この場合、一般性の高い共起パターンでは、「xを買う」や「xが好き」も現れるために、対象単語と関連の弱い「新車」や「プリン」も獲得していた。このような共起パターンは、他の単語とも多く共起している。従って、単語「買う」「好き」から見て、対象単語「ウォッカ」「テキーラ」がその他の単語との共起の強さを比較する。ここで、「ウォッカ」「テキーラ」との共起が相対的に弱い単語を用いることなく、類義語候補を検索するための共起パターンを生成する。これによって、「新車」や「プリン」のような類義語を検出しないようにすることができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 類義語検索装置、類義語検索サーバ
10 文章データベース
11 シード単語設定部
12 シード文検索部
13 特徴単語検出部
14 単語列検出部
15 共起パターン生成部
16 類義候補単語検出部
17 共起パターンベクトル算出部
18 類義語決定部
2 ユーザ端末
3 外部サーバ

Claims (10)

  1. 複数の文章の中から類義語を検出するための共起パターンを生成するようにコンピュータを機能させるプログラムであって、
    検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定するシード単語設定手段と、
    複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
    全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
    シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
    各単語列について前記シード単語の部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と
    してコンピュータを機能させることを特徴とするプログラム。
  2. 前記複数の文章の中から、前記共起パターンを用いて前記変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
    前記シード単語s毎及び前記類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
    前記シード単語sの共起パターンベクトルと、前記類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
    してコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
  3. 前記類義語決定手段は、複数のシード単語sの共起パターンベクトルの相乗平均と、前記類義候補単語の共起パターンベクトルとの間の類似度を算出する
    ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
  4. 前記特徴単語検出手段について、前記評価値Score(w)は、相互情報量基準によって算出するようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
  5. 前記シード文検索手段は、前記文章から、形態素解析によって形態素を抽出し、それら形態素の中にシード単語sを含むシード文を検索するものであり、
    前記単語列検出手段は、前記所定長の単語列を、所定長の形態素列として検出する
    ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。
  6. 装置を用いて、複数の文章の中から類義語を検出するための共起パターンを生成する方法であって、
    検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定する第1のステップと、
    複数の文章の中から、各シード単語sが出現するシード文を検索する第2のステップと、
    全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する第3のステップと、
    シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する第4のステップと、
    各単語列について前記シード単語の部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する第5のステップと
    を有することを特徴とする方法。
  7. 前記複数の文章の中から、前記共起パターンを用いて前記変数文字に合致する類義候補単語と類義候補単語出現数とを検索する第6のステップと、
    前記シード単語s毎及び前記類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する第7のステップと、
    前記シード単語sの共起パターンベクトルと、前記類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する第8のステップと
    を更に有することを特徴とする請求項6に記載の方法。
  8. 複数の文章の中から類義語を検出するための共起パターンを生成する装置であって、
    検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定するシード単語設定手段と、
    複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
    全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
    シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
    各単語列について前記シード単語の部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と
    を有することを特徴とする装置。
  9. 前記複数の文章の中から、前記共起パターンを用いて前記変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
    前記シード単語s毎及び前記類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
    前記シード単語sの共起パターンベクトルと、前記類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
    を更に有することを特徴とする請求項8に記載の装置。
  10. 複数の文章の中から類義語を検出する類義語検索サーバであって、
    クライアントから、検出すべき類義語のシードとなる1つ以上のシード単語sの集合を受信し且つ設定するシード単語設定手段と、
    複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
    全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
    シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
    各単語列について前記シード単語の部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と、
    前記複数の文章の中から、前記共起パターンを用いて前記変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
    前記シード単語s毎及び前記類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
    前記シード単語sの共起パターンベクトルと、前記類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
    を有することを特徴とする類義語検索サーバ。
JP2013162821A 2013-08-05 2013-08-05 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ Expired - Fee Related JP6049201B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013162821A JP6049201B2 (ja) 2013-08-05 2013-08-05 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013162821A JP6049201B2 (ja) 2013-08-05 2013-08-05 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ

Publications (2)

Publication Number Publication Date
JP2015032228A JP2015032228A (ja) 2015-02-16
JP6049201B2 true JP6049201B2 (ja) 2016-12-21

Family

ID=52517469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013162821A Expired - Fee Related JP6049201B2 (ja) 2013-08-05 2013-08-05 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ

Country Status (1)

Country Link
JP (1) JP6049201B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294476B (zh) * 2015-06-05 2020-10-16 北京搜狗科技发展有限公司 一种特征词关系获取方法及装置
KR101757047B1 (ko) 2015-06-18 2017-07-12 재단법인 전통천연물기반 유전자동의보감 사업단 단어 공기 협력병렬검색방법
JP6531025B2 (ja) * 2015-10-19 2019-06-12 日本電信電話株式会社 単語拡張装置、分類装置、機械学習装置、方法、及びプログラム
CN109918661B (zh) * 2019-03-04 2023-05-30 腾讯科技(深圳)有限公司 同义词获取方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4593967B2 (ja) * 2004-05-11 2010-12-08 独立行政法人情報通信研究機構 表示システム
JP5042268B2 (ja) * 2009-04-28 2012-10-03 ヤフー株式会社 適正単語取得装置、機械学習装置及び方法
JP5696555B2 (ja) * 2011-03-28 2015-04-08 富士ゼロックス株式会社 プログラム及び情報処理装置

Also Published As

Publication number Publication date
JP2015032228A (ja) 2015-02-16

Similar Documents

Publication Publication Date Title
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
US9201880B2 (en) Processing a content item with regard to an event and a location
TWI512507B (zh) A method and apparatus for providing multi-granularity word segmentation results
US9805025B2 (en) Standard exact clause detection
US9679001B2 (en) Consensus search device and method
Bellaachia et al. Ne-rank: A novel graph-based keyphrase extraction in twitter
JP6466952B2 (ja) 文章生成システム
US10685181B2 (en) Linguistic expression of preferences in social media for prediction and recommendation
Cassidy et al. Analysis and enhancement of wikification for microblogs with context expansion
RU2636098C1 (ru) Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения
US8515731B1 (en) Synonym verification
JP6251562B2 (ja) 同一意図の類似文を作成するプログラム、装置及び方法
US9529847B2 (en) Information processing apparatus, information processing method, and program for extracting co-occurrence character strings
Zainuddin et al. Improving twitter aspect-based sentiment analysis using hybrid approach
JP6049201B2 (ja) 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
WO2016088230A1 (ja) 因果関係分析装置、及び因果関係分析方法
Saghayan et al. Exploring the impact of machine translation on fake news detection: A case study on persian tweets about covid-19
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
JP2011253256A (ja) 関連コンテンツ提示装置及びプログラム
KR101928074B1 (ko) 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법
GB2572320A (en) Hate speech detection system for online media content
Belkaroui et al. Conversational based method for tweet contextualization
Hamroun et al. Large scale microblogging intentions analysis with pattern based approach
Manivannan et al. Optimizing Cross Domain Sentiment Analysis Using Hidden Markov Continual Progression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161121

R150 Certificate of patent or registration of utility model

Ref document number: 6049201

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees