JP6049201B2 - 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ - Google Patents
類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ Download PDFInfo
- Publication number
- JP6049201B2 JP6049201B2 JP2013162821A JP2013162821A JP6049201B2 JP 6049201 B2 JP6049201 B2 JP 6049201B2 JP 2013162821 A JP2013162821 A JP 2013162821A JP 2013162821 A JP2013162821 A JP 2013162821A JP 6049201 B2 JP6049201 B2 JP 6049201B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- seed
- occurrence pattern
- occurrence
- synonym
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
例えば対象単語集合を「ウォッカ」「テキーラ」とした場合は、「ウイスキー」「ブランデー」ような「酒類」の範囲における類義語を取得することが期待できる。
一方で、対象単語集合を「ウォッカ」「麦茶」とした場合、「コーヒー」「ミルク」のような「飲料」(酒類よりも上位概念)の範囲における類義語を取得することが期待できる。
例えば自動車の車種に関するカテゴリの集合を取得しようとして、「xを買う」や「xが好き」のような一般性の高い共起パターンを生成したとする。
この共起パターンを用いて、対象単語集合を「ウォッカ」「テキーラ」とした場合、「ウイスキー」「ブランデー」の他に、「新車」や「プリン」など関連の弱い類義語も取得してしまう。
そして、例えば「ウォッカ」「テキーラ」に共通して関連の強い共起パターン「xで酔う」を獲得する。この共起パターンを用いることによって、「焼酎」「ワイン」は関連の強い類義語候補となる。一方で、「新車」「プリン」は関連の弱い単語となる。これによって、「ウォッカ」「テキーラ」と関連の弱い類義語候補を、フィルタリングによって除外することができる。
「・・・、ウォッカ、ジンライム、テキーラ、ブランデー、ウィスキー、・・・」
そして、「ウォッカ」「テキーラ」を含む単語が列挙された区間を推定し、対象単語から近い距離にある「ジンライム」「ブランデー」「ウィスキー」を類義語候補として獲得する。そして、対象単語と類義語候補とのそれぞれについて、前後の単語列を文脈とみなし、その文脈の類似度によって類義語を決定する。
検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定するシード単語設定手段と、
複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
各単語列についてシード単語sの部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と
してコンピュータを機能させることを特徴とする。
複数の文章の中から、共起パターンを用いて変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
シード単語s毎及び類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
シード単語sの共起パターンベクトルと、類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
してコンピュータを更に機能させることも好ましい。
類義語決定手段は、複数のシード単語sの共起パターンベクトルの相乗平均と、類義候補単語の共起パターンベクトルとの間の類似度を算出する
ようにコンピュータを機能させることも好ましい。
特徴単語検出手段について、評価値Score(w)は、相互情報量基準によって算出するようにコンピュータを機能させることも好ましい。
シード文検索手段は、文章から、形態素解析によって形態素を抽出し、それら形態素の中にシード単語sを含むシード文を検索するものであり、
単語列検出手段は、所定長の単語列を、所定長の形態素列として検出する
ようにコンピュータを機能させることも好ましい。
検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定する第1のステップと、
複数の文章の中から、各シード単語sが出現するシード文を検索する第2のステップと、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する第3のステップと、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する第4のステップと、
各単語列についてシード単語sの部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する第5のステップと
を有することを特徴とする。
複数の文章の中から、共起パターンを用いて変数文字に合致する類義候補単語と類義候補単語出現数とを検索する第6のステップと、
シード単語s毎及び類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する第7のステップと、
シード単語sの共起パターンベクトルと、類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する第8のステップと
を更に有することも好ましい。
検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定するシード単語設定手段と、
複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
各単語列についてシード単語sの部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と
を有することを特徴とする。
複数の文章の中から、共起パターンを用いて変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
シード単語s毎及び類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
シード単語sの共起パターンベクトルと、類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
を更に有することも好ましい。
クライアントから、検出すべき類義語のシードとなる1つ以上のシード単語sの集合を受信し且つ設定するシード単語設定手段と、
複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
各単語列についてシード単語sの部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と、
複数の文章の中から、共起パターンを用いて変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
シード単語s毎及び類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
シード単語sの共起パターンベクトルと、類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
を有することを特徴とする。
文章データベース10は、類義語を検出するための大量の文章(テキストデータ)を蓄積している。大量の文章は、マスメディアによって配信されたものに限られず、ブログやSNS(Social Networking Service)よって発信されたものも含まれる。また、文章データベースは10は、文章毎に、形態素解析によって形態素に区分し、形態素毎の出現数も計数して蓄積する。形態素解析とは、文法及び単語辞書を情報源として用いて、自然言語で書かれた文を言語として意味を持つ最小単位である形態素(Morpheme)に分割する技術をいう。また、形態毎の品詞も判別して蓄積する。
文:「新聞の囲碁欄を見たい」
BOS/新聞/の/囲碁欄/を/見たい/EOS
文:「教育は今後はどう?」
BOS/教育/は/今後/は/どう/EOS
BOSは、シード単語sから前方で最も近い文頭単語を意味し、EOSは、シード単語sから後方で最も近い文末単語を意味する。
そして、単語w毎に、大量の文章における出現数C(w)を記憶する。尚、全単語の出現数C(*)も記憶する。
共起パターン生成プログラムは、文章データベース10を用いて、大量の文章の中から類義語を検出するための「共起パターン」を生成する。図1によれば、共起パターン生成プログラムは、シード単語設定部11と、シード文検索部12と、特徴単語検出部13と、単語列検出部14と、共起パターン生成部15とを有する。
シード単語設定部11は、検出すべき類義語のシードとなる1つの以上のシード単語sの集合を設定する。本発明によれば、「シード単語」とは「種」を意味し、その種に類する類義語を検出することができる。また、設定されるシード単語は、1語に限られず、複数語からなるシード単語集合であることが好ましい。ユーザによって設定されたシード単語集合は、シード文検索部12へ出力される。
シード文検索部12は、文章データベース10を参照し、各シード単語sが出現するシード文(BOS/・・・/EOS)を検索する。ここでは、複数のシード文からなるシード文集合が検索される。
図3によれば、シード単語s毎に、以下のようなシード文が検索される。
BOS/中古車/で/買っ/た/A社/の/ガイア/です/EOS
BOS/現在/A社/純正/ナビ/に/・・・/EOS
BOS/B社/の/CM/は/CG/合成/です/か/EOS
BOS/B社/の/高級車/について・・・/EOS
検索されたシード文集合は、特徴単語検出部13へ出力される。
特徴単語検出部13は、(S1)全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、(S2)各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、(S3)評価値Score(w)が所定閾値以上となる共通特徴単語wを検出する。
C(純正,*) =183回
C(純正,A社) =16回
C(純正,B社) =6回
・・・・
C(中古車,*) =2,616回
C(中古車,A社) =6回
C(中古車,B社) =7回
・・・・
C(発売する,*) =12,342回
C(発売する,A社)=8回
C(発売する,B社)=9回
・・・・
pmi(w,s)=log2{(C(*)・C(w,s))/(C(w)・C(s))}
図4によれば、例えば以下のように算出されている。
pmi(純正,A社)
=log2{(C(*)・C(純正,A社))/(C(純正)・C(A社))}
=log2{(15,315,752・16)/(183・263)}
=12.3139
pmi(純正,B社)
=log2{(C(*)・C(純正,B社))/(C(純正)・C(B社))}
=log2{(15,315,752・6)/(183・187)}
=11.3909
・・・
pmi(中古車,A社)
=log2{(C(*)・C(中古車,A社))/(C(中古車)・C(A社))}
=log2{(15,315,752・6)/(2,616・263)}
=7.0614
pmi(中古車,B社)
=log2{(C(*)・C(中古車,B社))/(C(中古車)・C(B社))}
=log2{(15,315,752・7)/(2,616・187)}
=7.7758
・・・
図4によれば、例えば、単語「発売する」は、一般的に社名や商品と共に用いられる単語であって、「高級車」「中古車」よりも共に共起頻度が高い値となっている。しかし、「発売する」の共起頻度総数C(発売する)が高いために、「発売する」の評価値Score(発売する)は、Score(高級車)やScore(中古車)よりも低い値となっている。
Score(発売する)=5.5594
Score(高級車) =9.9964
Score(中古車) =7.4100
図4によれば、例えば上位10個又は所定閾値6.0000以上となる共通特徴単語のみを選択する。
そして、特徴単語検出部13は、選択された共通特徴単語を、単語列検出部14へ出力する。
単語列検出部14は、シード単語s及び共通特徴単語wが共に出現する所定長の単語列を検出する。所定長の単語列は、所定長の形態素列である。例えば所定長は2文字以上であって、少なくともシード単語s及び共通特徴単語wを含む。
「A社純正部品」 「B社純正部品」
「A社の高級車」 「B社の高級車」
「A社が参戦し」 「B社が参戦し」
「A社新型セダン」「B社新型セダン」
「中古のA社」 「中古のB社」
検出された単語列は、共起パターン生成部15へ出力される。
共起パターン生成部15は、各単語列についてシード単語の部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する。
1:「*純正部品」
2:「*の高級車」
3:「*が参戦し」
4:「*新型セダン」
5:「中古の*」
具体的には、「xを発売する」のような一般的な共起パターンは、低い評価値となることによって除外されることとなる。
類義語検出プログラムは、生成された共起パターンを用いて、文章データベース10から類義語を検出する。図1によれば、類義語検出は、類義候補単語検出部16と、共起パターンベクトル算出部17と、類義語決定部18とを有する。
類義候補単語検出部16は、大量の文章の中から、共起パターンに当てはまる単語列を検索する。
「C社純正部品」「メーカ純正部品」「D社純正部品」
「C社の高級車」「D社の高級車」「外国の高級車」
「D社が参戦し」「E社が参戦し」
「C社新型セダン」「D社新型セダン」
「中古のC社」「中古のF社」
・・・
ここで、変数文字(ワイルドカード)の部分に当てはまる全単語を「類義語候補」とする。検出された類義候補単語は、共起パターンベクトル算出部17へ出力される。
共起パターンベクトル算出部17は、シード単語s毎及び類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する。
類義語決定部18は、シード単語sの共起パターンベクトルと、類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する。
シード単語sの共起パターンベクトルは、複数のシード単語sの共起パターンベクトルの相乗平均である。
また、類似度とは、cos類似度であってもよい。cos類似度は、類義語候補毎に、各共起パターン番号を要素とするベクトルと、全シード単語に対応する共起パターン番号を要素とするベクトルとの和をとったものである。尚、cos類似度とは、ベクトル同士の成す角度の近さを表現し、1に近ければ類似しており、0に近ければ類似していないことになる。
10 文章データベース
11 シード単語設定部
12 シード文検索部
13 特徴単語検出部
14 単語列検出部
15 共起パターン生成部
16 類義候補単語検出部
17 共起パターンベクトル算出部
18 類義語決定部
2 ユーザ端末
3 外部サーバ
Claims (10)
- 複数の文章の中から類義語を検出するための共起パターンを生成するようにコンピュータを機能させるプログラムであって、
検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定するシード単語設定手段と、
複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
各単語列について前記シード単語sの部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と
してコンピュータを機能させることを特徴とするプログラム。 - 前記複数の文章の中から、前記共起パターンを用いて前記変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
前記シード単語s毎及び前記類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
前記シード単語sの共起パターンベクトルと、前記類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
してコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 - 前記類義語決定手段は、複数のシード単語sの共起パターンベクトルの相乗平均と、前記類義候補単語の共起パターンベクトルとの間の類似度を算出する
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。 - 前記特徴単語検出手段について、前記評価値Score(w)は、相互情報量基準によって算出するようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
- 前記シード文検索手段は、前記文章から、形態素解析によって形態素を抽出し、それら形態素の中にシード単語sを含むシード文を検索するものであり、
前記単語列検出手段は、前記所定長の単語列を、所定長の形態素列として検出する
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。 - 装置を用いて、複数の文章の中から類義語を検出するための共起パターンを生成する方法であって、
検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定する第1のステップと、
複数の文章の中から、各シード単語sが出現するシード文を検索する第2のステップと、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する第3のステップと、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する第4のステップと、
各単語列について前記シード単語sの部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する第5のステップと
を有することを特徴とする方法。 - 前記複数の文章の中から、前記共起パターンを用いて前記変数文字に合致する類義候補単語と類義候補単語出現数とを検索する第6のステップと、
前記シード単語s毎及び前記類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する第7のステップと、
前記シード単語sの共起パターンベクトルと、前記類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する第8のステップと
を更に有することを特徴とする請求項6に記載の方法。 - 複数の文章の中から類義語を検出するための共起パターンを生成する装置であって、
検出すべき類義語のシードとなる1つ以上のシード単語sの集合を設定するシード単語設定手段と、
複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
各単語列について前記シード単語sの部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と
を有することを特徴とする装置。 - 前記複数の文章の中から、前記共起パターンを用いて前記変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
前記シード単語s毎及び前記類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
前記シード単語sの共起パターンベクトルと、前記類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
を更に有することを特徴とする請求項8に記載の装置。 - 複数の文章の中から類義語を検出する類義語検索サーバであって、
クライアントから、検出すべき類義語のシードとなる1つ以上のシード単語sの集合を受信し且つ設定するシード単語設定手段と、
複数の文章の中から、各シード単語sが出現するシード文を検索するシード文検索手段と、
全てのシード文を用いて各シード単語s及び各単語wが出現する共起頻度C(w,s)を算出し、各単語wについて全てのシード単語sに共通する共起頻度に基づく評価値Score(w)を算出し、該評価値Score(w)が所定閾値以上となる共通特徴の単語wを検出する特徴単語検出手段と、
シード単語s及び共通特徴の単語wが共に出現する所定長の単語列を検出する単語列検出手段と、
各単語列について前記シード単語sの部分を変数文字(ワイルドカード)に置き換えた共起パターンを生成する共起パターン生成手段と、
前記複数の文章の中から、前記共起パターンを用いて前記変数文字に合致する類義候補単語と類義候補単語出現数とを検索する類義候補単語検出手段と、
前記シード単語s毎及び前記類義候補単語毎に、共起パターン番号を要素とする類義候補単語出現数の共起パターンベクトルを算出する共起パターンベクトル算出手段と、
前記シード単語sの共起パターンベクトルと、前記類義候補単語の共起パターンベクトルとの間の類似度が所定閾値以上となる当該類義候補単語を、類義語として出力する類義語決定手段と
を有することを特徴とする類義語検索サーバ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013162821A JP6049201B2 (ja) | 2013-08-05 | 2013-08-05 | 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013162821A JP6049201B2 (ja) | 2013-08-05 | 2013-08-05 | 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015032228A JP2015032228A (ja) | 2015-02-16 |
JP6049201B2 true JP6049201B2 (ja) | 2016-12-21 |
Family
ID=52517469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013162821A Expired - Fee Related JP6049201B2 (ja) | 2013-08-05 | 2013-08-05 | 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6049201B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294476B (zh) * | 2015-06-05 | 2020-10-16 | 北京搜狗科技发展有限公司 | 一种特征词关系获取方法及装置 |
KR101757047B1 (ko) | 2015-06-18 | 2017-07-12 | 재단법인 전통천연물기반 유전자동의보감 사업단 | 단어 공기 협력병렬검색방법 |
JP6531025B2 (ja) * | 2015-10-19 | 2019-06-12 | 日本電信電話株式会社 | 単語拡張装置、分類装置、機械学習装置、方法、及びプログラム |
CN109918661B (zh) * | 2019-03-04 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 同义词获取方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4593967B2 (ja) * | 2004-05-11 | 2010-12-08 | 独立行政法人情報通信研究機構 | 表示システム |
JP5042268B2 (ja) * | 2009-04-28 | 2012-10-03 | ヤフー株式会社 | 適正単語取得装置、機械学習装置及び方法 |
JP5696555B2 (ja) * | 2011-03-28 | 2015-04-08 | 富士ゼロックス株式会社 | プログラム及び情報処理装置 |
-
2013
- 2013-08-05 JP JP2013162821A patent/JP6049201B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015032228A (ja) | 2015-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241538B (zh) | 基于关键词和动词依存的中文实体关系抽取方法 | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
TWI512507B (zh) | A method and apparatus for providing multi-granularity word segmentation results | |
US9805025B2 (en) | Standard exact clause detection | |
US9679001B2 (en) | Consensus search device and method | |
Bellaachia et al. | Ne-rank: A novel graph-based keyphrase extraction in twitter | |
JP6466952B2 (ja) | 文章生成システム | |
US10685181B2 (en) | Linguistic expression of preferences in social media for prediction and recommendation | |
Cassidy et al. | Analysis and enhancement of wikification for microblogs with context expansion | |
RU2636098C1 (ru) | Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения | |
US8515731B1 (en) | Synonym verification | |
JP6251562B2 (ja) | 同一意図の類似文を作成するプログラム、装置及び方法 | |
US9529847B2 (en) | Information processing apparatus, information processing method, and program for extracting co-occurrence character strings | |
Zainuddin et al. | Improving twitter aspect-based sentiment analysis using hybrid approach | |
JP6049201B2 (ja) | 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ | |
Hillard et al. | Learning weighted entity lists from web click logs for spoken language understanding | |
WO2016088230A1 (ja) | 因果関係分析装置、及び因果関係分析方法 | |
Saghayan et al. | Exploring the impact of machine translation on fake news detection: A case study on persian tweets about covid-19 | |
Rathan et al. | Every post matters: a survey on applications of sentiment analysis in social media | |
JP2011253256A (ja) | 関連コンテンツ提示装置及びプログラム | |
KR101928074B1 (ko) | 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법 | |
GB2572320A (en) | Hate speech detection system for online media content | |
Belkaroui et al. | Conversational based method for tweet contextualization | |
Hamroun et al. | Large scale microblogging intentions analysis with pattern based approach | |
Manivannan et al. | Optimizing Cross Domain Sentiment Analysis Using Hidden Markov Continual Progression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6049201 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |