JP6173958B2 - 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 - Google Patents
複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 Download PDFInfo
- Publication number
- JP6173958B2 JP6173958B2 JP2014065222A JP2014065222A JP6173958B2 JP 6173958 B2 JP6173958 B2 JP 6173958B2 JP 2014065222 A JP2014065222 A JP 2014065222A JP 2014065222 A JP2014065222 A JP 2014065222A JP 6173958 B2 JP6173958 B2 JP 6173958B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- predicate term
- term structure
- question
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1)ユーザから入力された質問文から、特徴的な単語をクエリとして抽出する。
(2)検索エンジンを用いて、複数のクエリの出現頻度が高い仮想質問文を選択する。
(3)選択された仮想選択文に対する回答文を選択する。
(4)選択された回答文をユーザに提示する。
Q「携帯電話機の紛失」
この質問文に対して、質問回答システムは、以下の2つキーワードを抽出する。
「携帯電話機」「紛失」
これらキーワードをクエリとして回答文を検索すると、複数の回答の選択肢がある。
A「携帯探せて安心サービスの申込方法」に関する回答文
A「携帯探せて安心サービスの利用方法」に関する回答文
この場合、ユーザとしては、紛失した携帯電話機を遠隔からロックする「利用方法」を問い合わせたつもりであるにも拘わらず、質問回答システムは、「申込方法」について回答してしまう場合もある。
登録機能として、
学習用の要素ビット列の集合に対して、要素ビット列毎に、情報量規準値を算出する情報量規準値算出手段と、
情報量規準値が所定閾値以上となる要素ビット列毎に、ハッシュテーブルを生成すると共に、情報量規準値が所定閾値よりも小さい要素ビット列全てに対して、1つのハッシュテーブルを生成するハッシュテーブル生成手段と
を有し、
検索機能として、
キーの要素ビット列に対して、当該キーの要素ビット列に対応するハッシュテーブルを用いて検索するハッシュ検索手段と
してコンピュータを機能させることを特徴とする。
情報量規準値算出手段は、赤池情報量規準(AIC:Akaike's Information Criterion)を用いて、情報量規準値Uは、以下のように算出される
n11=要素ビット列
n12=要素ビットの0ビット部分の値を問わない場合の数
n21=要素ビットの1ビット部分の値を問わない場合の数
n22=n11、n12、n13以外の数
MLL_IM=(n11+n12) log(n11+n12)+(n11+n21) log(n11+n21)
+(n21+n22) log(n21+n22)+(n12+n22) log(n12+n22)−2 N log N
MLL_DM=n11 log n11+n12 log n12+n21 log n21+n22 log n22−N log N
AIC_IM=-2 × MLL_IM + 2×2
AIC_DM=-2 × MLL_DM + 2×3
U=AIC_IM − AIC_DM
ようにコンピュータを機能させることも好ましい。
文章毎に、述語項構造(述語、格、目的語)を抽出する述語項構造抽出手段と、
述語項構造毎に、1つ以上の「格」の存在の有無を表す要素ビット列を抽出する要素ビット列抽出手段と
を有し、
登録機能として、学習文章の集合に対して、述語項構造抽出手段及び要素ビット列抽出手段を実行した後、情報量規準値算出手段及びハッシュテーブル生成手段を実行し、
検索機能として、対象文章の集合に対して、述語項構造抽出手段及び要素ビット列抽出手段を実行した後、要素ビット列に対応するハッシュテーブルを選択し、そのハッシュテーブルに対して述語項構造をキーとして検索し、検索された要素に、出現頻度として1増分し、文章毎における各述語項構造の出現頻度を計数する
ようにコンピュータを機能させることも好ましい。
文章を、分類された各トピックグループに属する確からしさ(トピック比率)を算出するLDA(Latent Dirichlet Allocation)アルゴリズムを用いて、いずれか1つのトピックグループに分類するために、文章毎の述語項構造を計数するべく、請求項3に記載のプログラムを用いて、トピックを分類するトピック分類手段として
コンピュータを機能させることも好ましい。
質問文を入力する質問文入力手段と、
質問文に含まれる複数の質問キーワードを抽出する質問キーワード抽出手段と、
コメント文章蓄積部を用いて、質問キーワードを含むコメント文章を検索するコメント文章検索手段と、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する、前述したトピック分類手段と、
各トピックグループに含まれるコメント文章群と、各回答文に含まれる文章との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける回答文検出手段と、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する代表述語項構造抽出手段と、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する差分述語項構造抽出手段と、
回答文検出手段によって検出された回答文を、対応する1つ以上の差分述語項構造に基づく文章と共に明示する回答文出力手段と
してコンピュータを機能させることを特徴とする。
複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させる差分述語項構造選択手段を更に有し、
回答文出力手段は、選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示する
ようにコンピュータを機能させることも好ましい。
回答文検出手段は、
各トピックグループに含まれるコメント文章群から、述語項構造解析によって述語項構造を抽出すると共に、トピックグループにおける第1の特徴ベクトルを算出し、
回答文蓄積部に蓄積された各回答文から、述語項構造解析によって述語項構造を抽出すると共に当該回答文における第2の特徴ベクトルとを算出し、
トピックグループの第1のベクトルと、回答文の第2のベクトルとの間のコサイン距離に基づいて類似度を算出する
ようにコンピュータを機能させることも好ましい。
代表述語項構造抽出手段は、各トピックグループの代表述語項構造を、赤池情報量基準に応じて優先順に並べるようにコンピュータを機能させることも好ましい。
コメント文章は、不特定多数の第三者によって投稿されたものであって、
コメント文章蓄積部は、ミニブログ(mini Web log)サーバに投稿されたコメント文章を収集し蓄積したものであるようにコンピュータを機能させることも好ましい。
端末から、質問文を入力する質問文入力手段と、
質問文に含まれる複数の質問キーワードを抽出する質問キーワード抽出手段と、
コメント文章蓄積部を用いて、質問キーワードを含むコメント文章を検索するコメント文章検索手段と、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する、請求項4に記載のトピック分類手段と、
各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける回答文検出手段と、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する代表述語項構造抽出手段と、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する差分述語項構造抽出手段と、
回答文検出手段によって検出された回答文を、対応する1つ以上の差分述語項構造に基づく文章と共に明示する回答文出力手段と
を有することを特徴とする。
複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させる差分述語項構造選択手段を更に有し、
回答文出力手段は、選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示する
ことも好ましい。
質問文を入力する第1のステップと、
質問文に含まれる複数の質問キーワードを抽出する第2のステップと、
コメント文章蓄積部を用いて、質問キーワードを含むコメント文章を検索する第3のステップと、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する、前述したトピック分類の処理を実行する第4のステップと、
各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける第5のステップと、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する第6のステップと、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する第7のステップと、
第5のステップによって検出された回答文を、対応する1つ以上の差分述語項構造に基づく文章と共に明示する第8のステップと
を有することを特徴とする。
第8のステップについて、
複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させ、
選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示することも好ましい。
図1によれば、登録機能として、情報量規準算出部11と、ハッシュテーブル生成部12としてコンピュータを機能させるプログラムが実行されている。ここでは、大量の学習用の要素ビット列が入力される。
情報量規準算出部11は、学習用の要素ビット列の集合に対して、要素ビット列毎に、情報量規準値を算出する。情報量規準値Uは、例えば赤池情報量規準(AIC:Akaike's Information Criterion)であって、以下のように算出される。
n11=要素ビット列
n12=要素ビットの0ビット部分の値を問わない場合の数
n21=要素ビットの1ビット部分の値を問わない場合の数
n22=n11、n12、n13以外の数
MLL_IM=(n11+n12) log(n11+n12)+(n11+n21) log(n11+n21)
+(n21+n22) log(n21+n22)+(n12+n22) log(n12+n22)−2 N log N
MLL_DM=n11 log n11+n12 log n12+n21 log n21+n22 log n22−N log N
AIC_IM=-2 × MLL_IM + 2×2
AIC_DM=-2 × MLL_DM + 2×3
U=AIC_IM − AIC_DM
情報量規準算出部11は、要素ビット列と共に情報量規準値を、ハッシュテーブル生成部12へ出力する。
ハッシュテーブル生成部12は、以下のようにハッシュテーブルを作成する。
・情報量規準値が所定閾値以上となる場合->
要素ビット列毎に、ハッシュテーブルを生成する
・情報量規準値が所定閾値よりも小さい場合->
それら要素ビット列全てに対して、1つのハッシュテーブルを生成する
これによって、複数のハッシュテーブルが作成される。また、情報量規準値が小さくなるようなハッシュテーブルをまとめることによって、無駄なメモリ空間のハッシュテーブルを生成しないようにすることができる。
図1によれば、検索機能として、ハッシュ検索部13としてコンピュータを機能させるプログラムが実行されている。ここでは、検索キーとなる要素ビット列が入力される。
ハッシュ検索部13は、キーの要素ビット列に対して、当該キーの要素ビット列に対応するハッシュテーブルを用いて、当該ハッシュ値に対応する要素を検索する。
述語項構造抽出部14には予め、学習用文章の集合が入力される。そして、述語項構造抽出部14は、文章毎に、述語項構造(述語、格、目的語)を抽出する。例えば、以下のような述語項構造が抽出される。
述語項構造=述語「探す」、目的語「携帯」ヲ格
述語項構造=述語「申し込む」、目的語「サービス」ニ格
述語項構造=述語「探す」、目的語「携帯」ヲ格、目的語「サービス」デ格
述語項構造=述語「利用する」、目的語「サービス」ヲ格
これら学習用の述語項構造は、要素ビット列抽出部15へ出力される。
要素ビット列抽出部15は、述語項構造毎に、1つ以上の「格」の存在の有無を表す要素ビット列を抽出する。
学習用の要素ビット列は、情報量規準算出部11へ出力する。これによって、登録機能としては、学習文章の集合に対して、述語項構造抽出部14及び要素ビット列抽出部15を実行した後、情報量規準値算出部11及びハッシュテーブル生成部12が実行される。
対象文章の要素ビット列は、ハッシュ検索部13へ出力する。これによって、検索機能として、対象文章の集合に対して、述語項構造抽出部14及び要素ビット列抽出部5を実行した後、ハッシュ検索部13が実行される。
質問文入力部121は、質問者の端末4から、ネットワークを介して質問文を受信する。例えばユーザの質問文は、以下のようなものである。
Q「携帯電話機の紛失」
その質問文は、質問キーワード抽出部122へ出力される。
質問キーワード抽出部122は、質問文に含まれる複数の質問キーワードを抽出する。ここで、質問キーワード抽出部122は、質問文から形態素解析によってキーワードを抽出すると共に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的な単語を、質問キーワードとして抽出する。
質問文 「携帯電話機の紛失」
質問キーワード「携帯電話機」「紛失」
コメント文章検索部123は、コメント文章蓄積部102を用いて、質問キーワードを含むコメント文章を検索する。具体的には、質問キーワードをクエリとして、各コメント文章からTF(Term Frequency)値やDF(Document Frequency)値を抽出し、これら値が所定閾値以上となる複数のコメント文章を検索する。TF値は、文章における検索語の出現頻度をいい、DF値は、索引語が現れる相対文章頻度をいう。コメント文章検索部123は、ソーシャルメディア検索機能であって、投稿された大量のつぶやきの中から、質問キーワードに関するつぶやきのみを検索するようなものである。
トピック分類部124は、検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する。トピック分類部124は、前述した図2及び図3のように、予め複数のハッシュテーブルを備えており、それらハッシュテーブルを用いて、文章毎の述語項構造の出現頻度を計数する。トピック分類部124のLDAは、キーワードによる分類でなく、述語項構造による分類であることに特徴がある。
(S41)質問キーワードに関する多数のコメント文章から、述語項構造毎の出現頻度(出現回数)をLDA処理へ入力する。そして、コメント文章毎に、各述語項構造の出現頻度を計数する。
(S42)次に、本件でのLDA処理では、トピック毎の述語項構造分布や、コメント文章(ネット側意見)毎のトピック比率を取得する。このトピック比率によって、コメント文章が属するトピックグループに分類する。そして、トピックグループ毎に、全てのコメント文章に含まれる各述語項構造の出現頻度を計数する。
(S43)次に、コメント文章毎に、各トピックグループに属する述語項構造を計数する。そして、コメント文章を計数値の高いトピックグループに分類する。
回答文検出部125は、各トピックグループに含まれるコメント文章群と、各回答文に含まれる文章との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける。
(S51)回答文検出部125は、各トピックグループに含まれるコメント文章群から述語項構造解析によって述語項構造を抽出すると共に、トピックグループにおける第1の特徴ベクトルを算出する。
各トピックグループ:Ci(i=1,2,・・・)
トピックグループiに含まれるコメント文章:Tij(j=1,2,・・・)
(S52)回答文蓄積部101に蓄積された各回答文から述語項構造解析によって述語項構造を抽出すると共に、当該回答文における第2の特徴ベクトルとを算出する。
回答文:Ak(k=1,2,・・・)
(S53)トピックグループの第1のベクトルと、回答文の第2のベクトルとの間のコサイン距離に基づいて類似度を算出する。具体的には、各コメント文章Ti1, Ti2,・・・を含むトピックグループCiと、回答文Ajとの類似度Dist(Ci,Aj)を算出する。
Dist(Ci,Aj)=cosin距離D(Ti1,Aj),D(Ti2, Aj),・・・の平均値
=argi max(Dist(Ci,Aj))
回答文1「・・・」
回答文2「携帯探せて安心サービスの申込方法」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「申し込む」、目的語「サービス」、ニ格
回答文3「・・・」
回答文4「・・・」
回答文5「携帯探せて安心サービスの利用方法」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「利用する」、目的語「サービス」、ヲ格
回答文6「・・・」
代表述語項構造抽出部126は、各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する。
回答文2「携帯探せて安心サービスの申し込み方法は以下のようになります・・・」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「申し込む」、目的語「サービス」、ニ格
回答文5「携帯探せて安心サービスの利用方法は以下のようになります・・・」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「利用する」、目的語「サービス」、ヲ格
n11=トピックグループCに類似し、述語項構造sが出現するコメント文章の数
n12=トピックグループC以外に類似し、述語項構造sが出現するコメント文章の数
n21=トピックグループCに類似し、述語項構造sが出現しないコメント文章の数
n22=トピックグループC以外に類似し、述語項構造sが出現しないコメント文章の数
MLL_IM(s,C)=(n11+n12) log(n11+n12)
+(n11+n21) log(n11+n21)
+(n21+n22) log(n21+n22)
+(n12+n22) log(n12+n22)−2N log N
MLL_DM(s,C)=n11 log n11+n12 log n12+n21 log n21+n22 log n22−N log N
但し、N=n11+n12+n21+n22
AIC_IM(s,C)=-2 × MLL_IM(s,C) + 2×2
AIC_DM(s,C)=-2 × MLL_DM(s,C) + 2×3
E(s,C)=AIC_IM(s, C) − AIC_DM(s,C)
差分述語項構造抽出部127は、各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する。回答文2及び5について、[述語項構造=述語「探す」、目的語「携帯」、ヲ格]は共通する。そこで、図9によれば、以下の差分述語項構造が抽出される。
回答文2「携帯探せて安心サービスの申し込み方法は以下のようになります・・・」
述語項構造=述語「申し込む」、目的語「サービス」、ニ格
回答文5「携帯探せて安心サービスの利用方法は以下のようになります・・・」
述語項構造=述語「利用する」、目的語「サービス」、ヲ格
差分述語項構造選択部128は、複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示する。
(ルール1)ヲ格のみからなる述語項構造Sの場合
->W(S,ヲ格)+「を」+W(S,述語)
(ルール2)ヲ格とデ格からなる述語項構造Sの場合
->W(S,デ格)+「で」+W(S,ヲ格)+「を」+S(述語)
(ルール3)差分述語項構造S1のヲ格と、共通述語項構造Bのデ格とが一致する場合、
->Aから生成した日本語のヲ格の前方修飾語として、Bの日本語を埋め込む
W(S,ヲ格)は、述語項構造Sのヲ格の単語を表す。
W(S,デ格)は、述語項構造Sのデ格の単語を表す。
尚、このようなルール基づく日本語の生成については、機械翻訳システムの技術が適用できる(例えば非特許文献2参照)。
「携帯を探すサービスを申し込む」
「携帯を探すサービスを利用する」
回答文出力部129は、回答文検出部125によって検出された回答文を、対応する1つ以上の差分述語項構造の文章と共に明示する。本発明によれば、ユーザの質問に曖昧性があり、コメント文章群が複数のトピックグループに分類され、各トピックグループに対応付けられた回答文を得ることができる。ここで、この得られた回答文の数が少ない場合、差分述語項構造に基づく文章は、提示される回答文の傾向をユーザが認識するために有益な情報となる。
(S72)質問回答サーバ1は、質問文に含まれる複数の質問キーワードを抽出する(図5の質問キーワード抽出部122参照)。
(S73)質問回答サーバ1は、コメント文章蓄積部102を用いて、質問キーワードを含むコメント文章を検索する(図5のコメント文章検索部123参照)。
(S74)質問回答サーバ1は、検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する(図5のトピック分類部124参照)。
(S75)質問回答サーバ1は、各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける(図5の回答文検出部125参照)。
(S76)質問回答サーバ1は、各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する(図5の代表述語項構造抽出部126参照)。
(S77)質問回答サーバ1は、各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する(図5の差分述語項構造抽出部127参照)。
(S78)質問回答サーバ1は、複数の差分述語項構造に基づく文章を、ユーザ操作の端末4へ送信する(図5の差分述語項構造選択部128参照)。そして、端末4では、ユーザ操作に応じていずれか1つの文章が選択させる。選択された文章の差分述語項構造は、端末4から質問回答サーバ1へ送信される。
(S79)質問回答サーバ1は、選択された差分述語項構造に対応する回答文を、ユーザの端末4へ送信する(図5の回答文出力部129参照)。
11 情報量規準値算出部
12 ハッシュテーブル生成部
13 ハッシュ検索部
14 述語項構造抽出部
15 要素ビット列抽出部
10 通信インタフェース部
101 回答文蓄積部
102 コメント文章蓄積部
111 回答文取得部
112 コメント文章収集部
121 質問文入力部
122 質問キーワード抽出部
123 コメント文章検索部
124 トピック分類部
125 回答文検出部
126 代表述語項構造抽出部
127 差分述語項構造抽出部
128 差分述語項構造選択部
129 回答文出力部
2 回答文蓄積サーバ
3 ブログサーバ
4 端末
5 コメント投稿者用の汎用端末
Claims (13)
- 複数のハッシュテーブルを用いて検索するようにコンピュータを機能させるプログラムであって、
登録機能として、
学習用の要素ビット列の集合に対して、要素ビット列毎に、情報量規準値を算出する情報量規準値算出手段と、
前記情報量規準値が所定閾値以上となる要素ビット列毎に、ハッシュテーブルを生成すると共に、前記情報量規準値が所定閾値よりも小さい要素ビット列全てに対して、1つのハッシュテーブルを生成するハッシュテーブル生成手段と
を有し、
検索機能として、
キーの要素ビット列に対して、当該キーの要素ビット列に対応するハッシュテーブルを用いて検索するハッシュ検索手段と
してコンピュータを機能させることを特徴とするプログラム。 - 前記情報量規準値算出手段は、赤池情報量規準(AIC:Akaike's Information Criterion)を用いて、前記情報量規準値Uは、以下のように算出される
n11=要素ビット列
n12=要素ビットの0ビット部分の値を問わない場合の数
n21=要素ビットの1ビット部分の値を問わない場合の数
n22=n11、n12、n13以外の数
MLL_IM=(n11+n12) log(n11+n12)+(n11+n21) log(n11+n21)
+(n21+n22) log(n21+n22)+(n12+n22) log(n12+n22)−2 N log N
MLL_DM=n11 log n11+n12 log n12+n21 log n21+n22 log n22−N log N
AIC_IM=-2 × MLL_IM + 2×2
AIC_DM=-2 × MLL_DM + 2×3
U=AIC_IM − AIC_DM
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 - 請求項1又は2に記載のプログラムを用いて、「述語」「格」及び「目的語」とからなる「述語項構造」に基づいて、多数の文章をトピック毎に分類するようにコンピュータを機能させるプログラムにおいて、
文章毎に、述語項構造(述語、格、目的語)を抽出する述語項構造抽出手段と、
述語項構造毎に、1つ以上の「格」の存在の有無を表す要素ビット列を抽出する要素ビット列抽出手段と
を有し、
登録機能として、学習文章の集合に対して、前記述語項構造抽出手段及び前記要素ビット列抽出手段を実行した後、前記情報量規準値算出手段及び前記ハッシュテーブル生成手段を実行し、
検索機能として、対象文章の集合に対して、前記述語項構造抽出手段及び前記要素ビット列抽出手段を実行した後、要素ビット列に対応するハッシュテーブルを選択し、そのハッシュテーブルに対して述語項構造をキーとして検索し、検索された要素に、出現頻度として1増分し、文章毎における各述語項構造の出現頻度を計数する
ようにコンピュータを機能させることを特徴とするプログラム。 - 文章を、分類された各トピックグループに属する確からしさ(トピック比率)を算出するLDA(Latent Dirichlet Allocation)アルゴリズムを用いて、いずれか1つのトピックグループに分類するために、文章毎の述語項構造を計数するべく、請求項3に記載のプログラムを用いて、トピックを分類するトピック分類手段として
コンピュータを機能させることを特徴とする請求項3に記載のプログラム。 - 多数のコメント文章を蓄積したコメント文章蓄積部と、多数の回答文を蓄積した回答文蓄積部とを有し、ユーザからの質問文に対する回答文を抽出するようにコンピュータを機能させるプログラムであって、
質問文を入力する質問文入力手段と、
前記質問文に含まれる複数の質問キーワードを抽出する質問キーワード抽出手段と、
前記コメント文章蓄積部を用いて、前記質問キーワードを含むコメント文章を検索するコメント文章検索手段と、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する、請求項4に記載の前記トピック分類手段と、
各トピックグループに含まれるコメント文章群と、各回答文に含まれる文章との間の類似度を算出し、各トピックグループに前記類似度が所定閾値以上となる回答文を対応付ける回答文検出手段と、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する代表述語項構造抽出手段と、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する差分述語項構造抽出手段と、
前記回答文検出手段によって検出された前記回答文を、対応する1つ以上の前記差分述語項構造に基づく文章と共に明示する回答文出力手段と
してコンピュータを機能させることを特徴とするプログラム。 - 複数の前記差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させる差分述語項構造選択手段を更に有し、
前記回答文出力手段は、選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示する
ようにコンピュータを機能させることを特徴とする請求項5に記載のプログラム。 - 前記回答文検出手段は、
各トピックグループに含まれるコメント文章群から、述語項構造解析によって述語項構造を抽出すると共に、前記トピックグループにおける第1の特徴ベクトルを算出し、
前記回答文蓄積部に蓄積された各回答文から、述語項構造解析によって述語項構造を抽出すると共に当該回答文における第2の特徴ベクトルとを算出し、
前記トピックグループの第1のベクトルと、前記回答文の第2のベクトルとの間のコサイン距離に基づいて類似度を算出する
ようにコンピュータを機能させることを特徴とする請求項5又は6に記載のプログラム。 - 前記代表述語項構造抽出手段は、各トピックグループの代表述語項構造を、赤池情報量基準に応じて優先順に並べるようにコンピュータを機能させることを特徴とする請求項5から7のいずれか1項に記載のプログラム。
- 前記コメント文章は、不特定多数の第三者によって投稿されたものであって、
前記コメント文章蓄積部は、ミニブログ(mini Web log)サーバに投稿されたコメント文章を収集し蓄積したものであるようにコンピュータを機能させることを特徴とする請求項5から8のいずれか1項に記載のプログラム。 - 多数のコメント文章を蓄積したコメント文章蓄積部と、多数の回答文を蓄積した回答文蓄積部とを有し、ユーザからの質問文に対する回答文を抽出する質問回答サーバであって、
端末から、質問文を入力する質問文入力手段と、
前記質問文に含まれる複数の質問キーワードを抽出する質問キーワード抽出手段と、
前記コメント文章蓄積部を用いて、前記質問キーワードを含むコメント文章を検索するコメント文章検索手段と、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する、請求項4に記載の前記トピック分類手段と、
各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに前記類似度が所定閾値以上となる回答文を対応付ける回答文検出手段と、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する代表述語項構造抽出手段と、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する差分述語項構造抽出手段と、
前記回答文検出手段によって検出された前記回答文を、対応する1つ以上の前記差分述語項構造に基づく文章と共に明示する回答文出力手段と
を有することを特徴とする質問回答サーバ。 - 複数の前記差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させる差分述語項構造選択手段を更に有し、
前記回答文出力手段は、選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示する
ことを特徴とする請求項10に記載の質問回答サーバ。 - 多数のコメント文章を蓄積したコメント文章蓄積部と、多数の回答文を蓄積した回答文蓄積部とを有し、ユーザからの質問文に対する回答文を抽出する装置における質問回答方法であって、
質問文を入力する第1のステップと、
前記質問文に含まれる複数の質問キーワードを抽出する第2のステップと、
前記コメント文章蓄積部を用いて、前記質問キーワードを含むコメント文章を検索する第3のステップと、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する、請求項4に記載の処理を実行する第4のステップと、
各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに前記類似度が所定閾値以上となる回答文を対応付ける第5のステップと、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する第6のステップと、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する第7のステップと、
第5のステップによって検出された前記回答文を、対応する1つ以上の前記差分述語項構造に基づく文章と共に明示する第8のステップと
を有することを特徴とする質問回答方法。 - 第8のステップについて、
複数の前記差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させ、
選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示することを特徴とする請求項12に記載の質問回答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014065222A JP6173958B2 (ja) | 2014-03-27 | 2014-03-27 | 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014065222A JP6173958B2 (ja) | 2014-03-27 | 2014-03-27 | 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015187814A JP2015187814A (ja) | 2015-10-29 |
JP6173958B2 true JP6173958B2 (ja) | 2017-08-02 |
Family
ID=54430023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014065222A Active JP6173958B2 (ja) | 2014-03-27 | 2014-03-27 | 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6173958B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220064859A (ko) | 2020-11-12 | 2022-05-19 | 숭실대학교산학협력단 | 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법, 이를 수행하기 위한 기록 매체 및 장치 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6343081B1 (ja) * | 2017-09-29 | 2018-06-13 | 義尚 神山 | 符号符号分類検索ソフトウェアを記録した記録媒体 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0512337A (ja) * | 1991-07-02 | 1993-01-22 | Oki Electric Ind Co Ltd | ハツシユ法を用いたデータ検索方式 |
JPH08278894A (ja) * | 1995-04-06 | 1996-10-22 | Hitachi Ltd | ハッシュ法による情報処理方法および情報処理装置 |
JP5711674B2 (ja) * | 2012-01-12 | 2015-05-07 | Kddi株式会社 | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 |
-
2014
- 2014-03-27 JP JP2014065222A patent/JP6173958B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220064859A (ko) | 2020-11-12 | 2022-05-19 | 숭실대학교산학협력단 | 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법, 이를 수행하기 위한 기록 매체 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP2015187814A (ja) | 2015-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6007088B2 (ja) | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 | |
JP5711674B2 (ja) | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 | |
Sharifani et al. | Operating machine learning across natural language processing techniques for improvement of fabricated news model | |
CN109101479B (zh) | 一种用于中文语句的聚类方法及装置 | |
US11544459B2 (en) | Method and apparatus for determining feature words and server | |
CN110704743B (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
Shen et al. | Linden: linking named entities with knowledge base via semantic knowledge | |
US9727637B2 (en) | Retrieving text from a corpus of documents in an information handling system | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US9164980B2 (en) | Name identification rule generating apparatus and name identification rule generating method | |
KR20100067175A (ko) | 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법 | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
Van de Camp et al. | The socialist network | |
CN102169496A (zh) | 基于锚文本分析的领域术语自动生成方法 | |
US20220114340A1 (en) | System and method for an automatic search and comparison tool | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
Singh et al. | Analytics of similar-sounding names from the web with phonetic based clustering | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
Chen et al. | Research on clustering analysis of Internet public opinion | |
JP6173958B2 (ja) | 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 | |
JP2012141681A (ja) | クエリセグメント位置決定装置 | |
TWI534640B (zh) | Chinese network information monitoring and analysis system and its method | |
Narang et al. | Twitter Sentiment Analysis on Citizenship Amendment Act in India |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170522 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170623 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170705 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6173958 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |