JP2020129190A - 回答検索装置、回答検索方法および回答検索プログラム - Google Patents

回答検索装置、回答検索方法および回答検索プログラム Download PDF

Info

Publication number
JP2020129190A
JP2020129190A JP2019020727A JP2019020727A JP2020129190A JP 2020129190 A JP2020129190 A JP 2020129190A JP 2019020727 A JP2019020727 A JP 2019020727A JP 2019020727 A JP2019020727 A JP 2019020727A JP 2020129190 A JP2020129190 A JP 2020129190A
Authority
JP
Japan
Prior art keywords
answer
search
word
sentence
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019020727A
Other languages
English (en)
Inventor
理恵子 藤原
Rieko Fujiwara
理恵子 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2019020727A priority Critical patent/JP2020129190A/ja
Publication of JP2020129190A publication Critical patent/JP2020129190A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】多くのコストを掛けずにFAQ検索の精度を向上させることができる回答検索装置を提供する。【解決手段】回答検索装置20は、検索対象である複数の回答文に含まれる任意の1つの単語が複数の回答文それぞれと関連する度合いである各関連度を算出する第1算出処理を、複数の回答文に含まれる所定の条件を満たす全ての単語に渡って実行する算出部21と、入力された質問文を構成する単語のうち第1算出処理の対象である単語の各関連度を用いて質問文に対する回答文を複数の回答文から検索する検索部22とを備える。【選択図】図13

Description

本発明は、回答検索装置、回答検索方法および回答検索プログラムに関し、特に単語関連度を用いて回答を検索する回答検索装置、回答検索方法および回答検索プログラムに関する。
一般的にFAQ(Frequently Asked Questions)は、頻繁に尋ねられる質問(Question、以下Qとも呼ぶ。)と、質問に対する回答(Answer、以下Aとも呼ぶ。)の組み合わせの集合を意味する。FAQ中の任意のQとAの組み合わせ(以下、QAと呼ぶ。)を検索するFAQ検索の方法として、例えば、複数のQAがまとめられた表であるQA表を、検索文を基に適宜検索する方法が提案されている。
また、特許文献1には、ユーザが少数の文書に対して対象テーマに関連するか否かの評価をするだけで、文書に含まれる各単語の対象テーマに対する関連度を高精度に算出でき、効率的かつ高精度に情報を検索できる単語テーマ関連度算出装置が記載されている。
文書に含まれる単語の重要度を評価する方法として、他に情報検索や文書推薦等で利用される特徴量の指標であるTF-IDFを用いるTF-IDF法がある。TF-IDFは、単語の出現頻度を表すTF(Term Frequency)と、逆文書頻度を表すIDF(Inverse Document Frequency)の2つの指標に基づいて計算される。TF-IDF法が使用されると、効率よく情報が検索される。
特開2011−86043号公報
TF-IDF法を使用するFAQ検索には、検索精度が低いという問題がある。検索精度を向上させるために、各QAに対する重要な語句を予め手動で登録することが考えられる。
しかし、重要な語句を手動で登録する場合、FAQ検索の対象となるQAの増加に伴ってコストが増加する。また、QAの量が膨大になると、重要な語句が登録されていないQAが存在するというような、網羅性の欠如の問題が発生する可能性がある。
そこで、本発明は、上述した課題を解決する、多くのコストを掛けずにFAQ検索の精度を向上させることができる回答検索装置、回答検索方法および回答検索プログラムを提供することを目的とする。
本発明による回答検索装置は、検索対象である複数の回答文に含まれる任意の1つの単語が複数の回答文それぞれと関連する度合いである各関連度を算出する第1算出処理を、複数の回答文に含まれる所定の条件を満たす全ての単語に渡って実行する算出部と、入力された質問文を構成する単語のうち第1算出処理の対象である単語の各関連度を用いて質問文に対する回答文を複数の回答文から検索する検索部とを備えることを特徴とする。
本発明による回答検索方法は、検索対象である複数の回答文に含まれる任意の1つの単語が複数の回答文それぞれと関連する度合いである各関連度を算出する第1算出処理を、複数の回答文に含まれる所定の条件を満たす全ての単語に渡って実行し、入力された質問文を構成する単語のうち第1算出処理の対象である単語の各関連度を用いて質問文に対する回答文を複数の回答文から検索することを特徴とする。
本発明による回答検索プログラムは、コンピュータに、検索対象である複数の回答文に含まれる任意の1つの単語が複数の回答文それぞれと関連する度合いである各関連度を算出する第1算出処理を、複数の回答文に含まれる所定の条件を満たす全ての単語に渡って実行する演算処理、および入力された質問文を構成する単語のうち第1算出処理の対象である単語の各関連度を用いて質問文に対する回答文を複数の回答文から検索する検索処理を実行させることを特徴とする。
本発明によれば、多くのコストを掛けずにFAQ検索の精度を向上させることができる。
本発明によるFAQ検索システムの第1の実施形態の構成例を示すブロック図である。 第1の実施形態の単語関連度算出装置320による単語関連度算出処理の動作を示すフローチャートである。 QA記憶部310に記憶されているQA情報の例を示す説明図である。 単語関連度算出部321が抽出した単語の例を示す説明図である。 Q単語関連度記憶部323に記憶されているQ単語関連度情報の例を示す説明図である。 A単語関連度記憶部324に記憶されているA単語関連度情報の例を示す説明図である。 第1の実施形態の単語関連度算出装置320によるスコア算出処理の動作を示すフローチャートである。 検索文から抽出される単語の例を示す説明図である。 検索文に含まれる単語の組み合わせと各Qとの関連度の算出例を示す説明図である。 検索文に含まれる単語の組み合わせと各Aとの関連度の算出例を示す説明図である。 検索文に含まれる単語の組み合わせと各QAとの関連度の算出例を示す説明図である。 本発明による単語関連度算出装置のハードウェア構成例を示す説明図である。 本発明による回答検索装置の概要を示すブロック図である。
実施形態1.
[構成の説明]
以下、本発明の実施形態を、図面を参照して説明する。図1は、本発明によるFAQ検索システムの第1の実施形態の構成例を示すブロック図である。
以下、図1を参照して、各構成要素が有する機能を説明する。図1に示すように、本実施形態のFAQ検索システム300は、QA記憶部310と、単語関連度算出装置320とを含む。また、図1に示すように、FAQ検索システム300は、QA入力装置100と、検索文入力装置200と、FAQ検索結果出力装置400とそれぞれ通信可能に接続されている。
本実施形態の単語関連度算出装置320は、一般的なTF-IDF法による検索のように検索対象の文書中に出現する単語のみを用いて検索に使用されるスコアを算出する代わりに、QおよびAそれぞれに出現する検索文中の単語の関連度を算出する。
さらに、QとAの関係性を考慮し1つのQとAの組み合わせに対する関連度を算出することによって、単語関連度算出装置320は、検索精度の向上および手動での作業工数の低減を実現する。
QA入力装置100は、QA記憶部310への登録対象のQとAをFAQ検索システム300に入力する装置である。本実施形態において、Qは質問文の形式、Aは回答文の形式でそれぞれ登録される。なお、QA記憶部310に登録されるQは、1つのAに対して複数存在する場合もある。
また、検索文入力装置200は、FAQ検索に使用される検索文をFAQ検索システム300に入力する装置である。FAQ検索に使用される検索文は、質問文の一種である。なお、検索文入力装置200は、FAQ検索用に開発されたウェブサイト等を利用者に提示してもよい。
また、FAQ検索システム300は、QA記憶部310に記憶されている、入力された検索文に対応する回答文を出力する装置である。FAQ検索システム300は、関連度を用いて検索スコアを算出した結果、最も検索スコアが高い回答文を出力する。
また、FAQ検索結果出力装置400は、FAQ検索の結果(回答文)を出力する装置である。
FAQ検索システム300に含まれる単語関連度算出装置320は、検索文に含まれる単語とQAとの関連度を検索に使用されるスコアとして算出する装置である。図1に示すように、本実施形態の単語関連度算出装置320は、単語関連度算出部321と、検索文関連度算出部322と、Q単語関連度記憶部323と、A単語関連度記憶部324とを有する。
単語関連度算出部321は、Qの単語関連度およびAの単語関連度を算出する機能を有する。単語関連度算出部321は、QA記憶部310に記憶されているQに含まれる単語の出現確率、およびQA記憶部310に記憶されているAに含まれる単語の出現確率をそれぞれ計算する。
次いで、単語関連度算出部321は、計算された単語の出現確率を基にQの単語関連度およびAの単語関連度をそれぞれ算出する。次いで、単語関連度算出部321は、算出されたQの単語関連度をQ単語関連度記憶部323に、算出されたAの単語関連度をA単語関連度記憶部324にそれぞれ格納する。
検索文関連度算出部322は、検索文に含まれる単語とQAとの関連度を、Q単語関連度記憶部323およびA単語関連度記憶部324に記憶されている単語関連度を基に、スコアとして算出する機能を有する。
[動作の説明]
以下、本実施形態の単語関連度算出装置320の動作を図2、図7を参照して説明する。
最初に、本実施形態の単語関連度算出装置320の単語関連度を算出する動作を図2を参照して説明する。図2は、第1の実施形態の単語関連度算出装置320による単語関連度算出処理の動作を示すフローチャートである。
具体的には、図2に示すフローチャートは、各Q、各Aに対する各単語の単語関連度を算出し、Q単語関連度記憶部323およびA単語関連度記憶部324に算出結果を格納する単語関連度算出部321の動作を示す。
最初に、単語関連度算出部321は、QおよびAそれぞれから単語を抽出する(ステップS101)。単語関連度算出部321は、QA記憶部310に記憶されている各Qおよび各Aに対して、単語を抽出する。
次いで、単語関連度算出部321は、Q全体に含まれる全ての単語それぞれに対して、各Qとの関連度を算出する(ステップS102)。
次いで、単語関連度算出部321は、ステップS102で算出された結果であるQ単語関連度を、Q単語関連度記憶部323に格納する(ステップS103)。
次いで、単語関連度算出部321は、Qの場合と同様に、A全体に含まれる全ての単語それぞれに対して、各Aとの関連度を算出する(ステップS104)。
次いで、単語関連度算出部321は、ステップS104で算出された結果であるA単語関連度を、A単語関連度記憶部324に格納する(ステップS105)。格納した後、単語関連度算出装置320は、単語関連度算出処理を終了する。
以下、図2に示す単語関連度算出処理の具体例を図3〜図6を参照して説明する。図3は、QA記憶部310に記憶されているQA情報の例を示す説明図である。
図3に示すように、QA情報は、QAidと、Qidと、Qと、Aidと、Aとで構成されている。なお、便宜上、図3にはQA情報が2つに分離されて示されている。
QAidは、QA情報を一意に識別する情報である。また、Qidは、QAidが示すQA情報に含まれているQを示す情報である。
また、Qは、Qidに対応する質問文を示す。上述したように、1つのQidに対応する質問文は、複数存在する場合もある。例えば、図3に示すようにQ1に対応する質問文は、「年次休暇は何日間とれますか。」「年次休暇の日数を教えてください。」「年次休暇はどれぐらいの期間とれますか。」の3つである。
また、Aidは、QAidが示すQA情報に含まれているAを示す情報である。また、Aは、Aidに対応する回答文を示す。例えば、図3に示すようにA1に対応する回答文は、「年次休暇は年に最大20日間取得できます。」である。
図4は、単語関連度算出部321が抽出した単語の例を示す説明図である。図4に示すQAid、Qid、およびAidは、図3に示すQAid、Qid、およびAidとそれぞれ同一である。
単語を抽出する際、単語関連度算出部321は、形態素解析で文を単語ごとに分割する。次いで、単語関連度算出部321は、分割された単語から名詞のみを抽出する。なお、本例において「年次休暇」、「新入社員」は、1つの単語としてFAQ検索システム300に登録されている。
例えば、Q1に対応する質問文から単語を抽出する場合、単語関連度算出部321は、1つ目の質問文である「年次休暇は何日間とれますか。」から「年次休暇」と「日間」を抽出する。
次いで、単語関連度算出部321は、「年次休暇」に「W1」、「日間」に「W2」という単語の識別子をそれぞれ付与する。次いで、単語関連度算出部321は、抽出結果である組{年次休暇(W1)、日間(W2)}に「Q11」という識別子を付与する。
図3に示す他の質問文に対しても、単語関連度算出部321は、同様に単語を抽出する。なお、図4に示すように、単語関連度算出部321は、複数の質問文から抽出された同じ単語に対して同一の識別子を付与する。
同様に、A1に対応する回答文から単語を抽出する場合、単語関連度算出部321は、「年次休暇は年に最大20日間取得できます。」から「年次休暇」、「年」、「最大」、「日間」、「取得」をそれぞれ抽出する。なお、回答文から単語を抽出する方法は、質問文から単語を抽出する方法と同様である。
次いで、単語関連度算出部321は、「年次休暇」に「w1」、「年」に「w2」、「最大」に「w3」、「日間」に「w4」、「取得」に「w5」という単語の識別子をそれぞれ付与する。次いで、単語関連度算出部321は、{年次休暇(w1)、年(w2)、最大(w3)、日間(w4)、取得(w5)}の組を抽出結果とする。
図3に示す他の回答文に対しても、単語関連度算出部321は、同様に単語を抽出する。なお、図4に示すように、単語関連度算出部321は、複数の回答文から抽出された同じ単語に対して同一の識別子を付与する。
次いで、単語関連度算出部321は、Q全体に含まれる全ての単語それぞれに対して、各Qとの関連度を算出する。以下、単語関連度算出部321によるQ単語関連度の算出例を説明する。
Qiの出現回数を「Qi.cnt」、Wjの出現回数を「Wj.cnt」、およびQi内のWjの出現回数を「QiWj.cnt」とそれぞれすると、Q全体に対するQiの出現確率Qi.Hは、以下のように計算される。
Qi.H = Qi.cnt/ΣQn.cnt ・・・式(1)
なお、式(1)における「ΣQn.cnt」は、質問文全体の個数である。また、Q全体に対するWjの出現確率Wj.Hは、以下のように計算される。
Wj.H = Wj.cnt/ΣWn.cnt ・・・式(2)
なお、式(2)における「ΣWn.cnt」は、単語全体の個数である。式(1)の計算結果と式(2)の計算結果を基に、単語関連度算出部321は、QiにWjが含まれる予測確率値QiWj.Hと、QiにWjが含まれる実際の確率値QiWj.H’を、それぞれ以下のように計算する。
QiWj.H = Qi.H * Wj.H ・・・式(3)
QiWj.H’ = QiWj.cnt/ΣQnWm.cnt ・・・式(4)
なお、式(4)における「ΣQnWm.cnt」は、質問文中の単語の出現回数の総和である。式(3)の計算結果と式(4)の計算結果を基に、単語関連度算出部321は、Q単語関連度を以下のように算出する。
Log(QiWj.H/QiWj.H’) ・・・式(5)
なお、式(5)の対数は、常用対数である。上記の方法で、「期間(W4)」とQ1との関連度を算出する例を示す。Q全体に対するQ1の出現確率Q1.Hは、以下のように計算される。
Q1.H = (Q1(Q11とQ12とQ13)の個数)/(Q全体の個数) = 3/7
また、Q全体に対するW4の出現確率W4.Hは、以下のように計算される。
W4.H = (W4の個数)/(単語全体の個数) = 2/17
上記の計算結果を基に、単語関連度算出部321は、Q1にW4が含まれる予測確率値Q1W4.Hと、Q1にW4が含まれる実際の確率値Q1W4.H’を、それぞれ以下のように計算する。
Q1W4.H = Q1.H * W4.H = 3/7 * 2/17 = 6/119
Q1W4.H’ = Q1W4.cnt/ΣQnWm.cnt
= 1/(Q1W1.cnt+Q1W2.cnt+・・・+Q4W9.cnt)
= 1/(3+1+・・・+1)
= 1/17
上記の計算結果を基に、単語関連度算出部321は、Q単語関連度を以下のように算出する。
Log(Q1W4.H/Q1W4.H’) = Log((1/17)/(6/119)) = Log(119/102) = 0.06694679
単語関連度算出部321は、算出されたQ単語関連度を、Q単語関連度記憶部323に格納する。図5は、Q単語関連度記憶部323に記憶されているQ単語関連度情報の例を示す説明図である。
図5に示す例では、単語関連度算出部321がQidごとにQ単語関連度情報を生成し、生成されたQ単語関連度情報をQ単語関連度記憶部323に格納している。Q単語関連度情報は、ステップS101で抽出された単語ごとのQ単語関連度で構成されている。
具体的には、図5に示すQ単語関連度情報は、「年次休暇(W1)」のQ単語関連度から「教育(W9)」のQ単語関連度までを含む。なお、便宜上、図5にはQ単語関連度情報が3つに分離されて示されている。
上記のQ単語関連度は、Q1のQ単語関連度情報の「期間(W4)」に格納されている。他のQ単語関連度も、同様の基準でQ単語関連度情報に格納されている。
なお、質問文に含まれていない単語のQ単語関連度には、「−1」が格納されている。例えば、Q1が示す質問文には「変更(W5)」、「申請(W6)」、「方法(W7)」、「新入社員(W8)」、「教育(W9)」が含まれていないため、該当するQ単語関連度には、図5に示すように「−1」が格納されている。
次いで、単語関連度算出部321は、A全体に含まれる全ての単語それぞれに対して、各Aとの関連度を算出する。A単語関連度の算出方法は、Q単語関連度の算出方法と同様である。
単語関連度算出部321は、算出されたA単語関連度を、A単語関連度記憶部324に格納する。図6は、A単語関連度記憶部324に記憶されているA単語関連度情報の例を示す説明図である。
図6に示す例では、単語関連度算出部321がAidごとにA単語関連度情報を生成し、生成されたA単語関連度情報をA単語関連度記憶部324に格納している。A単語関連度情報は、ステップS101で抽出された単語ごとのA単語関連度で構成されている。
具体的には、図6に示すA単語関連度情報は、「年次休暇(w1)」のA単語関連度から「月間(w13)」のA単語関連度までを含む。なお、便宜上、図6にはA単語関連度情報が4つに分離されて示されている。
算出されたA単語関連度は、Q単語関連度と同様の基準でA単語関連度情報に格納されている。また、回答文に含まれていない単語のA単語関連度には、「−1」が格納されている。
次に、本実施形態の単語関連度算出装置320の検索に使用されるスコアを算出する動作を図7を参照して説明する。図7は、第1の実施形態の単語関連度算出装置320によるスコア算出処理の動作を示すフローチャートである。
具体的には、図7に示すフローチャートは、検索文を受信し、Q単語関連度記憶部323およびA単語関連度記憶部324に記憶されている単語関連度を基に、QAと検索文との関連度を算出する検索文関連度算出部322の動作を示す。
最初に、検索文関連度算出部322は、検索文入力装置200から検索文を受信する。次いで、検索文関連度算出部322は、受信された検索文から単語を抽出する(ステップS201)。
次いで、検索文関連度算出部322は、検索文に含まれる単語の組み合わせと各Qとの関連度を、Q単語関連度記憶部323に記憶されているQ単語関連度を用いて算出する(ステップS202)。
次いで、検索文関連度算出部322は、検索文に含まれる単語の組み合わせと各Aとの関連度を、A単語関連度記憶部324に記憶されているA単語関連度を用いて算出する(ステップS203)。
次いで、検索文関連度算出部322は、検索文に含まれる単語の組み合わせと各QAとの関連度を検索に使用されるスコアとして算出する(ステップS204)。関連度スコアを算出した後、単語関連度算出装置320は、関連度スコア算出処理を終了する。
以下、図7に示す関連度スコア算出処理の具体例を図8〜図11を参照して説明する。図8は、検索文から抽出される単語の例を示す説明図である。
図8に示す例では、検索文「年次休暇の期間を教えてください」が受信されている。図8に示すように、検索文関連度算出部322は、受信された検索文から単語「年次休暇」、「期間」をそれぞれ抽出する。
次いで、検索文関連度算出部322は、検索文に含まれる単語の組み合わせと各Qとの関連度を、Q単語関連度を利用して算出する。図9は、検索文に含まれる単語の組み合わせと各Qとの関連度の算出例を示す説明図である。
例えば、検索文関連度算出部322は、図5に示すQ単語関連度情報から、検索文から抽出された各単語のQ単語関連度を取得する。次いで、検索文関連度算出部322は、取得されたQ単語関連度を、Q単位で合算する。
図9に示す「年次休暇(W1)」と「期間(W4)」は、図5に示すQ単語関連度情報から取得された各QのQ単語関連度である。また、図9に示す「「年次休暇」&「期間」とQとの関連度」は、「年次休暇(W1)」のQ単語関連度と「期間(W4)」のQ単語関連度の和である。
すなわち、検索文関連度算出部322は、「年次休暇」と「期間」の組み合わせと各Qとの関連度を、(「年次休暇」のQ単語関連度+「期間」のQ単語関連度)をそれぞれ計算することによって求めている。
次いで、検索文関連度算出部322は、検索文に含まれる単語の組み合わせと各Aとの関連度を、A単語関連度を利用して算出する。図10は、検索文に含まれる単語の組み合わせと各Aとの関連度の算出例を示す説明図である。
例えば、検索文関連度算出部322は、図6に示すA単語関連度情報から、検索文から抽出された各単語のA単語関連度を取得する。次いで、検索文関連度算出部322は、取得されたA単語関連度を、A単位で合算する。
図10に示す「年次休暇(w1)」は、図6に示すA単語関連度情報から取得された各AのA単語関連度である。なお、「期間」が含まれているAは存在しないため、図10に「期間」のA単語関連度は記載されていない。また、図10に示す「「年次休暇」&「期間」とAとの関連度」は、「年次休暇(w1)」のA単語関連度である。
なお、「期間」が含まれているAが存在すれば、検索文関連度算出部322は、「年次休暇」と「期間」の組み合わせと各Aとの関連度も、各Qとの関連度と同様に、(「年次休暇」のA単語関連度+「期間」のA単語関連度)をそれぞれ計算することによって求める。
次いで、検索文関連度算出部322は、検索文に含まれる単語の組み合わせと各QAとの関連度を算出する。図11は、検索文に含まれる単語の組み合わせと各QAとの関連度の算出例を示す説明図である。
図11に示すQAid、Qid、およびAidの関係は、図3に示す通りである。図11に示す1つのQAidの「「年次休暇」&「期間」とQAとの関連度」は、図9に示すQAidに対応するQidの「「年次休暇」&「期間」とQとの関連度」と、図10に示すQAidに対応するAidの「「年次休暇」&「期間」とAとの関連度」の和である。
すなわち、検索文関連度算出部322は、「年次休暇」と「期間」の組み合わせと各QAとの関連度を、(「年次休暇」と「期間」の組み合わせとQとの関連度+「年次休暇」と「期間」の組み合わせとAとの関連度)をそれぞれ計算することによって求めている。
求められた関連度が、検索に使用されるスコアである。FAQ検索システム300は、例えばスコアが最大のQAをFAQ検索結果出力装置400に入力する。FAQ検索結果出力装置400は、入力されたQAに含まれる回答文を出力する。
[効果の説明]
本実施形態の単語関連度算出装置320は、単語関連度算出部321と、検索文関連度算出部322とを備えている装置である。単語関連度算出部321は、QA記憶部310に記憶されているQに含まれる単語の出現確率およびAに含まれる単語の出現確率を基に、Q単語関連度およびA単語関連度を算出する。
また、本実施形態の検索文関連度算出部322は、検索文に含まれる単語に対するQ単語関連度とA単語関連度を合算し、検索文に含まれる単語とQAとの関連度を、検索に使用されるスコアとして算出する。
FAQ検索には、TF-IDF法のような一般的な検索方法が使用されると、検索精度が低くなるという課題、検索精度を向上させるために手動で重要語を登録する場合、検索対象のQAの量の増加に伴って、コストの増加および網羅性の欠如等の問題が発生するという課題等がある。
本実施形態の単語関連度算出装置320は、上記の課題を解決できる。その理由は、単語関連度算出装置320が一般的なTF-IDF法による検索のように、検索対象の文書中に出現する単語のみを用いて検索スコアを算出しない。単語関連度算出装置320は、QおよびAそれぞれに出現する検索文中の単語の関連度を算出するとともに、QとAの関係性を考慮し、1つのQとAの組み合わせに対する関連度を算出するためである。
以上により、本実施形態の単語関連度算出装置320は、FAQ検索における検索精度の向上、および手動での作業工数の低減を実現するため、上記の課題を解決できる。単語関連度算出装置320は、単語関連度が用いられたFAQ検索機能を提供できる。
特許文献1に記載されている単語テーマ関連度算出装置も、単語の出現比率を基に関連度を算出している。本実施形態の単語関連度算出装置320は、特許文献1に記載されている単語テーマ関連度算出装置と異なり、FAQ検索の対象のQやA等の複数の文書の関連度を合算させた値を、検索文に最も近い文書の検索に使用する。
なお、単語関連度算出部321は、Qにおける単語関連度とAにおける単語関連度をそれぞれ算出する代わりに、QA自体における単語関連度を算出してもよい。
また、検索文入力装置200がウェブサイトを利用者に提示する場合、単語関連度算出装置320は、ウェブサイトに応じた単語関連度を利用することによって、入力された検索キーワードとの関連度が高いウェブサイトをFAQ検索結果出力装置400に表示させるようにしてもよい。
以下、本実施形態の単語関連度算出装置320のハードウェア構成の具体例を説明する。図12は、本発明による単語関連度算出装置のハードウェア構成例を示す説明図である。
図12に示す単語関連度算出装置320は、CPU(Central Processing Unit)11と、主記憶部12と、通信部13と、補助記憶部14とを備える。また、ユーザが操作するための入力部15や、ユーザに処理結果または処理内容の経過を提示するための出力部16を備えてもよい。
単語関連度算出装置320は、図12に示すCPU11が各構成要素が有する機能を提供するプログラムを実行することによって、ソフトウェアにより実現される。
すなわち、CPU11が補助記憶部14に格納されているプログラムを、主記憶部12にロードして実行し、単語関連度算出装置320の動作を制御することによって、各機能がソフトウェアにより実現される。
主記憶部12は、データの作業領域やデータの一時退避領域として用いられる。主記憶部12は、例えばRAM(Random Access Memory)である。
通信部13は、有線のネットワークまたは無線のネットワーク(情報通信ネットワーク)を介して、周辺機器との間でデータを入力および出力する機能を有する。
補助記憶部14は、一時的でない有形の記憶媒体である。一時的でない有形の記憶媒体として、例えば磁気ディスク、光磁気ディスク、CD−ROM(Compact Disk Read Only Memory)、DVD−ROM(Digital Versatile Disk Read Only Memory)、半導体メモリが挙げられる。
入力部15は、データや処理命令を入力する機能を有する。入力部15は、例えばキーボードやマウス等の入力デバイスである。
出力部16は、データを出力する機能を有する。出力部16は、例えば液晶ディスプレイ装置等の表示装置、またはプリンタ等の印刷装置である。
また、図12に示すように、単語関連度算出装置320において、各構成要素は、システムバス17に接続されている。
補助記憶部14は、例えば第1の実施形態において、単語関連度算出部321、および検索文関連度算出部322を実現するためのプログラムを記憶している。
Q単語関連度記憶部323、およびA単語関連度記憶部324は、主記憶部12により実現されてもよい。また、単語関連度算出部321、および検索文関連度算出部322は、通信部13を介して通信処理を実行してもよい。
なお、単語関連度算出装置320は、ハードウェアにより実現されてもよい。例えば、単語関連度算出装置320は、内部に図1に示すような機能を実現するLSI(Large Scale Integration)等のハードウェア部品が含まれる回路が実装されてもよい。
また、各構成要素の一部または全部は、汎用の回路(circuitry)または専用の回路、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップ(例えば、上記のLSI)によって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本発明の概要を説明する。図13は、本発明による回答検索装置の概要を示すブロック図である。本発明による回答検索装置20は、検索対象である複数の回答文に含まれる任意の1つの単語が複数の回答文それぞれと関連する度合いである各関連度を算出する第1算出処理を、複数の回答文に含まれる所定の条件を満たす全ての単語に渡って実行する算出部21(例えば、単語関連度算出部321)と、入力された質問文を構成する単語のうち第1算出処理の対象である単語の各関連度を用いて質問文に対する回答文を複数の回答文から検索する検索部22(例えば、検索文関連度算出部322)とを備える。
そのような構成により、回答検索装置は、多くのコストを掛けずにFAQ検索の精度を向上させることができる。
また、検索部22は、第1算出処理の対象である1つ以上の単語の各関連度の総和が複数の回答文の中で最大である回答文を検索結果として出力してもよい。
そのような構成により、回答検索装置は、最適な回答文を返却できる。
また、算出部21は、任意の1つの単語の回答文との関連度を単語が回答文に含まれる確率を基に算出してもよい。
そのような構成により、回答検索装置は、関連度を高精度に算出できる。
また、回答検索装置20は、回答文と、回答文に関連する1つ以上の質問文との組を記憶する記憶部(例えば、QA記憶部310)を備え、算出部21は、複数の質問文に含まれる任意の1つの単語が複数の質問文それぞれと関連する度合いである各関連度を算出する第2算出処理を、複数の質問文に含まれる所定の条件を満たす全ての単語に渡って実行してもよい。
そのような構成により、回答検索装置は、質問文と回答文との組の集合に対応できる。
また、検索部22は、入力された質問文を構成する単語のうち第2算出処理の対象である単語の各関連度を用いて質問文に対する回答文を複数の回答文から検索してもよい。
そのような構成により、回答検索装置は、より最適な回答文を返却できる。
また、検索部22は、第1算出処理の対象である1つ以上の単語の各関連度と、第2算出処理の対象である1つ以上の単語の各関連度との総和が複数の組の中で最大である組に含まれる回答文を検索結果として出力してもよい。
そのような構成により、回答検索装置は、より最適な回答文を返却できる。
また、算出部21は、任意の1つの単語の質問文との関連度を単語が質問文に含まれる確率を基に算出してもよい。
本発明は、FAQ検索、文書検索、または検索対象の文書中の単語と検索文との関連度を算出する機能を利用する装置等に好適に適用される。
11 CPU
12 主記憶部
13 通信部
14 補助記憶部
15 入力部
16 出力部
17 システムバス
20 回答検索装置
21 算出部
22 検索部
100 QA入力装置
200 検索文入力装置
300 FAQ検索システム
310 QA記憶部
320 単語関連度算出装置
321 単語関連度算出部
322 検索文関連度算出部
323 Q単語関連度記憶部
324 A単語関連度記憶部
400 FAQ検索結果出力装置

Claims (10)

  1. 検索対象である複数の回答文に含まれる任意の1つの単語が前記複数の回答文それぞれと関連する度合いである各関連度を算出する第1算出処理を、前記複数の回答文に含まれる所定の条件を満たす全ての単語に渡って実行する算出部と、
    入力された質問文を構成する単語のうち前記第1算出処理の対象である単語の各関連度を用いて前記質問文に対する回答文を前記複数の回答文から検索する検索部とを備える
    ことを特徴とする回答検索装置。
  2. 検索部は、第1算出処理の対象である1つ以上の単語の各関連度の総和が複数の回答文の中で最大である回答文を検索結果として出力する
    請求項1記載の回答検索装置。
  3. 算出部は、任意の1つの単語の回答文との関連度を前記単語が前記回答文に含まれる確率を基に算出する
    請求項1または請求項2記載の回答検索装置。
  4. 回答文と、前記回答文に関連する1つ以上の質問文との組を記憶する記憶部を備え、
    算出部は、複数の質問文に含まれる任意の1つの単語が前記複数の質問文それぞれと関連する度合いである各関連度を算出する第2算出処理を、前記複数の質問文に含まれる所定の条件を満たす全ての単語に渡って実行する
    請求項1から請求項3のうちのいずれか1項に記載の回答検索装置。
  5. 検索部は、入力された質問文を構成する単語のうち第2算出処理の対象である単語の各関連度を用いて前記質問文に対する回答文を複数の回答文から検索する
    請求項4記載の回答検索装置。
  6. 検索部は、第1算出処理の対象である1つ以上の単語の各関連度と、第2算出処理の対象である1つ以上の単語の各関連度との総和が複数の組の中で最大である組に含まれる回答文を検索結果として出力する
    請求項5記載の回答検索装置。
  7. 検索対象である複数の回答文に含まれる任意の1つの単語が前記複数の回答文それぞれと関連する度合いである各関連度を算出する第1算出処理を、前記複数の回答文に含まれる所定の条件を満たす全ての単語に渡って実行し、
    入力された質問文を構成する単語のうち前記第1算出処理の対象である単語の各関連度を用いて前記質問文に対する回答文を前記複数の回答文から検索する
    ことを特徴とする回答検索方法。
  8. 第1算出処理の対象である1つ以上の単語の各関連度の総和が複数の回答文の中で最大である回答文を検索結果として出力する
    請求項7記載の回答検索方法。
  9. コンピュータに、
    検索対象である複数の回答文に含まれる任意の1つの単語が前記複数の回答文それぞれと関連する度合いである各関連度を算出する第1算出処理を、前記複数の回答文に含まれる所定の条件を満たす全ての単語に渡って実行する演算処理、および
    入力された質問文を構成する単語のうち前記第1算出処理の対象である単語の各関連度を用いて前記質問文に対する回答文を前記複数の回答文から検索する検索処理
    を実行させるための回答検索プログラム。
  10. コンピュータに、
    第1算出処理の対象である1つ以上の単語の各関連度の総和が複数の回答文の中で最大である回答文を検索結果として出力する出力処理を実行させる
    請求項9記載の回答検索プログラム。
JP2019020727A 2019-02-07 2019-02-07 回答検索装置、回答検索方法および回答検索プログラム Pending JP2020129190A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019020727A JP2020129190A (ja) 2019-02-07 2019-02-07 回答検索装置、回答検索方法および回答検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019020727A JP2020129190A (ja) 2019-02-07 2019-02-07 回答検索装置、回答検索方法および回答検索プログラム

Publications (1)

Publication Number Publication Date
JP2020129190A true JP2020129190A (ja) 2020-08-27

Family

ID=72174662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019020727A Pending JP2020129190A (ja) 2019-02-07 2019-02-07 回答検索装置、回答検索方法および回答検索プログラム

Country Status (1)

Country Link
JP (1) JP2020129190A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610860A (zh) * 2022-05-07 2022-06-10 荣耀终端有限公司 一种问答方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019008367A (ja) * 2017-06-20 2019-01-17 日本電信電話株式会社 質問単語重み算出装置、質問回答検索装置、質問単語重み算出方法、質問回答検索方法、プログラム、及び記憶媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019008367A (ja) * 2017-06-20 2019-01-17 日本電信電話株式会社 質問単語重み算出装置、質問回答検索装置、質問単語重み算出方法、質問回答検索方法、プログラム、及び記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梅村 和宏、外2名: "質問文と回答文の対応関係を考慮した質問回答型電子掲示板検索手法", 情報処理学会研究報告, vol. 第2006巻,第78号, JPN6022048187, 14 July 2006 (2006-07-14), JP, pages 343 - 350, ISSN: 0004920092 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610860A (zh) * 2022-05-07 2022-06-10 荣耀终端有限公司 一种问答方法及系统
CN114610860B (zh) * 2022-05-07 2022-09-27 荣耀终端有限公司 一种问答方法及系统

Similar Documents

Publication Publication Date Title
US8924396B2 (en) Method and system for scoring texts
JP5379138B2 (ja) 領域辞書の作成
CN112380244B (zh) 一种分词搜索方法、装置、电子设备及可读存储介质
US10037381B2 (en) Apparatus and method for searching information based on Wikipedia's contents
US9772991B2 (en) Text extraction
Alshalabi et al. Arabic light-based stemmer using new rules
JP5538185B2 (ja) テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
US11544309B2 (en) Similarity index value computation apparatus, similarity search apparatus, and similarity index value computation program
JP2013174995A (ja) 基本語彙抽出装置、及びプログラム
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
US10043511B2 (en) Domain terminology expansion by relevancy
CN113743090A (zh) 一种关键词提取方法及装置
JP2020129190A (ja) 回答検索装置、回答検索方法および回答検索プログラム
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP6613644B2 (ja) 情報処理装置、情報処理システム及びプログラム
US8745078B2 (en) Control computer and file search method using the same
JP5362651B2 (ja) 重要語句抽出装置及び方法及びプログラム
Rubtsova Automatic term extraction for sentiment classification of dynamically updated text collections into three classes
US10810236B1 (en) Indexing data in information retrieval systems
JP5739352B2 (ja) 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム
US20180349358A1 (en) Non-transitory computer-readable storage medium, information processing device, and information generation method
KR102152889B1 (ko) 워드 임베딩을 활용한 반의어 추출 방법
WO2013150633A1 (ja) 文書処理システム、及び、文書処理方法
US11860876B1 (en) Systems and methods for integrating datasets
JP2019164577A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230418

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230919