JP2017204018A - 検索処理方法、検索処理プログラムおよび情報処理装置 - Google Patents

検索処理方法、検索処理プログラムおよび情報処理装置 Download PDF

Info

Publication number
JP2017204018A
JP2017204018A JP2016093659A JP2016093659A JP2017204018A JP 2017204018 A JP2017204018 A JP 2017204018A JP 2016093659 A JP2016093659 A JP 2016093659A JP 2016093659 A JP2016093659 A JP 2016093659A JP 2017204018 A JP2017204018 A JP 2017204018A
Authority
JP
Japan
Prior art keywords
word
query
probability
data
appears
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016093659A
Other languages
English (en)
Inventor
拓哉 牧野
Takuya Makino
拓哉 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016093659A priority Critical patent/JP2017204018A/ja
Priority to US15/587,353 priority patent/US20170323008A1/en
Publication of JP2017204018A publication Critical patent/JP2017204018A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Abstract

【課題】入力された文字列に基づき適切なQ&Aを抽出する検索処理方法、処理プログラム及び情報処理装置を提供する。【解決手段】文字列の入力を受け付け、問合せについてのデータを含む問合せデータから、第1の単語を、問合せデータにおいて文字列の次に第1の単語が出現する確率に基づき特定し、問合せデータから、同一の質問回答データを正解とする1又は複数の問合せをそれぞれ含む複数の問合せ集合を抽出し、複数の問合せ集合のうち第1の単語が出現する問合せ集合とは異なる問合せ集合に出現する第2の単語を、複数の問合せ集合の各々に第1の単語が出現する確率と第2の単語が出現する確率との比に基づき特定し、文字列と第1の単語と第2の単語とに基づき、質問回答データを格納する第1データ格納部に対して検索を行う処理を含む。【選択図】図14

Description

本発明は、検索処理技術に関する。
コールセンタ等においては、顧客からの問合せに応じるため、Q&A(Question and Answer)集の検索システムが利用される。検索システムを利用するオペレータは、顧客が話したことを基に文字列の入力操作(例えば打鍵)を行うことで検索システムに検索を実行させ、正解のQ&Aを提示させる。
但し、従来技術を利用したとしても正解のQ&Aが提示されないことがある。
特開2007−157006号公報 特開2014−120053号公報 特開2006−39881号公報 特開2014−134871号公報 特開2012−242966号公報
Steffen Bickel, Peter Haider, and Tobias Scheffer, "Learning to Complete Sentences", European Conference on Machine Learning, 2005, pp.497-504
本発明の目的は、1つの側面では、入力された文字列に基づき適切なQ&Aを抽出するための技術を提供することである。
本発明に係る検索処理方法は、文字列の入力を受け付け、問合せについてのデータを含む問合せデータから、第1の単語を、問合せデータにおいて文字列の次に第1の単語が出現する確率に基づき特定し、問合せデータから、同一の質問回答データを正解とする1又は複数の問合せをそれぞれ含む複数の問合せ集合を抽出し、複数の問合せ集合のうち第1の単語が出現する問合せ集合とは異なる問合せ集合に出現する第2の単語を、複数の問合せ集合の各々に第1の単語が出現する確率と第2の単語が出現する確率との比に基づき特定し、文字列と第1の単語と第2の単語とに基づき、質問回答データを格納する第1データ格納部に対して検索を行う処理を含む。
1つの側面では、入力された文字列に基づき適切なQ&Aを抽出できるようになる。
図1は、文字列の入力と検索結果の表示とについて説明するための図である。 図2Aは、検索処理装置の機能ブロック図である。 図2Bは、検索処理部の機能ブロック図である。 図3は、問合せデータ格納部に格納されるデータの一例を示す図である。 図4は、Q&Aデータ格納部に格納されるデータの一例を示す図である。 図5は、第1算出処理部が実行する処理の処理フローを示す図である。 図6は、問合せデータ格納部に格納される問合せのデータの一例を示す図である。 図7は、文データ格納部に格納されるデータの一例を示す図である。 図8は、単語列データ格納部に格納されるデータの一例を示す図である。 図9は、cnt(w)の一例及びcnt(u,w)の一例を示す図である。 図10は、確率データ格納部に格納されるデータの一例を示す図である。 図11は、第1算出部が処理を実行した後に第2算出部が実行する処理の処理フローを示す図である。 図12は、確率分布データ格納部に格納されるデータの一例を示す図である。 図13は、キーワード格納部に格納されるデータの一例を示す図である。 図14は、検索処理部が実行する処理の処理フローを示す図である。 図15は、抽出される拡張キーワードの一例を示す図である。 図16は、言語モデルについて説明するための図である。 図17は、第2の実施の形態のシステムの概要を示す図である。 図18は、コンピュータの機能ブロック図である。
[実施の形態1]
入力された文字列に基づいて検索を行う場合、文字列に含まれる文字の数が多くなるほど検索の手がかりが増えるため、正解のQ&Aを抽出する可能性が高くなるが、ユーザの負担は多くなる。例えば図1に示すように、ユーザが入力しようと考えた文字列の一部が入力欄1001に入力された段階で、検索結果の表示欄1002に正解のQ&A(図1においては、太枠1003で囲まれた部分)が表示されることが好ましい。
また、図1の例のように、入力された文字列が正解のQ&Aの文には含まれていない場合においても正解のQ&Aが抽出されることが好ましい。但し、入力された文字列のみを手がかりとして検索を行う方法を利用すると、図1の例における正解のQ&Aは表示されず、正解ではないQ&Aが表示される。また、入力された文字列と一緒に出現する傾向がある文字列を使用して検索を行う場合も、検索結果が多様なQ&Aを含むとは限らず、正解のQ&Aが表示されないことがある。
そこで、本実施の形態においては以下のような方法で検索処理が実行される。
図2Aに、本実施の形態における検索処理装置1の機能ブロック図を示す。検索処理装置1は、問合せデータ格納部101と、文データ格納部102と、単語列データ格納部103と、Q&Aデータ格納部104と、確率データ格納部105と、確率分布データ格納部106と、キーワード格納部107と、出力データ格納部108と、第1算出部111と、第2算出部112と、検索処理部113とを含む。図2Bに、検索処理部113の機能ブロック図を示す。検索処理部113、第1処理部1131と、第2処理部1132と、第3処理部1133とを含む。
第1算出部111は、問合せデータ格納部101に格納されているデータに基づき処理を実行し、処理結果を文データ格納部102、単語列データ格納部103及び確率データ格納部105に格納する。第2算出部112は、単語列データ格納部103に格納されているデータ、Q&Aデータ格納部104に格納されているデータ及び確率データ格納部105に格納されているデータに基づき処理を実行し、処理結果を確率分布データ格納部106及びキーワード格納部107に格納する。検索処理部113は、確率データ格納部105に格納されているデータ、確率分布データ格納部106に格納されているデータ及びキーワード格納部107に格納されているデータに基づき処理を実行し、処理結果を出力データ格納部108に格納する。特に、第1処理部1131は、拡張キーワードのうち最初に追加される拡張キーワードを抽出する処理を実行する。第2処理部1132は、拡張キーワードのうち2番目以降に追加される拡張キーワードを抽出する処理を実行する。第3処理部1133は、入力された文字列と拡張キーワードとに基づき検索を実行する。
図3に、問合せデータ格納部101に格納されるデータの一例を示す。図3の例では、問合せのID(IDentifier)と、問合せに関する自然言語のデータと、問合せの正解として適切なQ&A(すなわち、問合せに対して提示される応答として適切なQ&A)のIDとが格納される。問合せデータ格納部101に格納される問合せのデータは、実際に過去に受け付けた問合せのデータである。
図4に、Q&Aデータ格納部104に格納されるデータの一例を示す。図4の例では、Q&AのIDと、質問のデータと、回答のデータとが格納される。Q&Aデータ格納部104に格納される質問のデータ及び回答のデータは、Q&Aのモデルとして管理者等により入力されたデータ(例えばFAQ(Frequently Asked Questions)のデータ)である。
次に、図5乃至図16を用いて、検索処理装置1の動作を説明する。
まず、図5乃至図10を用いて、第1算出部111が実行する処理について説明する。検索処理装置1の第1算出部111は、問合せデータ格納部101に格納されている問合せのデータを文単位に分割して文データを生成する。そして、第1算出部111は、生成した文データを文データ格納部102に格納する(図5:ステップS1)。
図6に、問合せデータ格納部101に格納される問合せのデータの一例を示す。問合せのデータは、問合せごとに、1又は複数の文のデータを含む。ステップS1の処理によって、例えば図7に示すように、各文について文データが生成されて文データ格納部102に格納される。
第1算出部111は、文データ格納部102に格納された文データに対して単語分割(品詞分解とも呼ばれる)を実行して単語列データを生成する。そして、第1算出部111は、生成した単語列データを単語列データ格納部103に格納する(ステップS3)。
図8に、単語列データ格納部103に格納されるデータの一例を示す。図8の例では、文データが単語単位に分割されているが、単語の出現順序は維持される。
第1算出部111は、単語列データ格納部103に格納されている単語のうち未処理の単語を1つ特定する(ステップS5)。ステップS5において特定した単語をwとする。
第1算出部111は、ステップS5において特定した単語wが単語列データ格納部103に格納された単語列データにおいて出現する回数を計数する(ステップS7)。ステップS7において計数される回数をcnt(w)とする。図9(a)に、ステップS7において計数されるcnt(w)の一例を示す。
第1算出部111は、単語列データ格納部103に格納された単語列データにおいて単語uの次に単語wが出現する回数を単語uごとに計数する(ステップS9)。ステップS9において計数される回数をcnt(u,w)とする。図9(b)に、ステップS9において計数されるcnt(u,w)の一例を示す。
第1算出部111は、単語uの次に単語wが出現する確率を単語uごとに算出し、算出した確率を確率データ格納部105に格納する(ステップS11)。ステップS11においては、以下の式に従って単語uごとに確率が算出される。
Figure 2017204018
図10に、確率データ格納部105に格納されるデータの一例を示す。図10の例では、単語uと単語wとの組合せごとに、P(w|u)が格納される。
第1算出部111は、未処理の単語が有るか判定する(ステップS13)。未処理の単語が有る場合(ステップS13:Yesルート)、ステップS5の処理に戻る。一方、未処理の単語が無い場合(ステップS13:Noルート)、処理は終了する。
以上のような処理を実行すれば、事前に単語列の出現確率が算出されるので、検索に要する時間が長くなることを抑制できるようになる。
次に、図11乃至図13を用いて、第1算出部111が処理を実行した後に第2算出部112が実行する処理について説明する。
まず、第2算出部112は、単語列データ格納部103に格納されている単語列データから未処理の内容語(名詞、動詞、形容詞など)を1つ特定する(図11:ステップS21)。ステップS21において特定された内容語を処理対象の内容語と呼ぶ。
第2算出部112は、Q&Aデータ格納部104にIDが格納されているQ&Aのうち未処理のQ&AのIDを1つ特定する(ステップS23)。
第2算出部112は、ステップS23において特定したQ&AのIDに対応する問合せ集合(すなわち、ステップS23において特定したQ&Aを正解とする問合せの集合)を問合せデータ格納部101から特定する(ステップS25)。
第2算出部112は、ステップS23において特定したQ&Aを正解とする問合せに処理対象の内容語が出現する回数を計数する(ステップS27)。
第2算出部112は、問合せデータ格納部101にIDが格納されている全問合せに処理対象の内容語が出現する回数を計数する(ステップS29)。なお、ステップS29の処理が既に実行されている場合にはステップS29の処理を省略してもよいため、図11においてステップS29のブロックは破線で示されている。
第2算出部112は、ステップS23において特定したQ&Aを正解とする問合せ集合に処理対象の内容語が出現する確率を算出し、算出した確率を確率分布データ格納部106に格納する(ステップS31)。
ステップS31においては、以下の式に従って計算が行われる。
Figure 2017204018
ここで、iはQ&AのIDを表す変数であり、wはステップS21において特定した内容語である。cnt(w,Fi)は識別子がiであるQ&Aを正解とする問合せ集合に内容語wが出現する回数であり、Σkcnt(w,Fk)は全問合せに内容語wが出現する回数を表す。
図12に、確率分布データ格納部106に格納されるデータの一例を示す。図12の例では、内容語ごとに、その内容語が各Q&Aを正解とする問合せ集合に出現する確率が格納されている。
第2算出部112は、ステップS31において算出した確率が0ではない場合に、処理対象の内容語を拡張キーワードの候補としてQ&AのIDに対応付けてキーワード格納部107に登録する(ステップS33)。
図13に、キーワード格納部107に格納されるデータの一例を示す。図13の例では、Q&Aの識別子と、そのQ&Aを正解とする問合せ集合に出現する確率が0ではないキーワードとが格納される。
第2算出部112は、未処理のQ&Aが有るか判定する(ステップS35)。未処理のQ&Aが有る場合(ステップS35:Yesルート)、ステップS23の処理に戻る。
一方、未処理のQ&Aが無い場合(ステップS35:Noルート)、第2算出部112は、未処理の内容語が有るか判定する(ステップS37)。
未処理の内容語が有る場合(ステップS37:Yesルート)、ステップS21の処理に戻る。一方、未処理の内容語が無い場合(ステップS37:Noルート)、処理は終了する。
以上のような処理を実行すれば、各内容語が各問合せ集合(ここでは、同一のQ&Aを正解とする問合せ集合)に出現する確率が事前に算出されるので、検索に要する時間が長くなることを抑制できるようになる。
次に、図14乃至図16を用いて、検索処理部113が実行する処理について説明する。
まず、検索処理部113は、文字列の入力指示を検索処理装置1の操作者から受け付ける(図14:ステップS41)。ステップS41における文字列は、例えば、特許請求の範囲における文字列に相当する。
検索処理部113は、入力された文字列を単語列に分割する(ステップS43)。
検索処理部113における第1処理部1131は、入力された文字列から生成された単語列の次に出現する確率が最も高い単語を、拡張キーワードとして確率データ格納部105から抽出する(ステップS45)。例えば「こどもが」という文字列が入力された場合、文字列は「こども/が」という単語列に分割されるので、「こども」の次に「が」が出現する確率と「が」の次に或る単語が出現する確率とに基づき、「こどもが」の次に或る単語が出現する確率を求めることができる。ここでは、図15(a)に示すように、「風邪」という単語が抽出されたとする。ステップS45において特定される単語は、例えば、特許請求の範囲における第1の単語に相当する。
なお、単語列のつながりのよさを計算する言語モデルが知られており、ステップS45の処理における計算にもその技術を利用することができる。例えば図16に示すように、「こどもがインフルエンザにかかった」という文が入力された場合、入力された文は「こども/が/インフルエンザ/に/かかっ/た」という単語列に分割することができる。ここで、「こどもがインフルエンザにかかった」という文が出現する確率は、P(が|こども)*P(インフルエンザ|が)*P(に|インフルエンザ)*P(かかっ|に)*P(た|かかっ)によって算出される。このような言語モデルについては、非特許文献1にも記述がある。
検索処理部113における第2処理部1132は、入力された文字列との関連性を有し、且つ、既に抽出された拡張キーワードの意味とQ&Aの観点で遠い意味を有する単語を、拡張キーワードとしてキーワード格納部107から抽出する(ステップS47)。ステップS47において特定される単語は、例えば、特許請求の範囲における第2の単語に相当する。
ステップS47においては、以下の式によってキーワードが抽出される。
Figure 2017204018
ここで、Qは入力された文字列から生成された単語列t1,t2,・・・である。Vは拡張キーワードの候補の集合である。wiはVに含まれる拡張キーワードの候補である。Sは計算時点までに選択された拡張キーワードの集合である。qjはSに含まれる拡張キーワードである。λはハイパーパラメータである。
第1項のsim1(wi,Q)は以下のように表される。
Figure 2017204018
第1項は、単語列t1,t2,・・・とのつながりのよさ(すなわち、単語列t1,t2,・・・の次に出現する確率の高さ)を表す。
第2項のsim2(wi,qj)は以下のように表される。
Figure 2017204018
第2項は、既に選択された拡張キーワードとの、Q&Aの観点での語義の近さを表す。出現確率の比pk(wi)/pk(qj)が大きいほど第2の項の値は小さくなる。例えば、或る問合せ集合にwiが出現する確率が高く且つqjが出現する確率が低い場合、第2項の値は小さくなる。また、或る問合せ集合にwiが出現する確率が低く且つqjが出現する確率が高い場合も、第2項の値は小さくなる。
例えば図15(b)の例に示すように、「こどもが」という文字列が入力され且つ「風邪」という拡張キーワードが既に選択された場合、「こどもが」の次に出現する確率が比較的高く且つ「風邪」とはQ&Aの観点で意味が近くない「扶養」が選択される。
また、例えば図15(c)の例に示すように、「こどもが」という文字列が入力され、「風邪」という拡張キーワードが既に選択され、且つ「扶養」という拡張キーワードが既に選択された場合、「こどもが」の次に出現する確率が比較的高く且つ「風邪」とはQ&Aの観点で意味が近くない「産まれる」が選択される。
検索処理部113は、ステップS45及びS47において抽出された拡張キーワードの数が所定値以上であるか判定する(ステップS49)。ステップS45及びS47において抽出された拡張キーワードの数が所定値以上ではない場合(ステップS49:Noルート)、ステップS47の処理に戻る。
一方、ステップS45及びS47において抽出された拡張キーワードの数が所定値以上である場合(ステップS49:Yesルート)、検索処理部113における第3処理部1133は、入力された文字列と抽出された拡張キーワードとを用いて、Q&Aデータ格納部104に対する検索を実行する(ステップS51)。例えば、(入力文字列)AND(拡張キーワード OR 拡張キーワード OR ・・・OR 拡張キーワード)のような検索式によって検索が実行される。
検索処理部113は、検索によって抽出されたQ&Aのデータを含む検索結果のデータを生成し、出力データ格納部108に格納する。そして、検索処理部113は、出力データ格納部108に格納された検索結果のデータを出力する(ステップS53)。例えば、検索処理部113は、検索結果のデータを検索処理装置1の表示装置に表示させる。そして処理は終了する。
以上のような処理を実行すれば、多様な観点で特定された拡張キーワードに基づく検索が実行されるので、観点が偏った検索結果が抽出されることを回避できるようになる。
また、入力された文字列の次に出現する確率を使用するので、入力された文字列に関連を有する拡張キーワードを抽出できるようになり、正解のQ&Aが抽出されやすくなる。
また、打鍵などの入力操作の負担を減らすことができるようになる。
[実施の形態2]
図17に、第2の実施の形態におけるシステムの概要を示す。第2の実施の形態においては、インターネット等のネットワーク5に、検索処理装置1と、ユーザ端末3a及び3bとが接続される。図17においてユーザ端末の数は2であるが、数に限定は無い。
ユーザ端末3a及び3bは、ユーザから文字列の入力指示を受け付け、入力された文字列を検索処理装置1に送信する。検索処理装置1は、受信した文字列に基づき検索を実行し、検索結果をユーザ端末3a及び3bに送信する。
このようにすれば、検索処理装置1を直接操作しないユーザが検索処理装置1によるQ&Aデータの検索を利用することができるようになる。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した検索処理装置1の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
なお、上で述べた検索処理装置1は、コンピュータ装置であって、図18に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態に係る検索処理方法は、(A)文字列(例えば実施の形態のステップS41の文字列)の入力を受け付け、(B)問合せについてのデータを含む問合せデータ(例えば実施の形態における問合せデータ格納部101に格納されているデータ)から、第1の単語(例えば実施の形態のステップS45において抽出される単語)を、問合せデータにおいて文字列の次に第1の単語が出現する確率に基づき特定し、(C)問合せデータから、同一の質問回答データを正解とする1又は複数の問合せをそれぞれ含む複数の問合せ集合を抽出し、(D)複数の問合せ集合のうち第1の単語が出現する問合せ集合とは異なる問合せ集合に出現する第2の単語(例えば実施の形態のステップS47において抽出される単語)を、複数の問合せ集合の各々に第1の単語が出現する確率と第2の単語が出現する確率との比に基づき特定し、(E)文字列と第1の単語と第2の単語とに基づき、質問回答データを格納する第1データ格納部(例えば実施の形態におけるQ&Aデータ格納部104)に対して検索を行う処理を含む。
入力された文字列からだけではユーザの真の意図をくみ取ることは難しい。しかし、上で述べたようにすれば、多様な観点で特定された単語に基づく検索が実行されるので、観点が偏った検索結果が抽出されることを回避し、正解の質問回答データを抽出することができるようになる。
また、本検索処理方法は、(F)複数の問合せ集合に含まれる単語の各々について、当該単語が複数の問合せ集合の各々に出現する確率を算出し、(G)複数の問合せ集合の各々について、当該問合せ集合に出現する確率が所定値以上である単語を特定し、第2データ格納部に格納する処理をさらに含んでもよい。そして、第2の単語を特定する処理において、(d1)複数の問合せ集合の各々に第1の単語が出現する確率と第2の単語が出現する確率との比に基づき、第2データ格納部に格納されている単語から第2の単語を特定してもよい。
正解の質問回答データが同じである単語が選ばれることを抑制できるようになる。また、予め確率を計算しておけば、文字列の入力時に迅速に検索を行えるようになる。
また、本検索処理方法は、(H)問合せデータに出現し且つ2つの単語を含む単語列の各々について、当該単語列が出現する確率を算出し、算出した当該確率を第3データ格納部に格納してもよい。そして、第1の単語を特定する処理において、(b1)第3データ格納部に格納された確率に基づき、第1の単語を特定してもよい。
予め確率を算出しておけば、文字列の入力時に迅速に検索を行えるようになる。
また、本検索処理方法は、(I)複数の問合せ集合のうち第1の単語が出現する問合せ集合及び第2の単語が出現する問合せ集合とは異なる問合せ集合に出現する第3の単語を、複数の問合せ集合の各々に第1の単語及び第2の単語が出現する確率と第3の単語が出現する確率との比に基づき特定する処理をさらに含んでもよい。そして、検索を行う処理において、(e1)文字列と第1の単語と第2の単語と第3の単語とに基づき、第1データ格納部に対して検索を行ってもよい。
さらに異なる観点から得られた単語に基づく検索を行うことができるようになる。
また、第2の単語を特定する処理において、(d2)第2の単語が文字列の次に出現する確率にさらに基づき、第2の単語を特定してもよい。
より適切な第2の単語を特定できるようになる。
また、本検索処理方法は、(J)第1データ格納部に対する検索の結果を出力する処理をさらに含んでもよい。
検索の結果を文字列を入力したユーザ等が確認できるようになる。
また、第1の単語は、文字列の次に出現する確率が最も高い単語であってもよい。
また、第2の単語は内容語であってもよい。
なお、上記方法による処理をコンピュータに実行させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
コンピュータに、
文字列の入力を受け付け、
問合せについてのデータを含む問合せデータから、第1の単語を、前記問合せデータにおいて前記文字列の次に前記第1の単語が出現する確率に基づき特定し、
前記問合せデータから、同一の質問回答データを正解とする1又は複数の問合せをそれぞれ含む複数の問合せ集合を抽出し、
前記複数の問合せ集合のうち前記第1の単語が出現する問合せ集合とは異なる問合せ集合に出現する第2の単語を、前記複数の問合せ集合の各々に前記第1の単語が出現する確率と前記第2の単語が出現する確率との比に基づき特定し、
前記文字列と前記第1の単語と前記第2の単語とに基づき、質問回答データを格納する第1データ格納部に対して検索を行う、
処理を実行させる検索処理プログラム。
(付記2)
前記コンピュータに、
前記複数の問合せ集合に含まれる単語の各々について、当該単語が前記複数の問合せ集合の各々に出現する確率を算出し、
前記複数の問合せ集合の各々について、当該問合せ集合に出現する確率が所定値以上である単語を特定し、第2データ格納部に格納する
処理をさらに実行させ、
前記第2の単語を特定する処理において、
前記複数の問合せ集合の各々に前記第1の単語が出現する確率と前記第2の単語が出現する確率との比に基づき、前記第2データ格納部に格納されている単語から前記第2の単語を特定する、
付記1記載の検索処理プログラム。
(付記3)
前記コンピュータに、
前記問合せデータに出現し且つ2つの単語を含む単語列の各々について、当該単語列が出現する確率を算出し、算出した当該確率を第3データ格納部に格納する、
処理をさらに実行させ、
前記第1の単語を特定する処理において、
前記第3データ格納部に格納された前記確率に基づき、前記第1の単語を特定する、
付記1又は2記載の検索処理プログラム。
(付記4)
前記コンピュータに、
前記複数の問合せ集合のうち前記第1の単語が出現する問合せ集合及び前記第2の単語が出現する問合せ集合とは異なる問合せ集合に出現する第3の単語を、前記複数の問合せ集合の各々に前記第1の単語及び前記第2の単語が出現する確率と前記第3の単語が出現する確率との比に基づき特定する、
処理をさらに実行させ、
前記検索を行う処理において、
前記文字列と前記第1の単語と前記第2の単語と前記第3の単語とに基づき、前記第1データ格納部に対して検索を行う、
付記1記載の検索処理プログラム。
(付記5)
前記第2の単語を特定する処理において、
前記第2の単語が前記文字列の次に出現する確率にさらに基づき、前記第2の単語を特定する、
付記1乃至4のいずれか1つ記載の検索処理プログラム。
(付記6)
前記コンピュータに、
前記第1データ格納部に対する前記検索の結果を出力する、
処理をさらに実行させる付記1乃至5のいずれか1つ記載の検索処理プログラム。
(付記7)
前記第1の単語は、前記文字列の次に出現する確率が最も高い単語である、
付記1乃至6のいずれか1つ記載の検索処理プログラム。
(付記8)
前記第2の単語は内容語である、
付記1乃至7のいずれか1つ記載の検索処理プログラム。
(付記9)
コンピュータが、
文字列の入力を受け付け、
問合せについてのデータを含む問合せデータから、第1の単語を、前記問合せデータにおいて前記文字列の次に前記第1の単語が出現する確率に基づき特定し、
前記問合せデータから、同一の質問回答データを正解とする1又は複数の問合せをそれぞれ含む複数の問合せ集合を抽出し、
前記複数の問合せ集合のうち前記第1の単語が出現する問合せ集合とは異なる問合せ集合に出現する第2の単語を、前記複数の問合せ集合の各々に前記第1の単語が出現する確率と前記第2の単語が出現する確率との比に基づき特定し、
前記文字列と前記第1の単語と前記第2の単語とに基づき、質問回答データを格納する第1データ格納部に対して検索を行う、
処理を実行する検索処理方法。
(付記10)
文字列の入力を受け付け、問合せについてのデータを含む問合せデータから、第1の単語を、前記問合せデータにおいて前記文字列の次に前記第1の単語が出現する確率に基づき特定する第1特定部と、
前記問合せデータから、同一の質問回答データを正解とする1又は複数の問合せをそれぞれ含む複数の問合せ集合を抽出し、前記複数の問合せ集合のうち前記第1の単語が出現する問合せ集合とは異なる問合せ集合に出現する第2の単語を、前記複数の問合せ集合の各々に前記第1の単語が出現する確率と前記第2の単語が出現する確率との比に基づき特定する第2特定部と、
前記文字列と前記第1の単語と前記第2の単語とに基づき、質問回答データを格納する第1データ格納部に対して検索を行う検索部と、
を有する情報処理装置。
1 検索処理装置 101 問合せデータ格納部
102 文データ格納部 103 単語列データ格納部
104 Q&Aデータ格納部 105 確率データ格納部
106 確率分布データ格納部 107 キーワード格納部
108 出力データ格納部 111 第1算出部
112 第2算出部 113 検索処理部
3a,3b ユーザ端末 5 ネットワーク
1131 第1処理部 1132 第2処理部
1133 第3処理部

Claims (8)

  1. コンピュータに、
    文字列の入力を受け付け、
    問合せについてのデータを含む問合せデータから、第1の単語を、前記問合せデータにおいて前記文字列の次に前記第1の単語が出現する確率に基づき特定し、
    前記問合せデータから、同一の質問回答データを正解とする1又は複数の問合せをそれぞれ含む複数の問合せ集合を抽出し、
    前記複数の問合せ集合のうち前記第1の単語が出現する問合せ集合とは異なる問合せ集合に出現する第2の単語を、前記複数の問合せ集合の各々に前記第1の単語が出現する確率と前記第2の単語が出現する確率との比に基づき特定し、
    前記文字列と前記第1の単語と前記第2の単語とに基づき、質問回答データを格納する第1データ格納部に対して検索を行う、
    処理を実行させる検索処理プログラム。
  2. 前記コンピュータに、
    前記複数の問合せ集合に含まれる単語の各々について、当該単語が前記複数の問合せ集合の各々に出現する確率を算出し、
    前記複数の問合せ集合の各々について、当該問合せ集合に出現する確率が所定値以上である単語を特定し、第2データ格納部に格納する
    処理をさらに実行させ、
    前記第2の単語を特定する処理において、
    前記複数の問合せ集合の各々に前記第1の単語が出現する確率と前記第2の単語が出現する確率との比に基づき、前記第2データ格納部に格納されている単語から前記第2の単語を特定する、
    請求項1記載の検索処理プログラム。
  3. 前記コンピュータに、
    前記問合せデータに出現し且つ2つの単語を含む単語列の各々について、当該単語列が出現する確率を算出し、算出した当該確率を第3データ格納部に格納する、
    処理をさらに実行させ、
    前記第1の単語を特定する処理において、
    前記第3データ格納部に格納された前記確率に基づき、前記第1の単語を特定する、
    請求項1又は2記載の検索処理プログラム。
  4. 前記コンピュータに、
    前記複数の問合せ集合のうち前記第1の単語が出現する問合せ集合及び前記第2の単語が出現する問合せ集合とは異なる問合せ集合に出現する第3の単語を、前記複数の問合せ集合の各々に前記第1の単語及び前記第2の単語が出現する確率と前記第3の単語が出現する確率との比に基づき特定する、
    処理をさらに実行させ、
    前記検索を行う処理において、
    前記文字列と前記第1の単語と前記第2の単語と前記第3の単語とに基づき、前記第1データ格納部に対して検索を行う、
    請求項1記載の検索処理プログラム。
  5. 前記第2の単語を特定する処理において、
    前記第2の単語が前記文字列の次に出現する確率にさらに基づき、前記第2の単語を特定する、
    請求項1乃至4のいずれか1つ記載の検索処理プログラム。
  6. 前記コンピュータに、
    前記第1データ格納部に対する前記検索の結果を出力する、
    処理をさらに実行させる請求項1乃至5のいずれか1つ記載の検索処理プログラム。
  7. コンピュータが、
    文字列の入力を受け付け、
    問合せについてのデータを含む問合せデータから、第1の単語を、前記問合せデータにおいて前記文字列の次に前記第1の単語が出現する確率に基づき特定し、
    前記問合せデータから、同一の質問回答データを正解とする1又は複数の問合せをそれぞれ含む複数の問合せ集合を抽出し、
    前記複数の問合せ集合のうち前記第1の単語が出現する問合せ集合とは異なる問合せ集合に出現する第2の単語を、前記複数の問合せ集合の各々に前記第1の単語が出現する確率と前記第2の単語が出現する確率との比に基づき特定し、
    前記文字列と前記第1の単語と前記第2の単語とに基づき、質問回答データを格納する第1データ格納部に対して検索を行う、
    処理を実行する検索処理方法。
  8. 文字列の入力を受け付け、問合せについてのデータを含む問合せデータから、第1の単語を、前記問合せデータにおいて前記文字列の次に前記第1の単語が出現する確率に基づき特定する第1特定部と、
    前記問合せデータから、同一の質問回答データを正解とする1又は複数の問合せをそれぞれ含む複数の問合せ集合を抽出し、前記複数の問合せ集合のうち前記第1の単語が出現する問合せ集合とは異なる問合せ集合に出現する第2の単語を、前記複数の問合せ集合の各々に前記第1の単語が出現する確率と前記第2の単語が出現する確率との比に基づき特定する第2特定部と、
    前記文字列と前記第1の単語と前記第2の単語とに基づき、質問回答データを格納する第1データ格納部に対して検索を行う検索部と、
    を有する情報処理装置。
JP2016093659A 2016-05-09 2016-05-09 検索処理方法、検索処理プログラムおよび情報処理装置 Pending JP2017204018A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016093659A JP2017204018A (ja) 2016-05-09 2016-05-09 検索処理方法、検索処理プログラムおよび情報処理装置
US15/587,353 US20170323008A1 (en) 2016-05-09 2017-05-04 Computer-implemented method, search processing device, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016093659A JP2017204018A (ja) 2016-05-09 2016-05-09 検索処理方法、検索処理プログラムおよび情報処理装置

Publications (1)

Publication Number Publication Date
JP2017204018A true JP2017204018A (ja) 2017-11-16

Family

ID=60244020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016093659A Pending JP2017204018A (ja) 2016-05-09 2016-05-09 検索処理方法、検索処理プログラムおよび情報処理装置

Country Status (2)

Country Link
US (1) US20170323008A1 (ja)
JP (1) JP2017204018A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020123132A (ja) * 2019-01-30 2020-08-13 株式会社東芝 表示制御システム、プログラム、及び記憶媒体
JP7466143B2 (ja) 2020-03-16 2024-04-12 カラクリ株式会社 情報処理装置、学習提案プログラム、及び学習提案方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902738B2 (en) * 2017-08-03 2021-01-26 Microsoft Technology Licensing, Llc Neural models for key phrase detection and question generation
US11238075B1 (en) * 2017-11-21 2022-02-01 InSkill, Inc. Systems and methods for providing inquiry responses using linguistics and machine learning
CN108121800B (zh) * 2017-12-21 2021-12-21 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN108984626B (zh) * 2018-06-20 2021-08-17 腾讯科技(深圳)有限公司 一种数据处理方法、装置及服务器
CN110059171B (zh) * 2019-04-12 2021-01-01 中国工商银行股份有限公司 智能问答性能提升方法及系统
CN110162615B (zh) * 2019-05-29 2021-08-24 北京市律典通科技有限公司 一种智能问答方法、装置、电子设备和存储介质
CN111125329B (zh) * 2019-12-18 2023-07-21 东软集团股份有限公司 一种文本信息筛选方法、装置及设备
CN111144100B (zh) * 2019-12-24 2023-08-18 五八有限公司 一种问题文本识别方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813915B2 (en) * 2000-09-25 2010-10-12 Fujitsu Limited Apparatus for reading a plurality of documents and a method thereof
US7693813B1 (en) * 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US8027973B2 (en) * 2008-08-04 2011-09-27 Microsoft Corporation Searching questions based on topic and focus
US8423555B2 (en) * 2010-07-09 2013-04-16 Comcast Cable Communications, Llc Automatic segmentation of video
AU2011291549B2 (en) * 2010-08-19 2015-03-19 Google Llc Predictive query completion and predictive search results
US9721003B2 (en) * 2011-06-20 2017-08-01 Nokia Technologies Oy Method and apparatus for providing contextual based searches
US9223898B2 (en) * 2013-05-08 2015-12-29 Facebook, Inc. Filtering suggested structured queries on online social networks
WO2014190092A1 (en) * 2013-05-22 2014-11-27 Quantros, Inc. Probabilistic event classification systems and methods
US20150215271A1 (en) * 2013-12-04 2015-07-30 Go Daddy Operating Company, LLC Generating suggested domain names by locking slds, tokens and tlds
US10606846B2 (en) * 2015-10-16 2020-03-31 Baidu Usa Llc Systems and methods for human inspired simple question answering (HISQA)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020123132A (ja) * 2019-01-30 2020-08-13 株式会社東芝 表示制御システム、プログラム、及び記憶媒体
JP7059213B2 (ja) 2019-01-30 2022-04-25 株式会社東芝 表示制御システム、プログラム、及び記憶媒体
JP7466143B2 (ja) 2020-03-16 2024-04-12 カラクリ株式会社 情報処理装置、学習提案プログラム、及び学習提案方法

Also Published As

Publication number Publication date
US20170323008A1 (en) 2017-11-09

Similar Documents

Publication Publication Date Title
JP2017204018A (ja) 検索処理方法、検索処理プログラムおよび情報処理装置
US20210081611A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
TWI684881B (zh) 基於機器翻譯的自動生成重述以產生一對話式代理人的方法、系統及非暫態機器可讀取媒體
CN106874441B (zh) 智能问答方法和装置
US10678824B2 (en) Method of searching for relevant node, and computer therefor and computer program
CN109635094B (zh) 用于生成答案的方法和装置
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JP6849723B2 (ja) 情報を生成するための方法及び装置
US20070016581A1 (en) Category setting support method and apparatus
US11514034B2 (en) Conversion of natural language query
KR101243457B1 (ko) 집합 확장 처리 장치, 집합 확장 처리 방법, 및 비일시적인 기록 매체
US11651015B2 (en) Method and apparatus for presenting information
KR20180094664A (ko) 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
JP6180470B2 (ja) 文章候補提示端末、文章候補提示システム、文章候補提示方法、及びプログラム
JP6663826B2 (ja) 計算機及び応答の生成方法
CN112699645B (zh) 语料标注方法、装置及设备
JP2015022590A (ja) 文字入力装置、文字入力方法、及び文字入力プログラム
JP2018128869A (ja) 検索結果表示装置、検索結果表示方法、及びプログラム
US20200311350A1 (en) Generating method, learning method, generating apparatus, and non-transitory computer-readable storage medium for storing generating program
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
JP2022076439A (ja) 対話管理
US20230244934A1 (en) Augmenting machine learning language models using search engine results
JP6642429B2 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
JP2013225200A (ja) 意味的対応付け装置及びその処理方法とプログラム